Amazon Bedrock 評価を使用して最もパフォーマンスの高いモデルを選択する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Bedrock 評価を使用して最もパフォーマンスの高いモデルを選択する

Amazon Bedrock はモデル評価ジョブをサポートしています。モデル評価ジョブの結果により、モデルまたは推論プロファイル出力を比較し、ダウンストリーム生成 AI アプリケーションに最適なモデルを選択できます。

モデル評価ジョブは、テキスト生成、テキスト分類、質問回答、テキスト要約など、大規模な言語モデル (LLMs) の一般的なユースケースをサポートしています。

自動モデル評価ジョブのモデルのパフォーマンスを評価するには、組み込みプロンプトデータセットまたは独自のプロンプトデータセットを使用できます。ヒューマンワーカーを使用するモデル評価ジョブでは、独自のデータセットを使用する必要があります。

自動モデル評価ジョブを作成するか、人間によるモデル評価ジョブのどちらを作成するかを選択できます。

概要: 自動モデル評価ジョブ

自動モデル評価ジョブでは、モデルのタスク実行能力をすばやく評価できます。特定のユースケースに合わせてカスタマイズされた独自のカスタムプロンプトデータセットを使用することも、使用可能な組み込みデータセットを使用することもできます。

概要: ヒューマンワーカーによるモデル評価ジョブ

ヒューマンワーカーによるモデル評価ジョブでは、モデル評価のプロセスに人間の意見を取り入れることができます。このチームには、社内の従業員や業界の専門家を含めることができます。

このセクションでは、モデル評価ジョブを作成および管理する方法と、使用できるパフォーマンスメトリクスの種類について説明します。このセクションでは、使用可能な組み込みデータセットと、独自のデータセットを指定する方法について説明します。