モデル評価ジョブの停止

以下の例は、Amazon Bedrock コンソール、、 AWS CLI、および Boto3 を使用してモデル評価ジョブを停止する方法を示しています。

Amazon Bedrock console

以下の手順を使用して、Amazon Bedrock コンソールを使用してモデル評価ジョブを作成します。この手順を正常に完了するには、IAM ユーザー、グループ、またはロールにコンソールにアクセスするための十分な権限があることを確認してください。詳細については、「Amazon Bedrock コンソールを使用してモデル評価ジョブを作成するために必要なアクセス許可」を参照してください。

また、モデル評価ジョブで指定するカスタムプロンプトデータセットには、Amazon S3 バケットに必要な CORS 権限が追加されている必要があります。必要な CORS 権限を追加する方法の詳細については、「」を参照してください。必要な S3 バケットの Cross Origin Resource Sharing (CORS) アクセス許可

人間の作業者を使用するモデル評価ジョブを作成するには

Amazon Bedrock コンソール (https://console.aws.amazon.com/bedrock/) を開きます。
ナビゲーションペインで、[モデル評価] を選択します。
[評価を構築] カードの [自動] で、[自動評価を作成] を選択します。
[自動評価を作成] ページに次の情報を入力します。
1. 評価名 — モデル評価ジョブを説明する名前を付けます。この名前はモデル評価ジョブリストに表示されます。名前は、 AWS アカウント AWS リージョンと内で一意である必要があります。
2. 説明 (オプション) — オプションで説明を入力します。
3. モデル — モデル評価ジョブで使用するモデルを選択します。
  
  Amazon Bedrock で利用可能なモデルとアクセス方法の詳細については、を参照してくださいAmazon Bedrock 基盤モデルへのアクセスを管理する。
4. (オプション) 推論設定を変更するには、[更新] を選択します。
  
  推論設定を変更すると、選択したモデルによって生成されるレスポンスも変更されます。使用可能な推論パラメータの詳細については、「基盤モデルの推論パラメータ」を参照してください。
5. タスクタイプ — モデル評価ジョブ中にモデルに実行させるタスクタイプを選択します。
6. メトリクスとデータセット — 使用可能なメトリクスと組み込みのプロンプトデータセットのリストは、選択したタスクに応じて変わります。[使用可能な組み込みデータセット] のリストから選択することも、[独自のプロンプトデータセットを使用] を選択することもできます。独自のプロンプトデータセットを使用する場合は、保存されているプロンプトデータセットファイルの正確な S3 URI を入力するか、[Browse S3] を選択してプロンプトデータセットを検索します。
7. 評価結果 — モデル評価ジョブの結果を保存するディレクトリの S3 URI を指定します。Amazon S3 内のロケーションを検索するには、[S3 を参照] を選択します。
8. (オプション) カスタマーマネージドキーの使用を有効にするには、[暗号化設定のカスタマイズ (詳細)] を選択します。次に、 AWS KMS 使用したいキーの ARN を指定します。
9. Amazon Bedrock IAM ロール — 必要な権限をすでに持っている IAM サービスロールを使用するには [既存のロールを使用する] を選択するか、[新しいロールを作成] を選択して新しい IAM サービスロールを作成します。
続いて、[作成] を選択します。

ジョブが開始されると、ステータスが「進行中」に変わります。ステータスが「完了」に変わると、ジョブのレポートカードを表示できます。

SDK for Python

手順


import boto3
							client = boto3.client('bedrock')

							job_request = client.create_evaluation_job(
							jobName="111122223333-job-01",
							jobDescription="two different task types",
							roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role",
							inferenceConfig={
							## You must specify an array of models
							"models": [
							{
							"bedrockModel": {
							"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
							"inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"
							}

							},
							{
							"bedrockModel": {
							"modelIdentifier": "anthropic.claude-v2",
							"inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}"
							}
							}
							]

							},
							outputDataConfig={
							"s3Uri":"s3://job-bucket/outputs/"
							},
							evaluationConfig={
							"human": {
							"humanWorkflowConfig": {
							"flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn",
							"instructions": "some human eval instruction"
							},
							"customMetrics": [
							{
							"name": "IndividualLikertScale",
							"description": "testing",
							"ratingMethod": "IndividualLikertScale"
							}
							],
							"datasetMetricConfigs": [
							{
							"taskType": "Summarization",
							"dataset": {
							"name": "Custom_Dataset1",
							"datasetLocation": {
							"s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl"
							}
							},
							"metricNames": [
							"IndividualLikertScale"
							]
							}
							]
							}

							}
							)

							print(job_request)

AWS CLI

では AWS CLI、helpコマンドを使用して、add-somethingで指定したときにどのパラメータが必須で、どのパラメータがオプションであるかを確認できます AWS CLI。


aws bedrock create-evaluation-job help

以下は、 AWS CLIを使用してヒューマンベースのモデル評価ジョブを開始するリクエストの例です。


SOMETHINGGGGGGGG GOES HEREEEEEEEEEE

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ジョブの作成

すでに作成したモデル評価ジョブの検索