Pekerjaan evaluasi model otomatis Pekerjaan evaluasi model berbasis manusia

Membuat pekerjaan evaluasi model

Contoh berikut menunjukkan kepada Anda cara membuat pekerjaan evaluasi model menggunakan konsol Amazon Bedrock AWS CLI, SDK untuk Python

Pekerjaan evaluasi model otomatis

Contoh berikut menunjukkan cara membuat pekerjaan evaluasi model otomatis. Semua pekerjaan evaluasi model otomatis mengharuskan Anda membuat peran layanan IAM. Untuk mempelajari lebih lanjut tentang persyaratan IAM untuk menyiapkan pekerjaan evaluasi model, lihatPersyaratan peran layanan untuk pekerjaan evaluasi model.

Amazon Bedrock console

Gunakan prosedur berikut untuk membuat pekerjaan evaluasi model menggunakan konsol Amazon Bedrock. Agar berhasil menyelesaikan prosedur ini, pastikan bahwa pengguna, grup, atau peran IAM Anda memiliki izin yang cukup untuk mengakses konsol. Untuk mempelajari selengkapnya, lihat Izin yang diperlukan untuk membuat pekerjaan evaluasi model menggunakan konsol Amazon Bedrock.

Selain itu, kumpulan data prompt kustom apa pun yang ingin Anda tentukan dalam pekerjaan evaluasi model harus memiliki izin CORS yang diperlukan yang ditambahkan ke bucket Amazon S3. Untuk mempelajari selengkapnya tentang menambahkan izin CORS yang diperlukan, lihat,. Izin Cross Origin Resource Sharing (CORS) yang diperlukan pada bucket S3

Untuk membuat pekerjaan evaluasi model otomatis

Buka konsol Amazon Bedrock: https://console.aws.amazon.com/bedrock/
Di panel navigasi, pilih Evaluasi model.
Dalam Buat kartu evaluasi, di bawah Otomatis pilih Buat evaluasi otomatis.
Pada halaman Buat evaluasi otomatis, berikan informasi berikut
1. Nama evaluasi — Berikan nama pekerjaan evaluasi model yang menggambarkan pekerjaan. Nama ini ditampilkan dalam daftar pekerjaan evaluasi model Anda. Nama harus unik dalam diri Anda Akun AWS dalam sebuah Wilayah AWS.
2. Deskripsi (Opsional) - Berikan deskripsi opsional.
3. Model — Pilih model yang ingin Anda gunakan dalam pekerjaan evaluasi model.
  
  Untuk mempelajari lebih lanjut tentang model yang tersedia dan mengaksesnya di Amazon Bedrock, lihat. Kelola akses ke model fondasi Amazon Bedrock
4. (Opsional) Untuk mengubah konfigurasi inferensi pilih perbarui.
  
  Mengubah konfigurasi inferensi mengubah respons yang dihasilkan oleh model yang dipilih. Untuk mempelajari lebih lanjut tentang parameter inferensi yang tersedia, lihatParameter inferensi untuk model pondasi.
5. Jenis tugas — Pilih jenis tugas yang Anda ingin model coba lakukan selama pekerjaan evaluasi model.
6. Metrik dan kumpulan data — Daftar metrik yang tersedia dan kumpulan data prompt bawaan berubah berdasarkan tugas yang Anda pilih. Anda dapat memilih dari daftar kumpulan data bawaan yang tersedia atau Anda dapat memilih Gunakan kumpulan data prompt Anda sendiri. Jika Anda memilih untuk menggunakan kumpulan data prompt Anda sendiri, masukkan URI S3 yang tepat dari file kumpulan data prompt Anda atau pilih Browse S3 untuk mencari kumpulan data prompt Anda.
7. > Hasil evaluasi —Tentukan URI S3 dari direktori tempat Anda ingin hasil disimpan. Pilih Jelajahi S3 untuk mencari lokasi di Amazon S3.
8. (Opsional) Untuk mengaktifkan penggunaan kunci yang dikelola pelanggan Pilih Sesuaikan pengaturan enkripsi (lanjutan). Kemudian, berikan ARN AWS KMS kunci yang ingin Anda gunakan.
9. Peran Amazon Bedrock IAM — Pilih Gunakan peran yang ada untuk menggunakan peran layanan IAM yang sudah memiliki izin yang diperlukan, atau pilih Buat peran baru untuk membuat peran layanan IAM baru,
Kemudian, pilih Buat.

Setelah pekerjaan Anda dimulai, status berubah. Setelah status berubah Selesai, Anda dapat melihat kartu laporan pekerjaan.

SDK for Python

Prosedur


import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)

AWS CLI

Dalam AWS CLI, Anda dapat menggunakan help perintah untuk melihat parameter mana yang diperlukan, dan parameter mana yang opsional saat menentukan create-evaluation-job dalam AWS CLI.


aws bedrock create-evaluation-job help


aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001 \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'

Pekerjaan evaluasi model berbasis manusia

Saat membuat pekerjaan evaluasi model berbasis manusia di luar konsol Amazon Bedrock, Anda perlu membuat ARN definisi SageMaker aliran Amazon.

Definisi aliran ARN adalah tempat alur kerja pekerjaan evaluasi model didefinisikan. Definisi alur digunakan untuk menentukan antarmuka pekerja dan tim kerja yang ingin Anda tetapkan ke tugas, dan menghubungkan ke Amazon Bedrock.

Untuk pekerjaan evaluasi model yang dimulai di Amazon Bedrock, Anda harus membuat ARN definisi alur menggunakan SDK atau AWS CLI yang AWS didukung. Untuk mempelajari lebih lanjut tentang cara kerja definisi alur, dan membuatnya secara terprogram, lihat Membuat Alur Kerja Tinjauan Manusia (API) di Panduan PengembangSageMaker.

Dalam CreateFlowDefinitionAnda harus menentukan AWS/Bedrock/Evaluation sebagai masukan keAwsManagedHumanLoopRequestSource. Peran layanan Amazon Bedrock juga harus memiliki izin untuk mengakses bucket keluaran definisi aliran.

Berikut ini adalah contoh permintaan menggunakan AWS CLI. Dalam permintaan tersebut, SageMaker ARN HumanTaskUiArn adalah ARN yang dimiliki. Di ARN, Anda hanya dapat memodifikasi file. Wilayah AWS


aws sagemaker create-flow-definition --cli-input-json '
  {
    "FlowDefinitionName": "human-evaluation-task01",
    "HumanLoopRequestSource": {
        "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation"
    },

    "HumanLoopConfig": {
		"WorkteamArn": "arn:aws:sagemaker:Wilayah AWS:111122223333:workteam/private-crowd/my-workteam",
		"HumanTaskUiArn": "arn:aws:sagemaker:Wilayah AWS:394669845002:human-task-ui/Evaluation"
        "TaskTitle": "Human review tasks",
        "TaskDescription": "Provide a real good answer",
        "TaskCount": 1,
        "TaskAvailabilityLifetimeInSeconds": 864000,
        "TaskTimeLimitInSeconds": 3600,
        "TaskKeywords": [
            "foo"
        ]
    },
    "OutputConfig": {
        "S3OutputPath": "s3://your-output-bucket"
    },
    "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn"
}'

Setelah, Anda telah membuat ARN definisi aliran Anda, Anda dapat menggunakan contoh berikut untuk membuat pekerjaan evaluasi model Anda yang menggunakan pekerja manusia.

Amazon Bedrock console

Untuk membuat pekerjaan evaluasi model yang menggunakan pekerja manusia

Buka konsol Amazon Bedrock: https://console.aws.amazon.com/bedrock/
Di panel navigasi, pilih Evaluasi model.
Dalam Buat kartu evaluasi, di bawah Otomatis pilih Buat evaluasi otomatis.
Pada halaman Buat evaluasi otomatis, berikan informasi berikut
1. Nama evaluasi — Berikan nama pekerjaan evaluasi model yang menggambarkan pekerjaan. Nama ini ditampilkan dalam daftar pekerjaan evaluasi model Anda. Nama harus unik dalam diri Anda Akun AWS dalam sebuah Wilayah AWS.
2. Deskripsi (Opsional) - Berikan deskripsi opsional.
3. Model — Pilih model yang ingin Anda gunakan dalam pekerjaan evaluasi model.
  
  Untuk mempelajari lebih lanjut tentang model yang tersedia dan mengaksesnya di Amazon Bedrock, lihat. Kelola akses ke model fondasi Amazon Bedrock
4. (Opsional) Untuk mengubah konfigurasi inferensi pilih perbarui.
  
  Mengubah konfigurasi inferensi mengubah respons yang dihasilkan oleh model yang dipilih. Untuk mempelajari lebih lanjut tentang parameter inferensi yang tersedia, lihatParameter inferensi untuk model pondasi.
5. Jenis tugas — Pilih jenis tugas yang Anda ingin model coba lakukan selama pekerjaan evaluasi model.
6. Metrik dan kumpulan data — Daftar metrik yang tersedia dan kumpulan data prompt bawaan berubah berdasarkan tugas yang Anda pilih. Anda dapat memilih dari daftar kumpulan data bawaan yang tersedia atau Anda dapat memilih Gunakan kumpulan data prompt Anda sendiri. Jika Anda memilih untuk menggunakan kumpulan data prompt Anda sendiri, masukkan URI S3 yang tepat dari file kumpulan data prompt Anda atau pilih Browse S3 untuk mencari kumpulan data prompt Anda.
7. Hasil evaluasi — Tentukan URI S3 dari direktori tempat Anda ingin hasil pekerjaan evaluasi model Anda disimpan. Pilih Jelajahi S3 untuk mencari lokasi di Amazon S3.
8. (Opsional) Untuk mengaktifkan penggunaan kunci yang dikelola pelanggan Pilih Sesuaikan pengaturan enkripsi (lanjutan). Kemudian, berikan ARN AWS KMS kunci yang ingin Anda gunakan.
9. Peran Amazon Bedrock IAM — Pilih Gunakan peran yang ada untuk menggunakan peran iamService yang sudah memiliki izin yang diperlukan, atau pilih Buat peran baru untuk membuat peran layanan IAM baru,
Kemudian, pilih Buat.

Setelah pekerjaan Anda mulai, status berubah Sedang berlangsung. Setelah status berubah Selesai, Anda dapat melihat kartu laporan pekerjaan.

SDK for Python

Prosedur


import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="111122223333-job-01",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role",
    inferenceConfig={
        ## You must specify and array of models
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"
                }

            },
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}"
                }
            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://job-bucket/outputs/"
    },
    evaluationConfig={
        "human": {
        "humanWorkflowConfig": {
            "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn",
            "instructions": "some human eval instruction"
        },
        "customMetrics": [
            {
                "name": "IndividualLikertScale",
                "description": "testing",
                "ratingMethod": "IndividualLikertScale"
            }
        ],
        "datasetMetricConfigs": [
            {
                "taskType": "Summarization",
                "dataset": {
                    "name": "Custom_Dataset1",
                    "datasetLocation": {
                        "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl"
                    }
                },
                "metricNames": [
                  "IndividualLikertScale"
                ]
            }
        ]
      }

    }
)

print(job_request)

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Bekerja dengan pekerjaan

Menghentikan pekerjaan evaluasi model