Siapkan kumpulan data untuk pekerjaan evaluasi tempat Amazon Bedrock memanggil model untuk Anda Siapkan kumpulan data untuk pekerjaan evaluasi menggunakan data respons inferensi Anda sendiri

Buat kumpulan data cepat untuk pekerjaan evaluasi model yang menggunakan model sebagai hakim

Untuk membuat pekerjaan evaluasi model yang menggunakan model sebagai hakim, Anda harus menentukan kumpulan data yang cepat. Dataset prompt ini menggunakan format yang sama dengan pekerjaan evaluasi model otomatis dan digunakan selama inferensi dengan model yang Anda pilih untuk dievaluasi.

Jika Anda ingin mengevaluasi model Bedrock non-Amazon menggunakan respons yang telah Anda buat, sertakan dalam kumpulan data prompt seperti yang dijelaskan dalam. Siapkan kumpulan data untuk pekerjaan evaluasi menggunakan data respons inferensi Anda sendiri Saat Anda memberikan data respons inferensi Anda sendiri, Amazon Bedrock melewatkan langkah pemanggilan model dan melakukan pekerjaan evaluasi dengan data yang Anda berikan.

Kumpulan data prompt khusus harus disimpan di Amazon S3, dan gunakan format baris JSON dan ekstensi file. .jsonl Setiap baris harus berupa objek JSON yang valid. Mungkin ada hingga 1000 petunjuk dalam kumpulan data Anda per pekerjaan evaluasi.

Untuk pekerjaan yang dibuat menggunakan konsol, Anda harus memperbarui konfigurasi Cross Origin Resource Sharing (CORS) pada bucket S3. Untuk mempelajari lebih lanjut tentang izin CORS yang diperlukan, lihat. Izin Cross Origin Resource Sharing (CORS) yang diperlukan pada bucket S3

Siapkan kumpulan data untuk pekerjaan evaluasi tempat Amazon Bedrock memanggil model untuk Anda

Untuk menjalankan tugas evaluasi di mana Amazon Bedrock memanggil model untuk Anda, buat kumpulan data prompt yang berisi pasangan nilai kunci berikut:

prompt— prompt yang Anda inginkan untuk ditanggapi oleh model.
referenceResponse— (opsional) respons kebenaran dasar.
category— (opsional) menghasilkan skor evaluasi yang dilaporkan untuk setiap kategori.

catatan

Jika Anda memilih untuk memberikan respons kebenaran dasar (referenceResponse), Amazon Bedrock akan menggunakan parameter ini saat menghitung metrik Completeness (Builtin.Completeness) dan Correctness (). Builtin.Correctness Anda juga dapat menggunakan metrik ini tanpa memberikan respons kebenaran dasar. Untuk melihat petunjuk hakim untuk kedua skenario ini, lihat bagian untuk model hakim pilihan Anda. Petunjuk evaluator metrik bawaan untuk model-as-a-judge pekerjaan evaluasi

Berikut ini adalah contoh dataset kustom yang berisi 6 input dan menggunakan format baris JSON.


{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

Contoh berikut adalah entri tunggal diperluas untuk kejelasan. Dalam kumpulan data prompt Anda yang sebenarnya, setiap baris harus berupa objek JSON yang valid.


{
  "prompt": "What is high intensity interval training?",
  "category": "Fitness",
  "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods."
}

Siapkan kumpulan data untuk pekerjaan evaluasi menggunakan data respons inferensi Anda sendiri

Untuk menjalankan tugas evaluasi menggunakan respons yang telah Anda buat, buat kumpulan data prompt yang berisi pasangan nilai kunci berikut:

prompt— prompt model Anda digunakan untuk menghasilkan tanggapan.
referenceResponse— (opsional) respons kebenaran dasar.
category— (opsional) menghasilkan skor evaluasi yang dilaporkan untuk setiap kategori.
modelResponses— tanggapan dari kesimpulan Anda sendiri bahwa Anda ingin Amazon Bedrock untuk mengevaluasi. Pekerjaan evaluasi yang menggunakan model sebagai hakim hanya mendukung satu respons model untuk setiap prompt, yang ditentukan menggunakan kunci berikut:
- response— string yang berisi respons dari inferensi model Anda.
- modelIdentifier— string yang mengidentifikasi model yang menghasilkan respons. Anda hanya dapat menggunakan satu yang unik modelIdentifier dalam pekerjaan evaluasi, dan setiap prompt dalam kumpulan data Anda harus menggunakan pengenal ini.

catatan

Berikut ini adalah contoh kustom dataset dengan 6 input dalam format baris JSON.


{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}

Contoh berikut menunjukkan entri tunggal dalam kumpulan data prompt diperluas untuk kejelasan.


{
    "prompt": "What is high intensity interval training?",
    "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.",
    "category": "Fitness",
     "modelResponses": [
        {
            "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.",
            "modelIdentifier": "my_model"
        }
    ]
}

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

LLM sebagai pekerjaan evaluasi model juri

Metrik evaluasi