Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Untuk membuat pekerjaan evaluasi model yang menggunakan model sebagai hakim, Anda harus menentukan kumpulan data yang cepat. Petunjuk kemudian digunakan selama inferensi dengan model yang Anda pilih untuk dievaluasi. Dataset prompt ini menggunakan format yang sama dengan pekerjaan evaluasi model otomatis. Beberapa pasangan nilai kunci sekarang diperlukan sekarang ketika Anda menggunakan metrik Correctness (Builtin.Correctness
) atau metrik Completeness (Builtin.Completeness
).
Anda harus membuat dataset prompt kustom dalam pekerjaan evaluasi model yang menggunakan model sebagai hakim. Kumpulan data prompt khusus harus disimpan di Amazon S3, dan gunakan format baris dan gunakan JSON ekstensi file. .jsonl
Setiap baris harus menjadi JSON objek yang valid. Mungkin ada hingga 1000 petunjuk dalam kumpulan data Anda per pekerjaan evaluasi otomatis.
Untuk pekerjaan yang dibuat menggunakan konsol, Anda harus memperbarui konfigurasi Cross Origin Resource Sharing (CORS) pada bucket S3. Untuk mempelajari lebih lanjut tentang CORS izin yang diperlukan, lihatIzin Berbagi Sumber Daya Lintas Asal (CORS) yang diperlukan pada bucket S3.
Pasangan nilai kunci yang digunakan dalam kumpulan data cepat untuk pekerjaan evaluasi model menggunakan model sebagai hakim
-
prompt
— diperlukan untuk menunjukkan masukan untuk tugas-tugas berikut:-
Permintaan yang harus ditanggapi oleh model Anda, dalam pembuatan teks umum.
-
Pertanyaan yang harus dijawab model Anda dalam jenis tugas tanya jawab.
-
Teks yang harus diringkas oleh model Anda dalam tugas ringkasan teks.
-
Teks yang harus diklasifikasikan oleh model Anda dalam tugas klasifikasi.
-
-
referenceResponse
— diperlukan untuk menunjukkan respons kebenaran dasar untuk metrik Kelengkapan dan Kebenaran.-
Respon yang benar.
-
Respon lengkap.
-
-
category
— (opsional) menghasilkan skor evaluasi yang dilaporkan untuk setiap kategori.
Prompt berikut diperluas untuk kejelasan. Dalam kumpulan data prompt Anda yang sebenarnya, setiap baris (prompt) harus berupa JSON objek yang valid.
{
"prompt": "Bobigny is the capital of",
"referenceResponse": "Seine-Saint-Denis",
"category": "Capitals"
}