Kartu laporan pekerjaan evaluasi model manusia (konsol) - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kartu laporan pekerjaan evaluasi model manusia (konsol)

Dalam kartu laporan evaluasi model Anda, Anda akan melihat jumlah total permintaan dalam kumpulan data yang Anda berikan atau pilih, dan berapa banyak dari permintaan tersebut yang menerima tanggapan. Jika jumlah tanggapan kurang dari jumlah permintaan input dikalikan jumlah pekerja per prompt yang Anda konfigurasikan dalam pekerjaan (1,2 atau 3), pastikan untuk memeriksa file keluaran data di bucket Amazon S3 Anda. Ada kemungkinan bahwa prompt menyebabkan kesalahan dengan model dan tidak ada inferensi yang diambil. Juga, satu atau lebih pekerja Anda mungkin menolak untuk mengevaluasi respons keluaran model. Hanya tanggapan dari pekerja manusia yang akan digunakan dalam perhitungan metrik.

Gunakan prosedur berikut untuk membuka evaluasi model yang menggunakan pekerja manusia di konsol Amazon Bedrock.

  1. Buka konsol Amazon Bedrock.

  2. Dari panel navigasi, pilih Evaluasi model.

  3. Selanjutnya, dalam tabel evaluasi Model temukan nama pekerjaan evaluasi model yang ingin Anda tinjau. Kemudian, pilihlah.

Laporan evaluasi model memberikan wawasan tentang data yang dikumpulkan selama pekerjaan evaluasi manusia menggunakan kartu laporan. Setiap kartu laporan menunjukkan metrik, deskripsi, dan metode penilaian, di samping visualisasi data yang mewakili data yang dikumpulkan untuk metrik yang diberikan.

Di setiap bagian berikut, Anda dapat melihat contoh 5 metode penilaian yang mungkin dilihat tim kerja Anda di UI evaluasi. Contoh juga menunjukkan pasangan nilai kunci apa yang digunakan untuk menyimpan hasil di Amazon S3.

Skala Likert, perbandingan beberapa keluaran model

Evaluator manusia menunjukkan preferensi mereka antara dua tanggapan dari model pada skala Likert 5 poin sesuai dengan instruksi Anda. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat kekuatan preferensi dari evaluator atas seluruh kumpulan data Anda.

Pastikan Anda menentukan poin-poin penting dari skala 5 poin dalam instruksi Anda, sehingga evaluator Anda tahu cara menilai respons berdasarkan harapan Anda.

Ini adalah image saya.
JSONkeluaran

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "comparisonLikertScale" kunci.

Tombol pilihan (tombol radio)

Tombol pilihan memungkinkan evaluator manusia untuk menunjukkan satu respons pilihan mereka daripada respons lain. Evaluator menunjukkan preferensi mereka antara dua tanggapan sesuai dengan instruksi Anda dengan tombol radio. Hasil dalam laporan akhir akan ditampilkan sebagai persentase tanggapan yang disukai pekerja untuk setiap model. Pastikan untuk menjelaskan metode evaluasi Anda dengan jelas dalam instruksi.

Ini adalah image saya.
JSONkeluaran

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "comparisonChoice" kunci.

Peringkat ordinal

Peringkat ordinal memungkinkan evaluator manusia untuk memberi peringkat tanggapan pilihan mereka terhadap prompt dalam urutan mulai dari 1 sesuai dengan instruksi Anda. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat dari evaluator di seluruh kumpulan data. Pastikan untuk menentukan apa arti peringkat 1 dalam instruksi Anda. Tipe data ini disebut Preference Rank.

Ini adalah image saya.
JSONkeluaran

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "comparisonRank" kunci.

Jempol ke atas/bawah

Jempol ke atas/bawah memungkinkan evaluator manusia untuk menilai setiap respons dari model sebagai dapat diterima/tidak dapat diterima sesuai dengan instruksi Anda. Hasil dalam laporan akhir akan ditampilkan sebagai persentase dari jumlah total peringkat oleh evaluator yang menerima peringkat jempol untuk setiap model. Anda dapat menggunakan metode penilaian ini untuk pekerjaan evaluasi model yang berisi satu atau lebih model. Jika Anda menggunakan ini dalam evaluasi yang berisi dua model, jempol ke atas/bawah akan disajikan kepada tim kerja Anda untuk setiap respons model dan laporan akhir akan menunjukkan hasil agregat untuk setiap model secara individual. Pastikan untuk menentukan apa yang dapat diterima (yaitu, apa itu peringkat jempol) dalam instruksi Anda.

Ini adalah image saya.
JSONkeluaran

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "thumbsUpDown" kunci.

Skala Likert, evaluasi respons model tunggal

Memungkinkan evaluator manusia untuk menunjukkan seberapa kuat mereka menyetujui respons model berdasarkan instruksi Anda pada skala Likert 5 poin. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat 5 poin dari evaluator di seluruh kumpulan data Anda. Anda dapat menggunakan ini untuk evaluasi yang berisi satu atau lebih model. Jika Anda memilih metode penilaian ini dalam evaluasi yang berisi lebih dari satu model, skala Likert 5 poin akan disajikan kepada tim kerja Anda untuk setiap respons model dan laporan akhir akan menunjukkan hasil agregat untuk setiap model secara individual. Pastikan untuk menentukan poin-poin penting pada skala 5 poin dalam instruksi Anda sehingga evaluator Anda tahu bagaimana menilai respons sesuai dengan harapan Anda.

Ini adalah image saya.
JSONkeluaran

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "individualLikertScale" kunci.