Tinjau pekerjaan evaluasi model berbasis manusia di Amazon Bedrock (konsol) - Amazon Bedrock

Skala Likert, perbandingan beberapa keluaran model Tombol pilihan (tombol radio)Peringkat ordinal Jempol ke atas/bawah Skala Likert, evaluasi respons model tunggal

Tinjau pekerjaan evaluasi model berbasis manusia di Amazon Bedrock (konsol)

Anda dapat meninjau data untuk evaluasi manusia yang disajikan dalam laporan menggunakan konsol Amazon Bedrock.

Dalam kartu laporan evaluasi model Anda, Anda akan melihat jumlah total permintaan dalam kumpulan data yang Anda berikan atau pilih, dan berapa banyak dari permintaan tersebut yang menerima tanggapan. Jika jumlah tanggapan kurang dari jumlah permintaan input dikalikan jumlah pekerja per prompt yang Anda konfigurasikan dalam pekerjaan (1,2 atau 3), pastikan untuk memeriksa file keluaran data di bucket Amazon S3 Anda. Ada kemungkinan bahwa prompt menyebabkan kesalahan dengan model dan tidak ada inferensi yang diambil. Juga, satu atau lebih pekerja Anda mungkin menolak untuk mengevaluasi respons keluaran model. Hanya tanggapan dari pekerja manusia yang akan digunakan dalam perhitungan metrik.

Gunakan prosedur berikut untuk membuka evaluasi model yang menggunakan pekerja manusia di konsol Amazon Bedrock.

Buka konsol Amazon Bedrock.
Dari panel navigasi, pilih Evaluasi model.
Selanjutnya, dalam tabel Evaluasi model temukan nama pekerjaan evaluasi model yang ingin Anda tinjau. Kemudian, pilihlah.

Laporan evaluasi model memberikan wawasan tentang data yang dikumpulkan selama pekerjaan evaluasi manusia menggunakan kartu laporan. Setiap kartu laporan menunjukkan metrik, deskripsi, dan metode penilaian, di samping visualisasi data yang mewakili data yang dikumpulkan untuk metrik yang diberikan.

Di setiap bagian berikut, Anda dapat melihat contoh 5 metode penilaian yang mungkin dilihat tim kerja Anda di UI evaluasi. Contoh juga menunjukkan pasangan nilai kunci apa yang digunakan untuk menyimpan hasil di Amazon S3.

Skala Likert, perbandingan beberapa keluaran model

Evaluator manusia menunjukkan preferensi mereka antara dua tanggapan dari model pada skala Likert 5 poin sesuai dengan instruksi Anda. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat kekuatan preferensi dari evaluator atas seluruh kumpulan data Anda.

Pastikan Anda menentukan poin-poin penting dari skala 5 poin dalam instruksi Anda, sehingga evaluator Anda tahu cara menilai respons berdasarkan harapan Anda.

Ini adalah image saya.

Keluaran JSON

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "comparisonLikertScale" kunci.

Tombol pilihan (tombol radio)

Tombol pilihan memungkinkan evaluator manusia untuk menunjukkan satu respons pilihan mereka daripada respons lain. Evaluator menunjukkan preferensi mereka antara dua tanggapan sesuai dengan instruksi Anda dengan tombol radio. Hasil dalam laporan akhir akan ditampilkan sebagai persentase tanggapan yang disukai pekerja untuk setiap model. Pastikan untuk menjelaskan metode evaluasi Anda dengan jelas dalam instruksi.

Ini adalah image saya.

Keluaran JSON

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "comparisonChoice" kunci.

Peringkat ordinal

Peringkat ordinal memungkinkan evaluator manusia untuk memberi peringkat tanggapan pilihan mereka terhadap prompt dalam urutan mulai dari 1 sesuai dengan instruksi Anda. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat dari evaluator di seluruh kumpulan data. Pastikan untuk menentukan apa arti peringkat 1 dalam instruksi Anda. Tipe data ini disebut Preference Rank.

Ini adalah image saya.

Keluaran JSON

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "comparisonRank" kunci.

Jempol ke atas/bawah

Thumbs up/down memungkinkan evaluator manusia untuk menilai setiap respons dari model seperti yang acceptable/unacceptable according to your instructions. The results in the final report will be shown as a percentage of the total number of ratings by evaluators that received a thumbs up rating for each model. You may use this rating method for a model evaluation job that contains one or more models. If you use this in an evaluation that contains two models, a thumbs up/down akan disajikan kepada tim kerja Anda untuk setiap respons model dan laporan akhir akan menunjukkan hasil agregat untuk setiap model secara individual. Pastikan untuk menentukan apa yang dapat diterima (yaitu, apa itu peringkat jempol) dalam instruksi Anda.

Ini adalah image saya.

Keluaran JSON

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "thumbsUpDown" kunci.

Skala Likert, evaluasi respons model tunggal

Memungkinkan evaluator manusia untuk menunjukkan seberapa kuat mereka menyetujui respons model berdasarkan instruksi Anda pada skala Likert 5 poin. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat 5 poin dari evaluator di seluruh kumpulan data Anda. Anda dapat menggunakan ini untuk evaluasi yang berisi satu atau lebih model. Jika Anda memilih metode penilaian ini dalam evaluasi yang berisi lebih dari satu model, skala Likert 5 poin akan disajikan kepada tim kerja Anda untuk setiap respons model dan laporan akhir akan menunjukkan hasil agregat untuk setiap model secara individual. Pastikan untuk menentukan poin-poin penting pada skala 5 poin dalam instruksi Anda sehingga evaluator Anda tahu bagaimana menilai respons sesuai dengan harapan Anda.

Ini adalah image saya.

Keluaran JSON

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "individualLikertScale" kunci.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Tinjau metrik untuk pekerjaan evaluasi model otomatis

Memahami keluaran Amazon S3 dari pekerjaan evaluasi model