Membuat instruksi pekerja yang baik - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat instruksi pekerja yang baik

Membuat instruksi yang baik untuk pekerjaan evaluasi model Anda meningkatkan akurasi pekerja Anda dalam menyelesaikan tugas mereka. Anda dapat mengubah instruksi default yang disediakan di konsol saat membuat pekerjaan evaluasi model. Instruksi ditampilkan kepada pekerja di halaman UI tempat mereka menyelesaikan tugas pelabelan mereka.

Untuk membantu pekerja menyelesaikan tugas yang ditugaskan, Anda dapat memberikan instruksi di dua tempat.

Berikan deskripsi yang baik untuk setiap metode evaluasi dan penilaian

Deskripsi harus memberikan penjelasan singkat tentang metrik yang dipilih. Deskripsi harus diperluas pada metrik, dan memperjelas bagaimana Anda ingin pekerja mengevaluasi metode peringkat yang dipilih. Untuk melihat contoh bagaimana setiap metode penilaian ditampilkan di UI pekerja, lihatRingkasan metode penilaian yang tersedia .

Berikan instruksi evaluasi keseluruhan kepada pekerja Anda

Instruksi ini ditampilkan di halaman web yang sama di mana pekerja menyelesaikan tugas. Anda dapat menggunakan ruang ini untuk memberikan arah tingkat tinggi untuk pekerjaan evaluasi model, dan untuk menggambarkan respons kebenaran dasar jika Anda memasukkannya ke dalam kumpulan data cepat Anda.

Ringkasan metode penilaian yang tersedia

Di setiap bagian berikut, Anda dapat melihat contoh metode penilaian yang dilihat tim kerja Anda di UI evaluasi, dan juga bagaimana hasil tersebut disimpan di Amazon S3.

Skala Likert, perbandingan beberapa keluaran model

Evaluator manusia menunjukkan preferensi mereka antara dua tanggapan dari model pada skala Likert 5 poin sesuai dengan instruksi Anda. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat kekuatan preferensi dari evaluator atas seluruh kumpulan data Anda.

Pastikan Anda menentukan poin-poin penting dari skala 5 poin dalam instruksi Anda, sehingga evaluator Anda tahu cara menilai respons berdasarkan harapan Anda.

Ini adalah image saya.
Keluaran JSON

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "comparisonLikertScale" kunci.

Tombol pilihan (tombol radio)

Tombol pilihan memungkinkan evaluator manusia untuk menunjukkan satu respons pilihan mereka daripada respons lain. Evaluator menunjukkan preferensi mereka antara dua tanggapan sesuai dengan instruksi Anda dengan tombol radio. Hasil dalam laporan akhir akan ditampilkan sebagai persentase tanggapan yang disukai pekerja untuk setiap model. Pastikan untuk menjelaskan metode evaluasi Anda dengan jelas dalam instruksi.

Ini adalah image saya.
Keluaran JSON

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "comparisonChoice" kunci.

Peringkat ordinal

Peringkat ordinal memungkinkan evaluator manusia untuk memberi peringkat tanggapan pilihan mereka terhadap prompt dalam urutan mulai dari 1 sesuai dengan instruksi Anda. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat dari evaluator di seluruh kumpulan data. Pastikan untuk menentukan apa arti peringkat 1 dalam instruksi Anda.

Ini adalah image saya.
Keluaran JSON

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "comparisonRank" kunci.

Jempol ke atas/bawah

Jempol ke atas/bawah memungkinkan evaluator manusia untuk menilai setiap respons dari model sebagai dapat diterima/tidak dapat diterima sesuai dengan instruksi Anda. Hasil dalam laporan akhir akan ditampilkan sebagai persentase dari jumlah total peringkat oleh evaluator yang menerima peringkat jempol untuk setiap model. Anda dapat menggunakan metode penilaian ini untuk evaluasi satu atau lebih model. Jika Anda menggunakan ini dalam evaluasi yang berisi dua model, jempol ke atas/bawah akan disajikan kepada tim kerja Anda untuk setiap respons model dan laporan akhir akan menunjukkan hasil agregat untuk setiap model secara individual. Pastikan untuk menentukan apa yang dapat diterima (yaitu, apa itu peringkat jempol) dalam instruksi Anda.

Ini adalah image saya.
Keluaran JSON

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "thumbsUpDown" kunci.

Skala Likert, evaluasi respons model tunggal

Memungkinkan evaluator manusia untuk menunjukkan seberapa kuat mereka menyetujui respons model berdasarkan instruksi Anda pada skala Likert 5 poin. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat 5 poin dari evaluator di seluruh kumpulan data Anda. Anda dapat menggunakan ini untuk evaluasi yang berisi satu atau lebih model. Jika Anda memilih metode penilaian ini dalam evaluasi yang berisi lebih dari satu model, skala Likert 5 poin akan disajikan kepada tim kerja Anda untuk setiap respons model dan laporan akhir akan menunjukkan hasil agregat untuk setiap model secara individual. Pastikan untuk menentukan poin-poin penting pada skala 5 poin dalam instruksi Anda sehingga evaluator Anda tahu bagaimana menilai respons sesuai dengan harapan Anda.

Ini adalah image saya.
Keluaran JSON

Child-key pertama di bawah evaluationResults adalah tempat metode rating yang dipilih dikembalikan. Dalam file output yang disimpan ke bucket Amazon S3 Anda, hasil dari setiap pekerja disimpan ke pasangan nilai "evaluationResults": "individualLikertScale" kunci.