Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan kumpulan data prompt bawaan dalam pekerjaan evaluasi model otomatis
Amazon Bedrock menyediakan beberapa kumpulan data prompt bawaan yang dapat Anda gunakan dalam pekerjaan evaluasi model otomatis. Setiap kumpulan data bawaan didasarkan pada kumpulan data sumber terbuka. Kami telah secara acak mengambil sampel setiap kumpulan data sumber terbuka untuk menyertakan hanya 100 petunjuk.
Saat Anda membuat pekerjaan evaluasi model otomatis dan memilih jenis Tugas Amazon Bedrock memberi Anda daftar metrik yang direkomendasikan. Untuk setiap metrik, Amazon Bedrock juga menyediakan kumpulan data bawaan yang direkomendasikan. Untuk mempelajari lebih lanjut tentang jenis tugas yang tersedia, lihatTugas evaluasi model.
- Bias dalam Dataset Pembuatan Bahasa Terbuka (BOLD)
-
Bias in Open-Ended Language Generation Dataset (BOLD) adalah kumpulan data yang mengevaluasi keadilan dalam pembuatan teks umum, dengan fokus pada lima domain: profesi, gender, ras, ideologi agama, dan ideologi politik. Ini berisi 23.679 petunjuk pembuatan teks yang berbeda.
- RealToxicityPrompts
-
RealToxicityPrompts adalah kumpulan data yang mengevaluasi toksisitas. Ini mencoba untuk mendapatkan model untuk menghasilkan bahasa rasis, seksis, atau beracun. Dataset ini berisi 100.000 prompt pembuatan teks yang berbeda.
- T-Rex: Penyelarasan Skala Besar Bahasa Alami dengan Triple Basis Pengetahuan (TREX)
-
TREX adalah kumpulan data yang terdiri dari Knowledge Base Triples (KBTs) yang diekstrak dari Wikipedia. KBT adalah jenis struktur data yang digunakan dalam pemrosesan bahasa alami (NLP) dan representasi pengetahuan. Mereka terdiri dari subjek, predikat, dan objek, di mana subjek dan objek dihubungkan oleh suatu relasi. Contoh Knowledge Base Triple (KBT) adalah “George Washington adalah presiden Amerika Serikat”. Subjeknya adalah “George Washington”, predikatnya adalah “adalah presiden”, dan objeknya adalah “Amerika Serikat”.
- WikiText2
-
WikiText2 adalah HuggingFace kumpulan data yang berisi petunjuk yang digunakan dalam pembuatan teks umum.
- Gigaword
-
Dataset Gigaword terdiri dari berita utama artikel. Dataset ini digunakan dalam tugas ringkasan teks.
- BoolQ
-
BoolQ adalah kumpulan data yang terdiri dari pasangan tanya jawab ya/tidak. Prompt berisi bagian pendek, dan kemudian pertanyaan tentang bagian itu. Dataset ini direkomendasikan untuk digunakan dengan tipe tugas tanya jawab.
- Pertanyaan Alami
-
Pertanyaan alami adalah kumpulan data yang terdiri dari pertanyaan pengguna nyata yang dikirimkan untuk Google dicari.
- TriviaQA
-
TriviaQA adalah kumpulan data yang berisi lebih dari 650K. question-answer-evidence-triples Dataset ini digunakan dalam tugas tanya jawab.
- Ulasan Pakaian E-Commerce Wanita
-
Ulasan Pakaian E-Commerce Wanita adalah kumpulan data yang berisi ulasan pakaian yang ditulis oleh pelanggan. Dataset ini digunakan dalam tugas klasifikasi teks.
Dalam tabel berikut, Anda dapat melihat daftar kumpulan data yang tersedia dikelompokkan jenis tugas. Untuk mempelajari lebih lanjut tentang cara metrik otomatis dihitung, lihat. Kartu laporan pekerjaan evaluasi model otomatis (konsol)
Set data bawaan yang tersedia untuk pekerjaan evaluasi model otomatis di Amazon Bedrock | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Jenis tugas | Metrik | Kumpulan data bawaan | Metrik yang dihitung | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Generasi teks umum | Akurasi | TREX |
Skor pengetahuan dunia nyata (RWK) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Kekokohan | Tingkat kesalahan kata | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
WikiText2 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wikipedia bahasa Inggris |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Toksisitas | Toksisitas | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BERANI |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ringkasan teks | Akurasi | Gigaword |
BertScore | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Toksisitas | Gigaword |
Toksisitas | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Kekokohan | Gigaword |
BertScore dan DeltabertScore | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Pertanyaan dan jawaban | Akurasi | BoolQ |
NLP-F1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Kekokohan | BoolQ |
F1 dan DeltaF1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Toksisitas | BoolQ |
Toksisitas | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Klasifikasi teks | Akurasi | Ulasan Pakaian E-commerce Wanita |
Akurasi (Akurasi biner dari classification_accuracy_score) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ulasan Pakaian E-commerce Wanita |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ulasan Pakaian E-commerce Wanita |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Kekokohan | Ulasan Pakaian E-commerce Wanita |
classification_accuracy_score dan delta_classification_accuracy_score |
Untuk mempelajari lebih lanjut tentang persyaratan pembuatan dan contoh kumpulan data prompt kustom, lihat. Dataset prompt kustom