Menggunakan kumpulan data prompt bawaan dalam pekerjaan evaluasi model otomatis - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan kumpulan data prompt bawaan dalam pekerjaan evaluasi model otomatis

Amazon Bedrock menyediakan beberapa kumpulan data prompt bawaan yang dapat Anda gunakan dalam pekerjaan evaluasi model otomatis. Setiap kumpulan data bawaan didasarkan pada kumpulan data sumber terbuka. Kami telah secara acak mengambil sampel setiap kumpulan data sumber terbuka untuk menyertakan hanya 100 petunjuk.

Saat Anda membuat pekerjaan evaluasi model otomatis dan memilih jenis Tugas Amazon Bedrock memberi Anda daftar metrik yang direkomendasikan. Untuk setiap metrik, Amazon Bedrock juga menyediakan kumpulan data bawaan yang direkomendasikan. Untuk mempelajari lebih lanjut tentang jenis tugas yang tersedia, lihatTugas evaluasi model.

Bias dalam Dataset Pembuatan Bahasa Terbuka (BOLD)

Bias in Open-Ended Language Generation Dataset (BOLD) adalah kumpulan data yang mengevaluasi keadilan dalam pembuatan teks umum, dengan fokus pada lima domain: profesi, gender, ras, ideologi agama, dan ideologi politik. Ini berisi 23.679 petunjuk pembuatan teks yang berbeda.

RealToxicityPrompts

RealToxicityPrompts adalah kumpulan data yang mengevaluasi toksisitas. Ini mencoba untuk mendapatkan model untuk menghasilkan bahasa rasis, seksis, atau beracun. Dataset ini berisi 100.000 prompt pembuatan teks yang berbeda.

T-Rex: Penyelarasan Skala Besar Bahasa Alami dengan Triple Basis Pengetahuan (TREX)

TREX adalah kumpulan data yang terdiri dari Knowledge Base Triples (KBTs) yang diekstrak dari Wikipedia. KBT adalah jenis struktur data yang digunakan dalam pemrosesan bahasa alami (NLP) dan representasi pengetahuan. Mereka terdiri dari subjek, predikat, dan objek, di mana subjek dan objek dihubungkan oleh suatu relasi. Contoh Knowledge Base Triple (KBT) adalah “George Washington adalah presiden Amerika Serikat”. Subjeknya adalah “George Washington”, predikatnya adalah “adalah presiden”, dan objeknya adalah “Amerika Serikat”.

WikiText2

WikiText2 adalah HuggingFace kumpulan data yang berisi petunjuk yang digunakan dalam pembuatan teks umum.

Gigaword

Dataset Gigaword terdiri dari berita utama artikel. Dataset ini digunakan dalam tugas ringkasan teks.

BoolQ

BoolQ adalah kumpulan data yang terdiri dari pasangan tanya jawab ya/tidak. Prompt berisi bagian pendek, dan kemudian pertanyaan tentang bagian itu. Dataset ini direkomendasikan untuk digunakan dengan tipe tugas tanya jawab.

Pertanyaan Alami

Pertanyaan alami adalah kumpulan data yang terdiri dari pertanyaan pengguna nyata yang dikirimkan untuk Google dicari.

TriviaQA

TriviaQA adalah kumpulan data yang berisi lebih dari 650K. question-answer-evidence-triples Dataset ini digunakan dalam tugas tanya jawab.

Ulasan Pakaian E-Commerce Wanita

Ulasan Pakaian E-Commerce Wanita adalah kumpulan data yang berisi ulasan pakaian yang ditulis oleh pelanggan. Dataset ini digunakan dalam tugas klasifikasi teks.

Dalam tabel berikut, Anda dapat melihat daftar kumpulan data yang tersedia dikelompokkan jenis tugas. Untuk mempelajari lebih lanjut tentang cara metrik otomatis dihitung, lihat. Kartu laporan pekerjaan evaluasi model otomatis (konsol)

Set data bawaan yang tersedia untuk pekerjaan evaluasi model otomatis di Amazon Bedrock
Jenis tugas Metrik Kumpulan data bawaan Metrik yang dihitung
Generasi teks umum Akurasi TREX Skor pengetahuan dunia nyata (RWK)
Kekokohan

BERANI

Tingkat kesalahan kata
WikiText2
Wikipedia bahasa Inggris
Toksisitas

RealToxicityPrompts

Toksisitas
BERANI
Ringkasan teks Akurasi Gigaword BertScore
Toksisitas Gigaword Toksisitas
Kekokohan Gigaword BertScore dan DeltabertScore
Pertanyaan dan jawaban Akurasi BoolQ NLP-F1
NaturalQuestions
TriviaQA
Kekokohan BoolQ F1 dan DeltaF1
NaturalQuestions
TriviaQA
Toksisitas BoolQ Toksisitas
NaturalQuestions
TriviaQA
Klasifikasi teks Akurasi Ulasan Pakaian E-commerce Wanita Akurasi (Akurasi biner dari classification_accuracy_score)
Ulasan Pakaian E-commerce Wanita
Ulasan Pakaian E-commerce Wanita
Kekokohan Ulasan Pakaian E-commerce Wanita

classification_accuracy_score dan delta_classification_accuracy_score

Untuk mempelajari lebih lanjut tentang persyaratan pembuatan dan contoh kumpulan data prompt kustom, lihat. Dataset prompt kustom