Menggunakan kumpulan data prompt bawaan dalam pekerjaan evaluasi model otomatis

Amazon Bedrock menyediakan beberapa kumpulan data prompt bawaan yang dapat Anda gunakan dalam pekerjaan evaluasi model otomatis. Setiap kumpulan data bawaan didasarkan pada kumpulan data sumber terbuka. Kami telah secara acak mengambil sampel setiap kumpulan data sumber terbuka untuk menyertakan hanya 100 petunjuk.

Saat Anda membuat pekerjaan evaluasi model otomatis dan memilih jenis Tugas Amazon Bedrock memberi Anda daftar metrik yang direkomendasikan. Untuk setiap metrik, Amazon Bedrock juga menyediakan kumpulan data bawaan yang direkomendasikan. Untuk mempelajari lebih lanjut tentang jenis tugas yang tersedia, lihatTugas evaluasi model.

Bias dalam Dataset Pembuatan Bahasa Terbuka (BOLD): Bias in Open-Ended Language Generation Dataset (BOLD) adalah kumpulan data yang mengevaluasi keadilan dalam pembuatan teks umum, dengan fokus pada lima domain: profesi, gender, ras, ideologi agama, dan ideologi politik. Ini berisi 23.679 petunjuk pembuatan teks yang berbeda.
RealToxicityPrompts: RealToxicityPrompts adalah kumpulan data yang mengevaluasi toksisitas. Ini mencoba untuk mendapatkan model untuk menghasilkan bahasa rasis, seksis, atau beracun. Dataset ini berisi 100.000 prompt pembuatan teks yang berbeda.
T-Rex: Penyelarasan Skala Besar Bahasa Alami dengan Triple Basis Pengetahuan (TREX): TREX adalah kumpulan data yang terdiri dari Knowledge Base Triples (KBTs) yang diekstrak dari Wikipedia. KBT adalah jenis struktur data yang digunakan dalam pemrosesan bahasa alami (NLP) dan representasi pengetahuan. Mereka terdiri dari subjek, predikat, dan objek, di mana subjek dan objek dihubungkan oleh suatu relasi. Contoh Knowledge Base Triple (KBT) adalah “George Washington adalah presiden Amerika Serikat”. Subjeknya adalah “George Washington”, predikatnya adalah “adalah presiden”, dan objeknya adalah “Amerika Serikat”.
WikiText2: WikiText2 adalah HuggingFace kumpulan data yang berisi petunjuk yang digunakan dalam pembuatan teks umum.
Gigaword: Dataset Gigaword terdiri dari berita utama artikel. Dataset ini digunakan dalam tugas ringkasan teks.
BoolQ: BoolQ adalah kumpulan data yang terdiri dari pasangan tanya jawab ya/tidak. Prompt berisi bagian pendek, dan kemudian pertanyaan tentang bagian itu. Dataset ini direkomendasikan untuk digunakan dengan tipe tugas tanya jawab.
Pertanyaan Alami: Pertanyaan alami adalah kumpulan data yang terdiri dari pertanyaan pengguna nyata yang dikirimkan untuk Google dicari.
TriviaQA: TriviaQA adalah kumpulan data yang berisi lebih dari 650K. question-answer-evidence-triples Dataset ini digunakan dalam tugas tanya jawab.
Ulasan Pakaian E-Commerce Wanita: Ulasan Pakaian E-Commerce Wanita adalah kumpulan data yang berisi ulasan pakaian yang ditulis oleh pelanggan. Dataset ini digunakan dalam tugas klasifikasi teks.

Dalam tabel berikut, Anda dapat melihat daftar kumpulan data yang tersedia dikelompokkan jenis tugas. Untuk mempelajari lebih lanjut tentang cara metrik otomatis dihitung, lihat. Kartu laporan pekerjaan evaluasi model otomatis (konsol)

Set data bawaan yang tersedia untuk pekerjaan evaluasi model otomatis di Amazon Bedrock
Jenis tugas	Metrik	Kumpulan data bawaan	Metrik yang dihitung
Generasi teks umum	Akurasi	TREX	Skor pengetahuan dunia nyata (RWK)
	Kekokohan	BERANI	Tingkat kesalahan kata
		WikiText2
		Wikipedia bahasa Inggris
	Toksisitas	RealToxicityPrompts	Toksisitas
	Toksisitas	BERANI	Toksisitas
Ringkasan teks	Akurasi	Gigaword	BertScore
	Toksisitas	Gigaword	Toksisitas
	Kekokohan	Gigaword	BertScore dan DeltabertScore
Pertanyaan dan jawaban	Akurasi	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	Kekokohan	BoolQ	F1 dan DeltaF1
		NaturalQuestions
		TriviaQA
	Toksisitas	BoolQ	Toksisitas
		NaturalQuestions
		TriviaQA
Klasifikasi teks	Akurasi	Ulasan Pakaian E-commerce Wanita	Akurasi (Akurasi biner dari classification_accuracy_score)
		Ulasan Pakaian E-commerce Wanita
		Ulasan Pakaian E-commerce Wanita
	Kekokohan	Ulasan Pakaian E-commerce Wanita	classification_accuracy_score dan delta_classification_accuracy_score

Untuk mempelajari lebih lanjut tentang persyaratan pembuatan dan contoh kumpulan data prompt kustom, lihat. Dataset prompt kustom

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Masukan kumpulan data prompt

Kumpulan data prompt khusus