Evaluasi model

Amazon Bedrock mendukung pekerjaan evaluasi model. Hasil pekerjaan evaluasi model memungkinkan Anda membandingkan output model, dan kemudian memilih model yang paling cocok untuk aplikasi AI generatif hilir Anda.

Pekerjaan evaluasi model mendukung kasus penggunaan umum untuk model bahasa besar (LLM) seperti pembuatan teks, klasifikasi teks, penjawab pertanyaan, dan ringkasan teks.

Untuk mengevaluasi kinerja model untuk pekerjaan evaluasi model otomatis, Anda dapat menggunakan kumpulan data prompt bawaan atau kumpulan data prompt Anda sendiri. Untuk pekerjaan evaluasi model yang menggunakan pekerja, Anda harus kumpulan data Anda sendiri.

Anda dapat memilih untuk membuat pekerjaan evaluasi model otomatis atau pekerjaan evaluasi model yang menggunakan tenaga kerja manusia.

Ikhtisar: Pekerjaan evaluasi model otomatis

Pekerjaan evaluasi model otomatis memungkinkan Anda mengevaluasi kemampuan model dengan cepat untuk melakukan tugas. Anda dapat menyediakan kumpulan data prompt kustom Anda sendiri yang telah disesuaikan dengan kasus penggunaan tertentu, atau Anda dapat menggunakan kumpulan data bawaan yang tersedia.

Ikhtisar: Pekerjaan evaluasi model yang menggunakan pekerja manusia

Pekerjaan evaluasi model yang menggunakan pekerja manusia memungkinkan Anda untuk membawa masukan manusia ke proses evaluasi model. Mereka bisa menjadi karyawan perusahaan Anda atau sekelompok ahli materi pelajaran dari industri Anda.

Topik berikut menjelaskan tugas evaluasi model yang tersedia, dan jenis metrik yang dapat Anda gunakan. Mereka juga menjelaskan kumpulan data bawaan yang tersedia dan cara menentukan kumpulan data Anda sendiri.

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Kuota

Memulai