Gunakan SageMaker Clarify untuk mengevaluasi model bahasa besar

penting

Untuk menggunakan SageMaker Clarify Foundation Model Evaluations, Anda harus meningkatkan ke pengalaman Studio baru. Per 30 November 2023, pengalaman Amazon SageMaker Studio sebelumnya sekarang bernama Amazon SageMaker Studio Classic. Fitur evaluasi pondasi hanya dapat digunakan dalam pengalaman yang diperbarui. Untuk informasi tentang cara memperbarui Studio, lihatMigrasi dari Amazon SageMaker Studio Classic. Untuk informasi tentang menggunakan aplikasi Studio Classic, lihatAmazon SageMaker Studio Klasik.

Menggunakan Amazon SageMaker Clarify, Anda dapat mengevaluasi model bahasa besar (LLM) dengan membuat pekerjaan evaluasi model. Pekerjaan evaluasi model memungkinkan Anda untuk mengevaluasi dan membandingkan metrik kualitas dan tanggung jawab model untuk model fondasi berbasis teks dari. JumpStart Pekerjaan evaluasi model juga mendukung penggunaan JumpStart model yang telah diterapkan ke titik akhir.

Anda dapat membuat pekerjaan evaluasi model menggunakan tiga pendekatan berbeda.

Buat pekerjaan evaluasi model otomatis di Studio - Pekerjaan evaluasi model otomatis memungkinkan Anda mengevaluasi kemampuan model dengan cepat untuk melakukan tugas. Anda dapat menyediakan kumpulan data prompt kustom Anda sendiri yang telah disesuaikan dengan kasus penggunaan tertentu, atau Anda dapat menggunakan kumpulan data bawaan yang tersedia.
Buat pekerjaan evaluasi model yang menggunakan pekerja manusia di Studio - Pekerjaan evaluasi model yang menggunakan pekerja manusia memungkinkan Anda untuk membawa masukan manusia ke proses evaluasi model. Mereka bisa menjadi karyawan perusahaan Anda atau sekelompok ahli materi pelajaran dari industri Anda.
Buat pekerjaan evaluasi model otomatis menggunakan fmeval perpustakaan — Membuat pekerjaan menggunakan fmeval memberi Anda kontrol butir paling halus atas pekerjaan evaluasi model Anda. Ini juga mendukung penggunaan LLM di luar AWS atau model JumpStart non-berbasis dari layanan lain.

Pekerjaan evaluasi model mendukung kasus penggunaan umum untuk LLM seperti pembuatan teks, klasifikasi teks, tanya jawab, dan ringkasan teks.

Generasi terbuka — Produksi respons manusia alami terhadap teks yang tidak memiliki struktur yang telah ditentukan sebelumnya.
Ringkasan teks — Pembuatan ringkasan ringkas dan ringkas sambil mempertahankan makna dan informasi kunci yang terkandung dalam teks yang lebih besar.
Menjawab pertanyaan — Generasi respons yang relevan dan akurat terhadap prompt.
Klasifikasi — Menetapkan kategori, seperti label atau skor ke teks, berdasarkan kontennya.

Topik berikut menjelaskan tugas evaluasi model yang tersedia, dan jenis metrik yang dapat Anda gunakan. Mereka juga menjelaskan kumpulan data bawaan yang tersedia dan cara menentukan kumpulan data Anda sendiri.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mengevaluasi, menjelaskan, dan mendeteksi bias dalam model

Evaluasi model