Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
catatan
Foundation Model Evaluations (FMEval) sedang dalam rilis pratinjau untuk Amazon SageMaker Clarify dan dapat berubah sewaktu-waktu.
penting
Untuk menggunakan SageMaker Clarify Foundation Model Evaluations, Anda harus meningkatkan ke pengalaman Studio baru. Per 30 November 2023, pengalaman Amazon SageMaker Studio sebelumnya sekarang bernama Amazon SageMaker Studio Classic. Fitur evaluasi pondasi hanya dapat digunakan dalam pengalaman yang diperbarui. Untuk informasi tentang cara memperbarui Studio, lihatMigrasi dari Amazon SageMaker Studio Classic. Untuk informasi tentang menggunakan aplikasi Studio Classic, lihatAmazon SageMaker Studio Klasik.
Amazon SageMaker JumpStart memiliki integrasi dengan SageMaker Clarify Foundation Model Evaluations (FMEval) di Studio. Jika JumpStart model memiliki kemampuan evaluasi bawaan yang tersedia, Anda dapat memilih Evaluasi di sudut kanan atas halaman detail model di UI JumpStart Studio. Untuk informasi selengkapnya tentang menavigasi UI JumpStart Studio, lihat, Buka dan gunakan JumpStart di Studio
Gunakan Amazon SageMaker JumpStart untuk mengevaluasi model dasar berbasis teks dengan. FMEval Anda dapat menggunakan evaluasi model ini untuk membandingkan metrik kualitas dan tanggung jawab model untuk satu model, antara dua model, atau antara versi berbeda dari model yang sama, untuk membantu Anda mengukur risiko model. FMEval dapat mengevaluasi model berbasis teks yang melakukan tugas-tugas berikut:
-
Generasi terbuka — Produksi respons manusia alami terhadap teks yang tidak memiliki struktur yang telah ditentukan sebelumnya.
-
Ringkasan teks — Pembuatan ringkasan ringkas dan ringkas sambil mempertahankan makna dan informasi kunci yang terkandung dalam teks yang lebih besar.
-
Question Answering — Generasi jawaban dalam bahasa alami untuk sebuah pertanyaan.
-
Klasifikasi — Penugasan kelas, seperti
positive
versusnegative
ke bagian teks berdasarkan isinya.
Anda dapat menggunakan FMEval untuk secara otomatis mengevaluasi respons model berdasarkan tolok ukur tertentu. Anda juga dapat mengevaluasi respons model terhadap kriteria Anda sendiri dengan membawa kumpulan data prompt Anda sendiri. FMEval menyediakan antarmuka pengguna (UI) yang memandu Anda melalui pengaturan dan konfigurasi pekerjaan evaluasi. Anda juga dapat menggunakan FMEval perpustakaan di dalam kode Anda sendiri.
Setiap evaluasi membutuhkan kuota untuk dua contoh:
-
Hosting instance — Instance yang menghosting dan menyebarkan LLM.
-
Contoh evaluasi — Sebuah contoh yang digunakan untuk meminta dan melakukan evaluasi LLM pada instance hosting.
Jika LLM Anda sudah digunakan, berikan titik akhir, dan SageMaker AI akan menggunakan instance hosting Anda untuk meng-host dan menyebarkan LLM.
Jika Anda mengevaluasi JumpStart model yang belum diterapkan ke akun Anda, FMEval buat instance hosting sementara untuk Anda di akun Anda, dan simpan hanya untuk durasi evaluasi Anda. FMEval menggunakan instance default yang JumpStart merekomendasikan LLM yang dipilih sebagai instance hosting Anda. Anda harus memiliki kuota yang cukup untuk contoh yang direkomendasikan ini.
Setiap evaluasi juga menggunakan contoh evaluasi untuk memberikan petunjuk dan menilai tanggapan dari LLM. Anda juga harus memiliki kuota dan memori yang cukup untuk menjalankan algoritma evaluasi. Persyaratan kuota dan memori dari instance evaluasi umumnya lebih kecil daripada yang diperlukan untuk instance hosting. Kami merekomendasikan memilih ml.m5.2xlarge
instance. Untuk informasi lebih lanjut tentang kuota dan memori, lihatMengatasi kesalahan saat membuat pekerjaan evaluasi model di Amazon SageMaker AI.
Evaluasi otomatis dapat digunakan untuk mencetak skor LLMs di seluruh dimensi berikut:
-
Akurasi — Untuk ringkasan teks, penjawab pertanyaan, dan klasifikasi teks
-
Kekokohan semantik — Untuk tugas generasi terbuka, ringkasan teks, dan klasifikasi teks
-
Pengetahuan faktual — Untuk generasi terbuka
-
Stereotip cepat — Untuk generasi terbuka
-
Toksisitas — Untuk generasi terbuka, ringkasan teks, dan menjawab pertanyaan
Anda juga dapat menggunakan evaluasi manusia untuk mengevaluasi respons model secara manual. FMEval UI memandu Anda melalui alur kerja memilih satu atau beberapa model, menyediakan sumber daya, dan menulis instruksi untuk dan menghubungi tenaga kerja manusia Anda. Setelah evaluasi manusia selesai, hasilnya ditampilkan di FMEval.
Anda dapat mengakses evaluasi model melalui halaman JumpStart arahan di Studio dengan memilih model untuk dievaluasi dan kemudian memilih Evaluasi. Perhatikan bahwa tidak semua JumpStart model memiliki kemampuan evaluasi yang tersedia. Untuk informasi selengkapnya tentang cara mengonfigurasi, menyediakan, dan menjalankan FMEval, lihat Apa itu Evaluasi Model Foundation?