Evaluasi dengan Inspect AI

Anda dapat mengevaluasi model Amazon Nova yang disesuaikan menggunakan Inspect AI, kerangka evaluasi sumber terbuka. Inspect AI mendukung tolok ukur standar dari komunitas riset AI, memungkinkan Anda mengukur kinerja model di seluruh pengetahuan, penalaran, pengkodean, dan tugas keselamatan.

Pilih pendekatan evaluasi yang paling sesuai dengan alur kerja Anda:

Memeriksa AI SDK — Jalankan evaluasi secara interaktif dari notebook atau lingkungan lokal terhadap titik akhir inferensi Anda. SageMaker Terbaik untuk pengembangan, iterasi, dan pengujian cepat.
Periksa wadah AI — Jalankan evaluasi dalam skala besar sebagai Pekerjaan SageMaker Pelatihan. Terbaik untuk jalur pipa evaluasi produksi, rantai beberapa tolok ukur, dan alur kerja otomatis.

Alur kerja yang disarankan: Mulailah dengan Inspect AI SDK untuk membuat dan menguji tolok ukur evaluasi kustom Anda menggunakan prompt orientasi asisten AI, lalu jalankan evaluasi terhadap solusi inferensi pilihan Anda. Setelah tolok ukur Anda sepenuhnya divalidasi, Anda dapat beralih ke evaluasi berbasis pekerjaan dengan mulus menggunakan wadah Inspect AI — tidak diperlukan perubahan kode. Cukup pindahkan file benchmark dan file resep Anda ke S3 dan luncurkan pekerjaan.

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menghapus penerapan model kustom

Periksa AI SDK