Sebelum Anda mulai Buat evaluasi kinerja Referensi metrik

Mengevaluasi kinerja model yang dioptimalkan

Setelah Anda menggunakan pekerjaan pengoptimalan untuk membuat model yang dioptimalkan, Anda dapat menjalankan evaluasi kinerja model. Evaluasi ini menghasilkan metrik untuk latensi, throughput, dan harga. Gunakan metrik ini untuk menentukan apakah model yang dioptimalkan memenuhi kebutuhan kasus penggunaan Anda atau apakah itu memerlukan pengoptimalan lebih lanjut.

Anda dapat menjalankan evaluasi kinerja hanya dengan menggunakan Studio. Fitur ini tidak disediakan melalui Amazon SageMaker AI API atau Python SDK.

Sebelum Anda mulai

Sebelum Anda dapat membuat evaluasi kinerja, Anda harus terlebih dahulu mengoptimalkan model dengan membuat pekerjaan pengoptimalan inferensi. Di Studio, Anda hanya dapat mengevaluasi model yang Anda buat dengan pekerjaan ini.

Buat evaluasi kinerja

Selesaikan langkah-langkah berikut di Studio untuk membuat evaluasi kinerja untuk model yang dioptimalkan.

Di menu navigasi Studio, di bawah Pekerjaan, pilih Optimasi inferensi.
Pilih nama pekerjaan yang menciptakan model yang dioptimalkan yang ingin Anda evaluasi.
Pada halaman detail pekerjaan, pilih Evaluasi kinerja.
Pada halaman Evaluasi kinerja, beberapa JumpStart model mengharuskan Anda untuk menandatangani perjanjian lisensi pengguna akhir (EULA) sebelum Anda dapat melanjutkan. Jika diminta, tinjau persyaratan lisensi di bagian Perjanjian Lisensi. Jika persyaratan dapat diterima untuk kasus penggunaan Anda, pilih kotak centang untuk Saya menerima EULA, dan baca syarat dan ketentuan.
Untuk Pilih model untuk tokenizer, terima default, atau pilih model tertentu untuk bertindak sebagai tokenizer untuk evaluasi Anda.
Untuk kumpulan data Input, pilih apakah akan:
- Gunakan kumpulan data sampel default dari SageMaker AI.
- Berikan URI S3 yang menunjuk ke kumpulan data sampel Anda sendiri.
Untuk URI S3 untuk hasil kinerja, berikan URI yang menunjuk ke lokasi di Amazon S3 tempat Anda ingin menyimpan hasil evaluasi.
Pilih Evaluasi.

Studio menunjukkan halaman evaluasi kinerja, di mana pekerjaan evaluasi Anda ditampilkan dalam tabel. Kolom Status menunjukkan status evaluasi Anda.
Ketika status Selesai, pilih nama pekerjaan untuk melihat hasil evaluasi.

Halaman detail evaluasi menampilkan tabel yang menyediakan metrik kinerja untuk latensi, throughput, dan harga. Untuk informasi lebih lanjut tentang setiap metrik, lihatReferensi metrik untuk evaluasi kinerja inferensi.

Referensi metrik untuk evaluasi kinerja inferensi

Setelah Anda berhasil mengevaluasi kinerja model yang dioptimalkan, halaman detail evaluasi di Studio menunjukkan metrik berikut.

Metrik latensi

Bagian Latensi menunjukkan metrik berikut

Konkurensi: Jumlah pengguna bersamaan yang disimulasikan evaluasi untuk memanggil titik akhir secara bersamaan.
Waktu ke token pertama (ms): Waktu yang berlalu antara saat permintaan dikirim dan kapan token pertama dari respons streaming diterima.
Latensi antar-token (ms): Waktu untuk menghasilkan token output untuk setiap permintaan.
Latensi klien (ms): Latensi permintaan dari saat permintaan dikirim ke waktu seluruh respons diterima.
Token masukan/detik (hitungan): Jumlah total token input yang dihasilkan, di semua permintaan, dibagi dengan total durasi dalam detik untuk konkurensi.
Token keluaran/detik (hitungan): Jumlah total token keluaran yang dihasilkan, di semua permintaan, dibagi dengan total durasi dalam detik untuk konkurensi.
Pemanggilan klien (hitungan): Jumlah total permintaan inferensi yang dikirim ke titik akhir di semua pengguna secara bersamaan.
Kesalahan pemanggilan klien (hitungan): Jumlah total permintaan inferensi yang dikirim ke titik akhir di semua pengguna pada konkurensi tertentu yang mengakibatkan kesalahan pemanggilan.
Tokenizer gagal (hitungan): Jumlah total permintaan inferensi di mana tokenizer gagal mengurai permintaan atau respons.
Respon inferensi kosong (hitungan): Jumlah total permintaan inferensi yang menghasilkan token keluaran nol atau tokenizer gagal mengurai respons.

Metrik throughput

Bagian Throughput menunjukkan metrik berikut.

Konkurensi: Jumlah pengguna bersamaan yang disimulasikan evaluasi untuk memanggil titik akhir secara bersamaan.
Masukan tokens/sec/req (hitungan): Jumlah total token input yang dihasilkan per detik per permintaan.
Keluaran tokens/sec/req (hitungan): Jumlah total token keluaran yang dihasilkan per detik per permintaan.
Token masukan (hitungan): Jumlah total token input yang dihasilkan per permintaan.
Token keluaran (hitungan): Jumlah total token keluaran yang dihasilkan per permintaan.

Metrik harga

Bagian Harga menunjukkan metrik berikut.

Konkurensi: Jumlah pengguna bersamaan yang disimulasikan evaluasi untuk memanggil titik akhir secara bersamaan.
Harga per juta token masukan: Biaya pemrosesan token masukan 1M.
Harga per juta token keluaran: Biaya menghasilkan token keluaran 1M.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Lihat hasil pekerjaan pengoptimalan

Referensi model yang didukung