Evaluasi kinerja model Anda - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Evaluasi kinerja model Anda

Amazon SageMaker Canvas memberikan ikhtisar dan informasi penilaian untuk berbagai jenis model. Skor model Anda dapat membantu Anda menentukan seberapa akurat model Anda ketika membuat prediksi. Wawasan penilaian tambahan dapat membantu Anda mengukur perbedaan antara nilai aktual dan prediksi.

Untuk melihat analisis model Anda, lakukan hal berikut:

  1. Buka aplikasi SageMaker Canvas.

  2. Di panel navigasi kiri, pilih Model saya.

  3. Pilih model yang Anda buat.

  4. Di panel navigasi atas, pilih tab Analisis.

  5. Di dalam tab Analisis, Anda dapat melihat ikhtisar dan informasi penilaian untuk model Anda.

Bagian berikut menjelaskan cara menafsirkan penilaian untuk setiap jenis model.

Mengevaluasi model prediksi kategoris

Tab Ikhtisar menunjukkan dampak kolom untuk setiap kolom. Dampak kolom adalah skor persentase yang menunjukkan berapa banyak bobot kolom dalam membuat prediksi dalam kaitannya dengan kolom lainnya. Untuk dampak kolom 25%, Canvas menimbang prediksi sebagai 25% untuk kolom dan 75% untuk kolom lainnya.

Tangkapan layar berikut menunjukkan skor Akurasi untuk model, bersama dengan metrik Optimasi, yang merupakan metrik yang Anda pilih untuk dioptimalkan saat membuat model. Dalam hal ini, metrik Optimasi adalah Akurasi. Anda dapat menentukan metrik pengoptimalan yang berbeda jika Anda membuat versi baru model Anda.

Tangkapan layar skor akurasi dan metrik pengoptimalan pada tab Analisis di Canvas.

Tab Skor untuk model prediksi kategoris memberi Anda kemampuan untuk memvisualisasikan semua prediksi. Segmen garis memanjang dari kiri halaman, menunjukkan semua prediksi yang dibuat model. Di tengah halaman, segmen garis bertemu pada segmen tegak lurus untuk menunjukkan proporsi setiap prediksi ke satu kategori. Dari kategori yang diprediksi, segmen bercabang ke kategori aktual. Anda bisa mendapatkan gambaran visual tentang seberapa akurat prediksi tersebut dengan mengikuti setiap segmen baris dari kategori yang diprediksi ke kategori aktual.

Gambar berikut memberi Anda contoh bagian Penilaian untuk model prediksi kategori 3+.

Tangkapan layar tab Skor untuk model prediksi kategori 3+.

Anda juga dapat melihat tab Metrik lanjutan untuk informasi lebih rinci tentang kinerja model Anda, seperti metrik lanjutan, plot kepadatan kesalahan, atau matriks kebingungan. Untuk mempelajari lebih lanjut tentang tab Metrik lanjutan, lihatGunakan metrik lanjutan dalam analisis Anda.

Mengevaluasi model prediksi numerik

Tab Ikhtisar menunjukkan dampak kolom untuk setiap kolom. Dampak kolom adalah skor persentase yang menunjukkan berapa banyak bobot kolom dalam membuat prediksi dalam kaitannya dengan kolom lainnya. Untuk dampak kolom 25%, Canvas menimbang prediksi sebagai 25% untuk kolom dan 75% untuk kolom lainnya.

Tangkapan layar berikut menunjukkan RMSEskor untuk model pada tab Ikhtisar, yang dalam hal ini adalah metrik Optimasi. Metrik Optimasi adalah metrik yang Anda pilih untuk dioptimalkan saat membuat model. Anda dapat menentukan metrik pengoptimalan yang berbeda jika Anda membuat versi baru model Anda.

Tangkapan layar metrik RMSE pengoptimalan pada tab Analisis di Canvas.

Tab Skor untuk prediksi numerik menunjukkan garis untuk menunjukkan nilai prediksi model dalam kaitannya dengan data yang digunakan untuk membuat prediksi. Nilai prediksi numerik sering +/- nilai RMSE (root mean squared error). Nilai yang diprediksi model seringkali berada dalam kisaran. RMSE Lebar pita ungu di sekitar garis menunjukkan RMSE kisaran. Nilai yang diprediksi sering berada dalam kisaran.

Gambar berikut menunjukkan bagian Skor untuk prediksi numerik.

Screenshot dari tab Skor untuk model prediksi numerik.

Anda juga dapat melihat tab Metrik lanjutan untuk informasi lebih rinci tentang kinerja model Anda, seperti metrik lanjutan, plot kepadatan kesalahan, atau matriks kebingungan. Untuk mempelajari lebih lanjut tentang tab Metrik lanjutan, lihatGunakan metrik lanjutan dalam analisis Anda.

Mengevaluasi model peramalan deret waktu

Pada halaman Analisis untuk model peramalan deret waktu, Anda dapat melihat ikhtisar metrik model. Anda dapat mengarahkan kursor ke setiap metrik untuk informasi lebih lanjut, atau Anda dapat melihat Gunakan metrik lanjutan dalam analisis Anda informasi lebih lanjut tentang setiap metrik.

Di bagian dampak Kolom, Anda dapat melihat skor untuk setiap kolom. Dampak kolom adalah skor persentase yang menunjukkan berapa banyak bobot kolom dalam membuat prediksi dalam kaitannya dengan kolom lainnya. Untuk dampak kolom 25%, Canvas menimbang prediksi sebagai 25% untuk kolom dan 75% untuk kolom lainnya.

Tangkapan layar berikut menunjukkan skor metrik deret waktu untuk model, bersama dengan metrik Optimasi, yang merupakan metrik yang Anda pilih untuk dioptimalkan saat membuat model. Dalam hal ini, metrik Optimasi adalah RMSE. Anda dapat menentukan metrik pengoptimalan yang berbeda jika Anda membuat versi baru model Anda. Skor metrik ini diambil dari hasil backtest Anda, yang tersedia untuk diunduh di tab Artefak.

Tangkapan layar metrik RMSE pengoptimalan pada tab Analisis di Canvas.

Tab Artefacts menyediakan akses ke beberapa sumber daya utama yang dapat Anda gunakan untuk menyelam lebih dalam ke kinerja model Anda dan terus mengulanginya:

  • Pelatihan acak dan pemisahan validasi — Bagian ini mencakup tautan ke artefak yang dihasilkan saat kumpulan data Anda dibagi menjadi set pelatihan dan validasi, memungkinkan Anda meninjau distribusi data dan potensi bias.

  • Hasil backtest — Bagian ini menyertakan tautan ke nilai yang diperkirakan untuk kumpulan data validasi Anda, yang digunakan untuk menghasilkan metrik akurasi dan data evaluasi untuk model Anda.

  • Metrik akurasi — Bagian ini mencantumkan metrik lanjutan yang mengevaluasi kinerja model Anda, seperti Root Mean Squared Error (). RMSE Untuk informasi selengkapnya tentang setiap metrik, lihatMetrik untuk perkiraan deret waktu.

  • Laporan penjelasan - Bagian ini menyediakan tautan untuk mengunduh laporan penjelasan, yang menawarkan wawasan tentang proses pengambilan keputusan model dan kepentingan relatif kolom input. Laporan ini dapat membantu Anda mengidentifikasi area potensial untuk perbaikan.

Pada halaman Analisis, Anda juga dapat memilih tombol Unduh untuk langsung mengunduh hasil backtest, metrik akurasi, dan artefak laporan penjelasan ke mesin lokal Anda.

Evaluasi model prediksi gambar

Tab Ikhtisar menunjukkan kinerja Per label, yang memberi Anda skor akurasi keseluruhan untuk gambar yang diprediksi untuk setiap label. Anda dapat memilih label untuk melihat detail yang lebih spesifik, seperti gambar yang diprediksi dengan benar dan diprediksi dengan salah untuk label.

Anda dapat mengaktifkan sakelar Heatmap untuk melihat peta panas untuk setiap gambar. Peta panas menunjukkan kepada Anda bidang minat yang memiliki dampak paling besar saat model Anda membuat prediksi. Untuk informasi selengkapnya tentang heatmap dan cara menggunakannya untuk menyempurnakan model Anda, pilih ikon Info selengkapnya di sebelah Heatmap toggle.

Tab Skor untuk model prediksi gambar label tunggal menunjukkan kepada Anda perbandingan dari apa yang diprediksi model sebagai label versus label sebenarnya. Anda dapat memilih hingga 10 label sekaligus. Anda dapat mengubah label dalam visualisasi dengan memilih menu tarik-turun label dan memilih atau membatalkan pilihan label.

Anda juga dapat melihat wawasan untuk masing-masing label atau grup label, seperti tiga label dengan akurasi tertinggi atau terendah, dengan memilih menu tarik-turun Lihat skor untuk menu tarik-turun di bagian Wawasan akurasi model.

Tangkapan layar berikut menunjukkan Informasi penilaian untuk model prediksi gambar label tunggal.

Label aktual versus prediksi pada halaman Skor untuk model prediksi teks multi-kategori.

Mengevaluasi model prediksi teks

Tab Ikhtisar menunjukkan kinerja Per label, yang memberi Anda skor akurasi keseluruhan untuk bagian teks yang diprediksi untuk setiap label. Anda dapat memilih label untuk melihat detail yang lebih spesifik, seperti bagian yang diprediksi dengan benar dan diprediksi dengan salah untuk label.

Tab Skor untuk model prediksi teks multi-kategori menunjukkan kepada Anda perbandingan apa yang diprediksi model sebagai label versus label sebenarnya.

Di bagian Wawasan akurasi model, Anda dapat melihat kategori Paling sering, yang memberi tahu Anda kategori yang paling sering diprediksi model dan seberapa akurat prediksi tersebut. Jika model Anda memprediksi label Positif dengan benar 99% dari waktu, maka Anda dapat cukup yakin bahwa model Anda pandai memprediksi sentimen positif dalam teks.

Tangkapan layar berikut menunjukkan Informasi penilaian untuk model prediksi teks multi-kategori.

Label aktual versus prediksi pada halaman Skor untuk model prediksi gambar label tunggal.