Referensi metrik - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Referensi metrik

Bagian berikut menjelaskan metrik yang tersedia di Amazon SageMaker Canvas untuk setiap jenis model.

Metrik untuk prediksi numerik

Daftar berikut mendefinisikan metrik untuk prediksi numerik di SageMaker Canvas dan memberi Anda informasi tentang bagaimana Anda dapat menggunakannya.

  • InferenceLatency — Perkiraan jumlah waktu antara membuat permintaan untuk prediksi model untuk menerimanya dari titik akhir real-time tempat model digunakan. Metrik ini diukur dalam hitungan detik dan hanya tersedia untuk model yang dibuat dengan mode Ensembling.

  • MAE - Berarti kesalahan absolut. Rata-rata, prediksi untuk kolom target adalah +/- {MAE} dari nilai sebenarnya.

    Mengukur seberapa berbeda nilai prediksi dan aktual ketika dirata-ratakan di semua nilai. MAE biasanya digunakan dalam prediksi numerik untuk memahami kesalahan prediksi model. Jika prediksi linier, MAE mewakili jarak rata-rata dari garis prediksi ke nilai aktual. MAE didefinisikan sebagai jumlah kesalahan absolut dibagi dengan jumlah pengamatan. Nilai berkisar dari 0 hingga tak terhingga, dengan angka yang lebih kecil menunjukkan kecocokan model yang lebih baik dengan data.

  • MAPE — Berarti kesalahan persen absolut. Rata-rata, prediksi untuk kolom target adalah +/- {MAPE}% dari nilai sebenarnya.

    MAPE adalah rata-rata perbedaan absolut antara nilai aktual dan nilai yang diprediksi atau diperkirakan, dibagi dengan nilai aktual dan dinyatakan sebagai persentase. MAPE yang lebih rendah menunjukkan kinerja yang lebih baik, karena itu berarti bahwa nilai yang diprediksi atau diperkirakan lebih dekat dengan nilai aktual.

  • MSE — Rata-rata kesalahan kuadrat, atau rata-rata perbedaan kuadrat antara nilai prediksi dan aktual.

    Nilai MSE selalu positif. Semakin baik model dalam memprediksi nilai aktual, semakin kecil nilai MSE.

  • R2 — Persentase perbedaan pada kolom target yang dapat dijelaskan oleh kolom input.

    Mengukur seberapa banyak model dapat menjelaskan varians dari variabel dependen. Nilai berkisar dari satu (1) ke negatif (-1). Angka yang lebih tinggi menunjukkan fraksi yang lebih tinggi dari variabilitas yang dijelaskan. Nilai mendekati nol (0) menunjukkan bahwa sangat sedikit variabel dependen yang dapat dijelaskan oleh model. Nilai negatif menunjukkan kecocokan yang buruk dan bahwa model tersebut dikalahkan oleh fungsi konstan (atau garis horizontal).

  • RMSE — Root mean kuadrat kesalahan, atau standar deviasi kesalahan.

    Mengukur akar kuadrat dari perbedaan kuadrat antara nilai prediksi dan aktual, dan dirata-ratakan pada semua nilai. Ini digunakan untuk memahami kesalahan prediksi model, dan ini merupakan metrik penting untuk menunjukkan adanya kesalahan model besar dan outlier. Nilai berkisar dari nol (0) hingga tak terhingga, dengan angka yang lebih kecil menunjukkan kecocokan model yang lebih baik dengan data. RMSE tergantung pada skala, dan tidak boleh digunakan untuk membandingkan kumpulan data dari berbagai jenis.

Metrik untuk prediksi kategoris

Bagian ini mendefinisikan metrik untuk prediksi kategoris di SageMaker Canvas dan memberi Anda informasi tentang bagaimana Anda dapat menggunakannya.

Berikut ini adalah daftar metrik yang tersedia untuk prediksi 2 kategori:

  • Akurasi — Persentase prediksi yang benar.

    Atau, rasio jumlah item yang diprediksi dengan benar dengan jumlah total prediksi. Akurasi mengukur seberapa dekat nilai kelas yang diprediksi dengan nilai aktual. Nilai untuk metrik akurasi bervariasi antara nol (0) dan satu (1). Nilai 1 menunjukkan akurasi sempurna, dan 0 menunjukkan ketidakakuratan total.

  • AUC — Nilai antara 0 dan 1 yang menunjukkan seberapa baik model Anda dapat memisahkan kategori dalam kumpulan data Anda. Nilai 1 menunjukkan bahwa ia mampu memisahkan kategori dengan sempurna.

  • BalancedAccuracy — Mengukur rasio prediksi yang akurat untuk semua prediksi.

    Rasio ini dihitung setelah menormalkan positif sejati (TP) dan negatif sejati (TN) dengan jumlah total nilai positif (P) dan negatif (N). Ini didefinisikan sebagai berikut:0.5*((TP/P)+(TN/N)), dengan nilai mulai dari 0 hingga 1. Metrik akurasi seimbang memberikan ukuran akurasi yang lebih baik ketika jumlah positif atau negatif sangat berbeda satu sama lain dalam kumpulan data yang tidak seimbang, seperti ketika hanya 1% email adalah spam.

  • F1 — Ukuran akurasi yang seimbang yang memperhitungkan keseimbangan kelas.

    Ini adalah rata-rata harmonik dari skor presisi dan ingatan, yang didefinisikan sebagai berikut:F1 = 2 * (precision * recall) / (precision + recall). Skor F1 bervariasi antara 0 dan 1. Skor 1 menunjukkan kinerja terbaik, dan 0 menunjukkan yang terburuk.

  • InferenceLatency — Perkiraan jumlah waktu antara membuat permintaan untuk prediksi model untuk menerimanya dari titik akhir real-time tempat model digunakan. Metrik ini diukur dalam hitungan detik dan hanya tersedia untuk model yang dibuat dengan mode Ensembling.

  • LogLoss Kehilangan log, juga dikenal sebagai kerugian lintas entropi, adalah metrik yang digunakan untuk mengevaluasi kualitas output probabilitas, bukan output itu sendiri. Kehilangan log adalah metrik penting untuk menunjukkan kapan model membuat prediksi yang salah dengan probabilitas tinggi. Nilai berkisar dari 0 hingga tak terbatas. Nilai 0 mewakili model yang memprediksi data dengan sempurna.

  • Presisi — Dari semua waktu yang {kategori x} diprediksi, prediksi itu benar {presisi}% dari waktu.

    Presisi mengukur seberapa baik suatu algoritma memprediksi positif sejati (TP) dari semua hal positif yang diidentifikasi. Ini didefinisikan sebagai berikut:Precision = TP/(TP+FP), dengan nilai mulai dari nol (0) hingga satu (1). Presisi adalah metrik penting ketika biaya positif palsu tinggi. Misalnya, biaya positif palsu sangat tinggi jika sistem keselamatan pesawat secara keliru dianggap aman untuk terbang. Positif palsu (FP) mencerminkan prediksi positif yang sebenarnya negatif dalam data.

  • Ingat — Model dengan benar memprediksi {recall}% menjadi {category x} ketika {target_column} sebenarnya adalah {category x}.

    Ingat mengukur seberapa baik algoritme memprediksi dengan benar semua positif sejati (TP) dalam kumpulan data. Positif sejati adalah prediksi positif yang juga merupakan nilai positif aktual dalam data. Ingat didefinisikan sebagai berikut:Recall = TP/(TP+FN), dengan nilai mulai dari 0 hingga 1. Skor yang lebih tinggi mencerminkan kemampuan model yang lebih baik untuk memprediksi positif sejati (TP) dalam data. Perhatikan bahwa seringkali tidak cukup untuk hanya mengukur ingatan, karena memprediksi setiap output sebagai positif sejati menghasilkan skor ingatan yang sempurna.

Berikut ini adalah daftar metrik yang tersedia untuk prediksi kategori 3+:

  • Akurasi — Persentase prediksi yang benar.

    Atau, rasio jumlah item yang diprediksi dengan benar dengan jumlah total prediksi. Akurasi mengukur seberapa dekat nilai kelas yang diprediksi dengan nilai aktual. Nilai untuk metrik akurasi bervariasi antara nol (0) dan satu (1). Nilai 1 menunjukkan akurasi sempurna, dan 0 menunjukkan ketidakakuratan total.

  • BalancedAccuracy — Mengukur rasio prediksi yang akurat untuk semua prediksi.

    Rasio ini dihitung setelah menormalkan positif sejati (TP) dan negatif sejati (TN) dengan jumlah total nilai positif (P) dan negatif (N). Ini didefinisikan sebagai berikut:0.5*((TP/P)+(TN/N)), dengan nilai mulai dari 0 hingga 1. Metrik akurasi seimbang memberikan ukuran akurasi yang lebih baik ketika jumlah positif atau negatif sangat berbeda satu sama lain dalam kumpulan data yang tidak seimbang, seperti ketika hanya 1% email adalah spam.

  • F1makro — Skor F1makro menerapkan penilaian F1 dengan menghitung presisi dan recall, dan kemudian mengambil mean harmoniknya untuk menghitung skor F1 untuk setiap kelas. Kemudian, F1makro rata-rata skor individu untuk mendapatkan skor F1makro. Skor F1makro bervariasi antara 0 dan 1. Skor 1 menunjukkan kinerja terbaik, dan 0 menunjukkan yang terburuk.

  • InferenceLatency — Perkiraan jumlah waktu antara membuat permintaan untuk prediksi model untuk menerimanya dari titik akhir real-time tempat model digunakan. Metrik ini diukur dalam hitungan detik dan hanya tersedia untuk model yang dibuat dengan mode Ensembling.

  • LogLoss Kehilangan log, juga dikenal sebagai kerugian lintas entropi, adalah metrik yang digunakan untuk mengevaluasi kualitas output probabilitas, bukan output itu sendiri. Kehilangan log adalah metrik penting untuk menunjukkan kapan model membuat prediksi yang salah dengan probabilitas tinggi. Nilai berkisar dari 0 hingga tak terbatas. Nilai 0 mewakili model yang memprediksi data dengan sempurna.

  • PrecisionMacro — Mengukur presisi dengan menghitung presisi untuk setiap kelas dan skor rata-rata untuk mendapatkan presisi untuk beberapa kelas. Skor berkisar dari nol (0) hingga satu (1). Skor yang lebih tinggi mencerminkan kemampuan model untuk memprediksi positif sejati (TP) dari semua positif yang diidentifikasi, dirata-ratakan di beberapa kelas.

  • RecallMacro — Mengukur penarikan kembali dengan menghitung penarikan untuk setiap kelas dan skor rata-rata untuk mendapatkan penarikan kembali untuk beberapa kelas. Skor berkisar dari 0 hingga 1. Skor yang lebih tinggi mencerminkan kemampuan model untuk memprediksi positif sejati (TP) dalam kumpulan data, sedangkan positif sejati mencerminkan prediksi positif yang juga merupakan nilai positif aktual dalam data. Seringkali tidak cukup untuk mengukur hanya ingatan, karena memprediksi setiap output sebagai positif sejati akan menghasilkan skor ingatan yang sempurna.

Perhatikan bahwa untuk prediksi kategori 3+, Anda juga menerima metrik rata-rata F1, Akurasi, Presisi, dan Ingat. Skor untuk metrik ini hanyalah skor metrik yang dirata-ratakan untuk semua kategori.

Metrik untuk prediksi gambar dan teks

Berikut ini adalah daftar metrik yang tersedia untuk prediksi gambar dan prediksi teks.

  • Akurasi — Persentase prediksi yang benar.

    Atau, rasio jumlah item yang diprediksi dengan benar dengan jumlah total prediksi. Akurasi mengukur seberapa dekat nilai kelas yang diprediksi dengan nilai aktual. Nilai untuk metrik akurasi bervariasi antara nol (0) dan satu (1). Nilai 1 menunjukkan akurasi sempurna, dan 0 menunjukkan ketidakakuratan total.

  • F1 — Ukuran akurasi yang seimbang yang memperhitungkan keseimbangan kelas.

    Ini adalah rata-rata harmonik dari skor presisi dan ingatan, yang didefinisikan sebagai berikut:F1 = 2 * (precision * recall) / (precision + recall). Skor F1 bervariasi antara 0 dan 1. Skor 1 menunjukkan kinerja terbaik, dan 0 menunjukkan yang terburuk.

  • Presisi — Dari semua waktu yang {kategori x} diprediksi, prediksi itu benar {presisi}% dari waktu.

    Presisi mengukur seberapa baik suatu algoritma memprediksi positif sejati (TP) dari semua hal positif yang diidentifikasi. Ini didefinisikan sebagai berikut:Precision = TP/(TP+FP), dengan nilai mulai dari nol (0) hingga satu (1). Presisi adalah metrik penting ketika biaya positif palsu tinggi. Misalnya, biaya positif palsu sangat tinggi jika sistem keselamatan pesawat secara keliru dianggap aman untuk terbang. Positif palsu (FP) mencerminkan prediksi positif yang sebenarnya negatif dalam data.

  • Ingat — Model dengan benar memprediksi {recall}% menjadi {category x} ketika {target_column} sebenarnya adalah {category x}.

    Ingat mengukur seberapa baik algoritme memprediksi dengan benar semua positif sejati (TP) dalam kumpulan data. Positif sejati adalah prediksi positif yang juga merupakan nilai positif aktual dalam data. Ingat didefinisikan sebagai berikut:Recall = TP/(TP+FN), dengan nilai mulai dari 0 hingga 1. Skor yang lebih tinggi mencerminkan kemampuan model yang lebih baik untuk memprediksi positif sejati (TP) dalam data. Perhatikan bahwa seringkali tidak cukup untuk hanya mengukur ingatan, karena memprediksi setiap output sebagai positif sejati menghasilkan skor ingatan yang sempurna.

Perhatikan bahwa untuk model prediksi gambar dan teks tempat Anda memprediksi 3 kategori atau lebih, Anda juga menerima metrik F1, Akurasi, Presisi, dan Ingat rata-rata. Skor untuk metrik ini hanyalah rata-rata skor metrik untuk semua kategori.

Metrik untuk perkiraan deret waktu

Berikut ini mendefinisikan metrik lanjutan untuk perkiraan deret waktu di Amazon SageMaker Canvas dan memberi Anda informasi tentang bagaimana Anda dapat menggunakannya.

  • Average Weighted Quantile Loss (wQL) — Mengevaluasi perkiraan dengan rata-rata akurasi pada kuantil P10, P50, dan P90. Nilai yang lebih rendah menunjukkan model yang lebih akurat.

  • Weighted Absolute Percent Error (WAPE) — Jumlah kesalahan absolut yang dinormalisasi dengan jumlah target absolut, yang mengukur penyimpangan keseluruhan nilai yang diperkirakan dari nilai yang diamati. Nilai yang lebih rendah menunjukkan model yang lebih akurat, di mana WAPE = 0 adalah model tanpa kesalahan.

  • Root Mean Square Error (RMSE) - Akar kuadrat dari kesalahan kuadrat rata-rata. RMSE yang lebih rendah menunjukkan model yang lebih akurat, di mana RMSE = 0 adalah model tanpa kesalahan.

  • Mean Absolute Percent Error (MAPE) — Persentase kesalahan (perbedaan persen dari nilai perkiraan rata-rata versus nilai aktual) dirata-ratakan pada semua titik waktu. Nilai yang lebih rendah menunjukkan model yang lebih akurat, di mana MAPE = 0 adalah model tanpa kesalahan.

  • Mean Absolute Scaled Error (MASE) — Kesalahan absolut rata-rata dari perkiraan dinormalisasi oleh kesalahan absolut rata-rata dari metode peramalan dasar sederhana. Nilai yang lebih rendah menunjukkan model yang lebih akurat, di mana MASE < 1 is estimated to be better than the baseline and MASE > 1 diperkirakan lebih buruk daripada baseline.