Mengevaluasi kinerja model Ambang batas yang diasumsikan presisi Ingat F1 Menggunakan metrik

Metrik untuk mengevaluasi model Anda

Setelah model Anda dilatih, Amazon Rekognition Custom Labels mengembalikan metrik dari pengujian model, yang dapat Anda gunakan untuk mengevaluasi kinerja model Anda. Topik ini menjelaskan metrik yang tersedia untuk Anda, dan bagaimana memahami apakah model terlatih Anda berkinerja baik.

Konsol Label Kustom Rekognition Amazon menyediakan metrik berikut sebagai ringkasan hasil pelatihan dan sebagai metrik untuk setiap label:

presisi
Ingat
F1

Setiap metrik yang kami sediakan adalah metrik yang umum digunakan untuk mengevaluasi kinerja model Machine Learning. Amazon Rekognition Custom Labels mengembalikan metrik untuk hasil pengujian di seluruh kumpulan data pengujian, bersama dengan metrik untuk setiap label kustom. Anda juga dapat meninjau kinerja model kustom terlatih Anda untuk setiap gambar dalam kumpulan data pengujian Anda. Untuk informasi selengkapnya, lihat Mengakses metrik evaluasi (Konsol).

Mengevaluasi kinerja model

Selama pengujian, Amazon Rekognition Custom Labels memprediksi jika gambar uji berisi label kustom. Skor kepercayaan adalah nilai yang mengukur kepastian prediksi model.

Jika skor kepercayaan untuk label khusus melebihi nilai ambang batas, output model akan menyertakan label ini. Prediksi dapat dikategorikan dengan cara berikut:

Benar positif - Model Label Kustom Rekognition Amazon dengan benar memprediksi keberadaan label khusus dalam gambar uji. Artinya, label yang diprediksi juga merupakan label “kebenaran dasar” untuk gambar itu. Misalnya, Amazon Rekognition Custom Labels mengembalikan label bola sepak dengan benar ketika bola sepak hadir dalam gambar.
Positif palsu - Model Label Kustom Rekognition Amazon salah memprediksi keberadaan label khusus dalam gambar uji. Artinya, label yang diprediksi bukanlah label kebenaran dasar untuk gambar. Misalnya, Amazon Rekognition Custom Labels mengembalikan label bola sepak, tetapi tidak ada label bola sepak di dasar kebenaran untuk gambar itu.
Negatif palsu - Model Label Kustom Rekognition Amazon tidak memprediksi bahwa label khusus ada dalam gambar, tetapi “kebenaran dasar” untuk gambar tersebut menyertakan label ini. Misalnya, Amazon Rekognition Custom Labels tidak mengembalikan label kustom 'bola sepak' untuk gambar yang berisi bola sepak.
Benar-benar negatif - Model Amazon Rekognition Custom Labels memprediksi dengan benar bahwa label kustom tidak ada dalam gambar pengujian. Misalnya, Amazon Rekognition Custom Labels tidak mengembalikan label bola sepak untuk gambar yang tidak berisi bola sepak.

Konsol menyediakan akses ke nilai positif benar, positif palsu, dan negatif palsu untuk setiap gambar dalam kumpulan data pengujian Anda. Untuk informasi selengkapnya, lihat Mengakses metrik evaluasi (Konsol).

Hasil prediksi ini digunakan untuk menghitung metrik berikut untuk setiap label, dan agregat untuk seluruh rangkaian pengujian Anda. Definisi yang sama berlaku untuk prediksi yang dibuat oleh model pada tingkat kotak pembatas, dengan perbedaan bahwa semua metrik dihitung pada setiap kotak pembatas (prediksi atau kebenaran dasar) di setiap gambar uji.

Persimpangan di atas Union (IoU) dan deteksi objek

Intersection over Union (IoU) mengukur persentase tumpang tindih antara dua kotak pembatas objek di atas area gabungannya. Kisarannya adalah 0 (tumpang tindih terendah) hingga 1 (tumpang tindih lengkap). Selama pengujian, kotak pembatas yang diprediksi benar ketika IoU dari kotak pembatas kebenaran tanah dan kotak pembatas yang diprediksi setidaknya 0,5.

Ambang batas yang diasumsikan

Amazon Rekognition Custom Labels secara otomatis menghitung nilai ambang batas yang diasumsikan (0-1) untuk setiap label kustom Anda. Anda tidak dapat menyetel nilai ambang batas yang diasumsikan untuk label kustom. Ambang batas yang diasumsikan untuk setiap label adalah nilai di atas yang prediksi dihitung sebagai positif benar atau salah. Ini diatur berdasarkan kumpulan data pengujian Anda. Ambang batas yang diasumsikan dihitung berdasarkan skor F1 terbaik yang dicapai pada dataset tes selama pelatihan model.

Anda bisa mendapatkan nilai ambang batas yang diasumsikan untuk label dari hasil pelatihan model. Untuk informasi selengkapnya, lihat Mengakses metrik evaluasi (Konsol).

Perubahan pada nilai ambang batas yang diasumsikan biasanya digunakan untuk meningkatkan presisi dan penarikan kembali model. Untuk informasi selengkapnya, lihat Meningkatkan model Label Kustom Rekognition Amazon. Karena Anda tidak dapat menetapkan ambang batas asumsi model untuk label, Anda dapat mencapai hasil yang sama dengan menganalisis gambar dengan DetectCustomLabels dan menentukan parameter MinConfidence input. Untuk informasi selengkapnya, lihat Menganalisis gambar dengan model terlatih.

presisi

Amazon Rekognition Custom Labels menyediakan metrik presisi untuk setiap label dan metrik presisi rata-rata untuk seluruh kumpulan data pengujian.

Presisi adalah fraksi prediksi yang benar (positif benar) atas semua prediksi model (positif benar dan salah) pada ambang batas yang diasumsikan untuk label individu. Saat ambang batas meningkat, model mungkin membuat prediksi yang lebih sedikit. Secara umum, bagaimanapun, ia akan memiliki rasio positif sejati yang lebih tinggi daripada positif palsu dibandingkan dengan ambang batas yang lebih rendah. Nilai yang mungkin untuk rentang presisi dari 0-1, dan nilai yang lebih tinggi menunjukkan presisi yang lebih tinggi.

Misalnya, ketika model memprediksi bahwa bola sepak hadir dalam sebuah gambar, seberapa sering prediksi itu benar? Misalkan ada gambar dengan 8 bola sepak dan 5 batu. Jika model memprediksi 9 bola sepak — 8 diprediksi dengan benar dan 1 positif palsu — maka presisi untuk contoh ini adalah 0,89. Namun, jika model memprediksi 13 bola sepak pada gambar dengan 8 prediksi yang benar dan 5 salah, maka presisi yang dihasilkan lebih rendah.

Untuk informasi lebih lanjut, lihat Presisi dan ingat.

Ingat

Label Kustom Rekognition Amazon menyediakan metrik penarikan rata-rata untuk setiap label dan metrik penarikan rata-rata untuk seluruh kumpulan data pengujian.

Ingat adalah fraksi dari label set pengujian Anda yang diprediksi dengan benar di atas ambang batas yang diasumsikan. Ini adalah ukuran seberapa sering model dapat memprediksi label khusus dengan benar ketika benar-benar ada dalam gambar set pengujian Anda. Kisaran untuk mengingat adalah 0-1. Nilai yang lebih tinggi menunjukkan penarikan yang lebih tinggi.

Misalnya, jika sebuah gambar berisi 8 bola sepak, berapa banyak dari mereka yang terdeteksi dengan benar? Dalam contoh ini di mana gambar memiliki 8 bola sepak dan 5 batu, jika model mendeteksi 5 bola sepak, nilai recall adalah 0,62. Jika setelah pelatihan ulang, model baru mendeteksi 9 bola sepak, termasuk semua 8 yang ada dalam gambar, maka nilai recall adalah 1,0.

Untuk informasi lebih lanjut, lihat Presisi dan ingat.

F1

Label Kustom Rekognition Amazon menggunakan metrik skor F1 untuk mengukur kinerja model rata-rata setiap label dan kinerja model rata-rata dari seluruh kumpulan data pengujian.

Kinerja model adalah ukuran agregat yang memperhitungkan presisi dan penarikan kembali semua label. (misalnya, skor F1 atau presisi rata-rata). Skor kinerja model adalah nilai antara 0 dan 1. Semakin tinggi nilainya, semakin baik kinerja model untuk penarikan dan presisi. Secara khusus, kinerja model untuk tugas klasifikasi biasanya diukur dengan skor F1. Skor itu adalah rata-rata harmonik dari skor presisi dan ingatan pada ambang batas yang diasumsikan. Misalnya, untuk model dengan presisi 0,9 dan penarikan 1,0, skor F1 adalah 0,947.

Nilai tinggi untuk skor F1 menunjukkan bahwa model berkinerja baik untuk presisi dan penarikan. Jika model tidak berkinerja baik, misalnya, dengan presisi rendah 0,30 dan penarikan tinggi 1,0, skor F1 adalah 0,46. Demikian pula jika presisi tinggi (0,95) dan penarikan rendah (0,20), skor F1 adalah 0,33. Dalam kedua kasus, skor F1 rendah dan menunjukkan masalah dengan model.

Untuk informasi lebih lanjut, lihat Skor F1.

Menggunakan metrik

Untuk model tertentu yang telah Anda latih dan tergantung pada aplikasi Anda, Anda dapat membuat trade-off antara presisi dan recall dengan menggunakan parameter MinConfidence input ke. DetectCustomLabels Pada MinConfidence nilai yang lebih tinggi, Anda biasanya mendapatkan presisi yang lebih tinggi (prediksi bola sepak yang lebih benar), tetapi ingatan yang lebih rendah (bola sepak yang lebih aktual akan terlewatkan). Pada MinConfidence nilai yang lebih rendah, Anda mendapatkan daya ingat yang lebih tinggi (lebih banyak bola sepak aktual diprediksi dengan benar), tetapi presisi yang lebih rendah (lebih banyak prediksi itu akan salah). Untuk informasi selengkapnya, lihat Menganalisis gambar dengan model terlatih.

Metrik juga memberi tahu Anda tentang langkah-langkah yang mungkin Anda ambil untuk meningkatkan kinerja model jika diperlukan. Untuk informasi selengkapnya, lihat Meningkatkan model Label Kustom Rekognition Amazon.

catatan

DetectCustomLabelsmengembalikan prediksi mulai dari 0 hingga 100, yang sesuai dengan kisaran metrik 0-1.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Meningkatkan model yang terlatih

Mengakses metrik evaluasi (Konsol)