Memisahkan Data menjadi Data Pelatihan dan Evaluasi - Amazon Machine Learning

Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihatApa itu Amazon Machine Learning.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memisahkan Data menjadi Data Pelatihan dan Evaluasi

Tujuan mendasar dari ML adalah untukmenggeneralisasidi luar contoh data yang digunakan untuk melatih model. Kami ingin mengevaluasi model untuk memperkirakan kualitas generalisasi pola untuk data model belum dilatih. Namun, karena instance di masa depan memiliki nilai target yang tidak diketahui dan kami tidak dapat memeriksa keakuratan prediksi kami untuk instance mendatang sekarang, kita perlu menggunakan beberapa data yang sudah kita ketahui jawabannya sebagai proxy untuk data masa depan. Mengevaluasi model dengan data yang sama yang digunakan untuk pelatihan tidak berguna, karena memberi penghargaan kepada model yang dapat “mengingat” data pelatihan, sebagai lawan generalisasi darinya.

Strategi umum adalah mengambil semua data berlabel yang tersedia, dan membaginya menjadi subset pelatihan dan evaluasi, biasanya dengan rasio 70-80 persen untuk pelatihan dan 20-30 persen untuk evaluasi. Sistem L menggunakan data pelatihan untuk melatih model untuk melihat pola, dan menggunakan data evaluasi untuk mengevaluasi kualitas prediktif model yang terlatih. Sistem L mengevaluasi kinerja prediktif dengan membandingkan prediksi pada data evaluasi yang ditetapkan dengan nilai sebenarnya (dikenal sebagai ground truth) menggunakan berbagai metrik. Biasanya, Anda menggunakan model “terbaik” pada bagian evaluasi untuk membuat prediksi pada contoh masa depan yang Anda tidak tahu jawaban target.

Amazon ML-membagi data yang dikirim untuk melatih model melalui konsol Amazon ML-70 persen untuk pelatihan dan 30 persen untuk evaluasi. Secara default, Amazon IL menggunakan 70 persen pertama dari data masukan dalam urutan yang muncul dalam data sumber untuk sumber data pelatihan dan 30 persen sisanya dari data untuk sumber data evaluasi. Amazon IL juga memungkinkan Anda untuk memilih 70 persen data sumber acak untuk pelatihan alih-alih menggunakan 70 persen pertama, dan menggunakan pelengkap subset acak ini untuk evaluasi. Anda dapat menggunakan API Amazon IL untuk menentukan rasio split khusus dan untuk menyediakan data pelatihan dan evaluasi yang terbagi di luar Amazon IL. Amazon IL juga menyediakan strategi untuk membagi data Anda. Untuk informasi selengkapnya tentang strategi pemisahan, lihatMemisahkan Data Anda.