Format kumpulan data dan metrik objektif untuk klasifikasi teks - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Format kumpulan data dan metrik objektif untuk klasifikasi teks

Pada bagian ini kita belajar tentang format yang tersedia untuk kumpulan data yang digunakan dalam klasifikasi teks serta metrik yang digunakan untuk mengevaluasi kualitas prediktif kandidat model pembelajaran mesin. Metrik yang dihitung untuk kandidat ditentukan menggunakan array MetricDatumtipe.

Format kumpulan data

Autopilot mendukung data tabular yang diformat sebagai file CSV atau sebagai file Parket. Untuk data tabular, setiap kolom berisi fitur dengan tipe data tertentu dan setiap baris berisi pengamatan. Properti dari dua format file ini sangat berbeda.

  • CSV (comma-separated-values) adalah format file berbasis baris yang menyimpan data dalam teks biasa yang dapat dibaca manusia yang merupakan pilihan populer untuk pertukaran data karena didukung oleh berbagai aplikasi.

  • Parket adalah format file berbasis kolom di mana data disimpan dan diproses lebih efisien daripada format file berbasis baris. Ini menjadikannya pilihan yang lebih baik untuk masalah data besar.

Tipe data yang diterima untuk kolom termasuk numerik, kategoris, teks.

Autopilot mendukung pembuatan model pembelajaran mesin pada kumpulan data besar hingga ratusan GB. Untuk detail tentang batas sumber daya default untuk kumpulan data input dan cara meningkatkannya, lihat kuota Amazon SageMaker Autopilot.

Metrik objektif

Daftar berikut berisi nama-nama metrik yang saat ini tersedia untuk mengukur kinerja model untuk klasifikasi teks.

Accuracy

Rasio jumlah item yang diklasifikasikan dengan benar dengan jumlah total item yang diklasifikasikan (benar dan salah). Akurasi mengukur seberapa dekat nilai kelas yang diprediksi dengan nilai aktual. Nilai untuk metrik akurasi bervariasi antara nol (0) dan satu (1). Nilai 1 menunjukkan akurasi sempurna, dan 0 menunjukkan ketidakakuratan sempurna.