Model klasifikasi pelatihan

Untuk melatih model klasifikasi kustom, Anda menentukan kategori dan memberikan contoh dokumen untuk melatih model kustom. Anda melatih model dalam mode multi-kelas atau multi-label. Mode multi-kelas mengaitkan satu kelas dengan setiap dokumen. Mode multi-label mengaitkan satu atau lebih kelas dengan setiap dokumen.

Klasifikasi kustom mendukung dua jenis model pengklasifikasi: model teks biasa dan model dokumen asli. Model teks biasa mengklasifikasikan dokumen berdasarkan konten teksnya. Model dokumen asli juga mengklasifikasikan dokumen berdasarkan konten teks. Model dokumen asli juga dapat menggunakan sinyal tambahan, seperti dari tata letak dokumen. Anda melatih model dokumen asli dengan dokumen asli untuk model untuk mempelajari informasi tata letak.

Model teks biasa memiliki karakteristik sebagai berikut:

Anda melatih model menggunakan dokumen teks yang dikodekan UTF-8.
Anda dapat melatih model menggunakan dokumen dalam salah satu bahasa berikut: Inggris, Spanyol, Jerman, Italia, Prancis, atau Portugis.
Dokumen pelatihan untuk pengklasifikasi tertentu semuanya harus menggunakan bahasa yang sama.
Dokumen pelatihan adalah teks biasa, jadi tidak ada biaya tambahan untuk ekstraksi teks.

Model dokumen asli memiliki karakteristik sebagai berikut:

Anda melatih model menggunakan dokumen semi-terstruktur, yang mencakup jenis dokumen berikut:
- Dokumen PDF digital dan pindaian.
- Dokumen Word (DOCX).
- Gambar: File JPG, file PNG, dan file TIFF satu halaman.
- File JSON keluaran API Textract.
Anda melatih model menggunakan dokumen bahasa Inggris.
Jika dokumen pelatihan Anda menyertakan file dokumen yang dipindai, Anda dikenakan biaya tambahan untuk ekstraksi teks. Lihat halaman Harga Amazon Comprehend untuk detailnya.

Anda dapat mengklasifikasikan salah satu jenis dokumen yang didukung menggunakan salah satu jenis model. Namun, untuk hasil yang paling akurat, sebaiknya gunakan model teks biasa untuk mengklasifikasikan dokumen teks biasa dan model dokumen asli untuk mengklasifikasikan dokumen semi-terstruktur.

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mode multi-label

Latih pengklasifikasi khusus (konsol)