Mode multi-label - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mode multi-label

Dalam mode multi-label, kelas individu mewakili kategori berbeda yang tidak saling eksklusif. Klasifikasi multi-label menetapkan satu atau lebih kelas untuk setiap dokumen. Misalnya, Anda dapat mengklasifikasikan satu film sebagai Dokumenter, dan film lainnya sebagai fiksi ilmiah, aksi, dan komedi.

Untuk pelatihan, mode multi-label mendukung hingga 1 juta contoh yang berisi hingga 100 kelas unik.

Model teks biasa

Untuk melatih model teks biasa, Anda dapat memberikan data pelatihan berlabel sebagai file CSV atau sebagai file manifes tambahan dari Ground Truth. SageMaker

File CSV

Untuk informasi umum tentang penggunaan file CSV untuk pengklasifikasi pelatihan, lihat. Berkas CSV

Berikan data pelatihan sebagai file CSV dua kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas, dan kolom kedua berisi contoh dokumen teks untuk kelas-kelas ini. Untuk memasukkan lebih dari satu kelas di kolom pertama, gunakan pembatas (seperti |) di antara setiap kelas.

CLASS,Text of document 1 CLASS,Text of document 2 CLASS|CLASS|CLASS,Text of document 3

Contoh berikut menunjukkan satu baris file CSV yang melatih pengklasifikasi khusus untuk mendeteksi genre dalam abstrak film:

COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"

Pembatas default antara nama kelas adalah pipa (|). Namun, Anda dapat menggunakan karakter yang berbeda sebagai pembatas. Pembatas harus berbeda dari semua karakter dalam nama kelas Anda. Misalnya, jika kelas Anda adalah CLASS_1, CLASS_2, dan CLASS_3, garis bawah (_) adalah bagian dari nama kelas. Jadi jangan gunakan garis bawah sebagai pembatas untuk memisahkan nama kelas.

File manifes yang diperbesar

Untuk informasi umum tentang penggunaan file manifes tambahan untuk pengklasifikasi pelatihan, lihat. File manifes yang diperbesar

Untuk dokumen teks biasa, setiap baris file manifes yang ditambah adalah objek JSON lengkap. Ini berisi dokumen pelatihan, nama kelas, dan metadata lainnya dari Ground Truth. Contoh berikut adalah file manifes tambahan untuk melatih pengklasifikasi khusus untuk mendeteksi genre dalam abstrak film:

{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}

Contoh berikut menunjukkan satu objek JSON dari file manifes ditambah, diformat untuk keterbacaan:

{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }

Dalam contoh ini, source atribut menyediakan teks dokumen pelatihan, dan MultiLabelJob atribut menetapkan indeks beberapa kelas dari daftar klasifikasi. Nama pekerjaan dalam MultiLabelJob metadata adalah nama yang Anda tentukan untuk pekerjaan pelabelan di Ground Truth.

Model dokumen asli

Model dokumen asli adalah model yang Anda latih dengan dokumen asli (seperti PDF, DOCX, dan file gambar). Anda memberikan data pelatihan berlabel sebagai file CSV.

File CSV

Untuk informasi umum tentang penggunaan file CSV untuk pengklasifikasi pelatihan, lihat. Berkas CSV

Berikan data pelatihan sebagai file CSV tiga kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas. Kolom kedua berisi nama file dokumen contoh untuk kelas-kelas ini. Kolom ketiga berisi nomor halaman. Nomor halaman adalah opsional jika dokumen contoh adalah gambar.

Untuk memasukkan lebih dari satu kelas di kolom pertama, gunakan pembatas (seperti |) di antara setiap kelas.

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS|CLASS|CLASS,input-doc-3.png,2

Contoh berikut menunjukkan satu baris file CSV yang melatih pengklasifikasi khusus untuk mendeteksi genre dalam abstrak film. Halaman 2 dari file PDF berisi contoh film komedi/remaja.

COMEDY|TEEN,movie-summary-1.pdf,2

Pembatas default antara nama kelas adalah pipa (|). Namun, Anda dapat menggunakan karakter yang berbeda sebagai pembatas. Pembatas harus berbeda dari semua karakter dalam nama kelas Anda. Misalnya, jika kelas Anda adalah CLASS_1, CLASS_2, dan CLASS_3, garis bawah (_) adalah bagian dari nama kelas. Jadi jangan gunakan garis bawah sebagai pembatas untuk memisahkan nama kelas.