Mode multi-kelas - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mode multi-kelas

Dalam mode multi-kelas, klasifikasi menetapkan satu kelas untuk setiap dokumen. Kelas individu saling eksklusif. Misalnya, Anda dapat mengklasifikasikan film sebagai komedi atau fiksi ilmiah, tetapi tidak keduanya.

catatan

Konsol Amazon Comprehend mengacu pada mode multi-kelas sebagai mode label tunggal.

Model teks biasa

Untuk melatih model teks biasa, Anda dapat memberikan data pelatihan berlabel sebagai CSV file atau sebagai file manifes tambahan dari Ground Truth. SageMaker

CSVberkas

Untuk informasi umum tentang penggunaan CSV file untuk pengklasifikasi pelatihan, lihatCSVberkas.

Berikan data pelatihan sebagai CSV file dua kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas. Kolom kedua berisi contoh dokumen teks untuk kelas itu. Setiap baris harus diakhiri dengan\ n atau\ r\nkarakter.

Contoh berikut menunjukkan CSV file yang berisi tiga dokumen.

CLASS,Text of document 1 CLASS,Text of document 2 CLASS,Text of document 3

Contoh berikut menunjukkan satu baris CSV file yang melatih pengklasifikasi kustom untuk mendeteksi apakah pesan email adalah spam:

SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."

File manifes yang diperbesar

Untuk informasi umum tentang penggunaan file manifes tambahan untuk pengklasifikasi pelatihan, lihat. File manifes yang diperbesar

Untuk dokumen teks biasa, setiap baris file augmented manifest adalah JSON objek lengkap yang berisi dokumen pelatihan, nama kelas tunggal, dan metadata lainnya dari Ground Truth. Contoh berikut adalah file manifes tambahan untuk melatih pengklasifikasi kustom untuk mengenali pesan email spam:

{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}} {"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}} {"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}

Contoh berikut menunjukkan satu JSON objek dari file manifes ditambah, diformat untuk keterbacaan:

{ "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.", "MultiClassJob": 0, "MultiClassJob-metadata": { "confidence": 0.98, "job-name": "labeling-job/multiclassjob", "class-name": "spam", "human-annotated": "yes", "creation-date": "2020-05-21T17:36:45.814354", "type": "groundtruth/text-classification" } }

Dalam contoh ini, source atribut menyediakan teks dokumen pelatihan, dan MultiClassJob atribut menetapkan indeks kelas dari daftar klasifikasi. job-nameAtribut adalah nama yang Anda tentukan untuk pekerjaan pelabelan di Ground Truth.

Saat Anda memulai pekerjaan pelatihan pengklasifikasi di Amazon Comprehend, Anda menentukan nama pekerjaan pelabelan yang sama.

Model dokumen asli

Model dokumen asli adalah model yang Anda latih dengan dokumen asli (sepertiPDF,DOCX, dan gambar). Anda memberikan data pelatihan sebagai CSV file.

CSVberkas

Untuk informasi umum tentang penggunaan CSV file untuk pengklasifikasi pelatihan, lihatCSVberkas.

Berikan data pelatihan sebagai CSV file tiga kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas. Kolom kedua berisi nama file dokumen contoh untuk kelas ini. Kolom ketiga berisi nomor halaman. Nomor halaman adalah opsional jika dokumen contoh adalah gambar.

Contoh berikut menunjukkan CSV file yang mereferensikan tiga dokumen masukan.

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS,input-doc-3.png

Contoh berikut menunjukkan satu baris CSV file yang melatih pengklasifikasi kustom untuk mendeteksi apakah pesan email adalah spam. Halaman 2 PDF file berisi contoh spam.

SPAM,email-content-3.pdf,2