Format file pelatihan pengklasifikasi - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Format file pelatihan pengklasifikasi

Untuk model teks biasa, Anda dapat memberikan data pelatihan pengklasifikasi sebagai CSV file atau sebagai file manifes tambahan yang Anda buat menggunakan Ground Truth. SageMaker CSVFile atau file manifes tambahan menyertakan teks untuk setiap dokumen pelatihan, dan label terkaitnya.

Untuk model dokumen asli, Anda menyediakan data pelatihan Classifier sebagai CSV file. CSVFile tersebut menyertakan nama file untuk setiap dokumen pelatihan, dan label terkaitnya. Anda menyertakan dokumen pelatihan di folder input Amazon S3 untuk pekerjaan pelatihan.

CSVberkas

Anda memberikan data pelatihan berlabel sebagai UTF -8 teks yang dikodekan dalam sebuah file. CSV Jangan sertakan baris header. Menambahkan baris header di file Anda dapat menyebabkan kesalahan runtime.

Untuk setiap baris dalam CSV file, kolom pertama berisi satu atau lebih label kelas, Label kelas dapat berupa string UTF -8 yang valid. Sebaiknya gunakan nama kelas yang jelas yang tidak tumpang tindih artinya. Nama dapat mencakup spasi putih, dan dapat terdiri dari beberapa kata yang dihubungkan oleh garis bawah atau tanda hubung.

Jangan tinggalkan karakter spasi sebelum atau sesudah koma yang memisahkan nilai dalam satu baris.

Konten CSV file yang tepat tergantung pada mode pengklasifikasi dan jenis data pelatihan. Untuk detailnya, lihat bagian di Mode multi-kelas danMode multi-label.

File manifes yang diperbesar

File augmented manifest adalah kumpulan data berlabel yang Anda buat menggunakan Ground Truth SageMaker . Ground Truth adalah layanan pelabelan data yang membantu Anda—atau tenaga kerja yang Anda pekerjakan—untuk membangun kumpulan data pelatihan untuk model pembelajaran mesin.

Untuk informasi selengkapnya tentang Ground Truth dan output yang dihasilkannya, lihat Menggunakan SageMaker Ground Truth to Label Data di Amazon SageMaker Developer Guide.

File manifes yang diperbesar dalam format JSON baris. Dalam file-file ini, setiap baris adalah JSON objek lengkap yang berisi dokumen pelatihan dan label terkait. Konten yang tepat dari setiap baris tergantung pada mode pengklasifikasi. Untuk detailnya, lihat bagian di Mode multi-kelas danMode multi-label.

Saat Anda memberikan data pelatihan ke Amazon Comprehend, Anda menentukan satu atau beberapa nama atribut label. Berapa banyak nama atribut yang Anda tentukan bergantung pada apakah file manifes tambahan Anda adalah output dari pekerjaan pelabelan tunggal atau pekerjaan pelabelan berantai.

Jika file Anda adalah output dari pekerjaan pelabelan tunggal, tentukan nama atribut label tunggal dari pekerjaan Ground Truth.

Jika file Anda adalah output dari pekerjaan pelabelan berantai, tentukan nama atribut label untuk satu atau beberapa pekerjaan dalam rantai. Setiap nama atribut label memberikan anotasi dari pekerjaan individu. Anda dapat menentukan hingga 5 atribut ini untuk file manifes tambahan dari pekerjaan pelabelan berantai.

Untuk informasi selengkapnya tentang pekerjaan pelabelan berantai, dan untuk contoh output yang mereka hasilkan, lihat Pekerjaan Pelabelan Berantai di Panduan Pengembang Amazon. SageMaker