Latih pengklasifikasi khusus (konsol) - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Latih pengklasifikasi khusus (konsol)

Anda dapat membuat dan melatih pengklasifikasi kustom menggunakan konsol, lalu menggunakan pengklasifikasi khusus untuk menganalisis dokumen Anda.

Untuk melatih pengklasifikasi khusus, Anda memerlukan satu set dokumen pelatihan. Anda memberi label pada dokumen-dokumen ini dengan kategori yang ingin dikenali oleh pengklasifikasi dokumen. Untuk informasi tentang menyiapkan dokumen pelatihan Anda, lihatMempersiapkan data pelatihan pengklasifikasi.

Untuk membuat dan melatih model pengklasifikasi dokumen
  1. Masuk ke AWS Management Console dan buka konsol Amazon Comprehend di https://console.aws.amazon.com/comprehend/

  2. Dari menu sebelah kiri, pilih Kustomisasi dan kemudian pilih Klasifikasi Kustom.

  3. Pilih Buat model baru.

  4. Di bawah Pengaturan model, masukkan nama model untuk pengklasifikasi. Nama harus unik dalam akun Anda dan Wilayah saat ini.

    (Opsional) Masukkan nama versi. Nama harus unik dalam akun Anda dan Wilayah saat ini.

  5. Pilih bahasa dokumen pelatihan. Untuk melihat bahasa yang didukung pengklasifikasi, lihatModel klasifikasi pelatihan.

  6. (Opsional) Jika Anda ingin mengenkripsi data dalam volume penyimpanan saat Amazon Comprehend memproses tugas pelatihan Anda, pilih Enkripsi Classifier. Kemudian pilih apakah akan menggunakan kunci KMS yang terkait dengan akun Anda saat ini, atau satu dari akun lain.

    • Jika Anda menggunakan kunci yang terkait dengan akun saat ini, pilih ID kunci untuk ID kunci KMS.

    • Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, masukkan ARN untuk ID kunci di bawah ARN kunci KMS.

    catatan

    Untuk informasi selengkapnya tentang membuat dan menggunakan kunci KMS dan enkripsi terkait, lihat AWS Key Management Service (AWS KMS).

  7. Di bawah Spesifikasi data, pilih jenis model Pelatihan yang akan digunakan.

    • Dokumen teks biasa: Pilih opsi ini untuk membuat model teks biasa. Latih model menggunakan dokumen teks biasa.

    • Dokumen asli: Pilih opsi ini untuk membuat model dokumen asli. Latih model menggunakan dokumen asli (PDF, Word, gambar).

  8. Pilih format Data data pelatihan Anda. Untuk informasi tentang format data, lihatFormat file pelatihan pengklasifikasi.

    • File CSV: Pilih opsi ini jika data pelatihan Anda menggunakan format file CSV.

    • Manifes tambahan: Pilih opsi ini jika Anda menggunakan Ground Truth untuk membuat file manifes tambahan untuk data pelatihan Anda. Format ini tersedia jika Anda memilih dokumen teks biasa sebagai jenis model pelatihan.

  9. Pilih mode Classifier yang akan digunakan.

    • Mode label tunggal: Pilih mode ini jika kategori yang Anda tetapkan ke dokumen saling eksklusif dan Anda melatih pengklasifikasi Anda untuk menetapkan satu label ke setiap dokumen. Di Amazon Comprehend API, mode single-label dikenal sebagai mode multi-class.

    • Mode multi-label: Pilih mode ini jika beberapa kategori dapat diterapkan ke dokumen secara bersamaan, dan Anda melatih pengklasifikasi Anda untuk menetapkan satu atau beberapa label ke setiap dokumen.

  10. Jika Anda memilih mode Multi-label, Anda dapat memilih Delimiter untuk label. Gunakan karakter pembatas ini untuk memisahkan label ketika ada beberapa kelas untuk dokumen pelatihan. Pembatas default adalah karakter pipa.

  11. (Opsional) Jika Anda memilih manifes Augmented sebagai format data, Anda dapat memasukkan hingga lima file manifes tambahan. Setiap file manifes yang ditambah berisi kumpulan data pelatihan atau kumpulan data pengujian. Anda harus menyediakan setidaknya satu kumpulan data pelatihan. Dataset uji bersifat opsional. Gunakan langkah-langkah berikut untuk mengonfigurasi file manifes yang diperbesar:

    1. Di bawah Dataset pelatihan dan pengujian, perluas panel lokasi Input.

    2. Dalam tipe Dataset, pilih Data pelatihan atau Data uji.

    3. Untuk lokasi S3 file manifes augmented SageMaker Ground Truth, masukkan lokasi bucket Amazon S3 yang berisi file manifes atau navigasikan ke sana dengan memilih Browse S3. Peran IAM yang Anda gunakan untuk izin akses untuk pekerjaan pelatihan harus memiliki izin baca untuk bucket S3.

    4. Untuk nama Atribut, masukkan nama atribut yang berisi anotasi Anda. Jika file berisi anotasi dari beberapa pekerjaan pelabelan berantai, tambahkan atribut untuk setiap pekerjaan.

    5. Untuk menambahkan lokasi input lain, pilih Tambahkan lokasi input dan kemudian konfigurasikan lokasi berikutnya.

  12. (Opsional) Jika Anda memilih file CSV sebagai format data, gunakan langkah-langkah berikut untuk mengonfigurasi kumpulan data pelatihan dan kumpulan data pengujian opsional:

    1. Di bawah Kumpulan data Pelatihan, masukkan lokasi bucket Amazon S3 yang berisi file CSV data latihan Anda atau navigasikan ke sana dengan memilih Browse S3. Peran IAM yang Anda gunakan untuk izin akses untuk pekerjaan pelatihan harus memiliki izin baca untuk bucket S3.

      (Opsional) Jika Anda memilih dokumen asli sebagai jenis model pelatihan, Anda juga memberikan URL folder Amazon S3 yang berisi file contoh pelatihan.

    2. Di bawah Test dataset, pilih apakah Anda menyediakan data tambahan untuk Amazon Comprehend untuk menguji model terlatih.

      • Autosplit: Autosplit secara otomatis memilih 10% dari data pelatihan Anda untuk dicadangkan untuk digunakan sebagai data pengujian.

      • (Opsional) Pelanggan disediakan: Masukkan URL file CSV data pengujian di Amazon S3. Anda juga dapat menavigasi ke lokasinya di Amazon S3 dan memilih Pilih folder.

        (Opsional) Jika Anda memilih dokumen asli sebagai jenis model pelatihan, Anda juga memberikan URL folder Amazon S3 yang berisi file pengujian.

  13. (Opsional) Untuk mode baca Dokumen, Anda dapat mengganti tindakan ekstraksi teks default. Opsi ini tidak diperlukan untuk model teks biasa, karena berlaku untuk ekstraksi teks untuk dokumen yang dipindai. Untuk informasi selengkapnya, lihat Mengatur opsi ekstraksi teks.

  14. (Opsional untuk model teks biasa) Untuk data Output, masukkan lokasi bucket Amazon S3 untuk menyimpan data keluaran pelatihan, seperti matriks kebingungan. Untuk informasi selengkapnya, lihat Matriks kebingungan.

    (Opsional) Jika Anda memilih untuk mengenkripsi hasil output dari pekerjaan pelatihan Anda, pilih Enkripsi. Kemudian pilih apakah akan menggunakan kunci KMS yang terkait dengan akun saat ini, atau satu dari akun lain.

    • Jika Anda menggunakan kunci yang terkait dengan akun saat ini, pilih alias kunci untuk ID kunci KMS.

    • Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, masukkan ARN untuk alias kunci atau ID di bawah ID kunci KMS.

  15. Untuk peran IAM, pilih Pilih peran IAM yang ada, lalu pilih peran IAM yang ada yang memiliki izin baca untuk bucket S3 yang berisi dokumen pelatihan Anda. Peran tersebut harus memiliki kebijakan kepercayaan yang dimulai dengan comprehend.amazonaws.com agar valid.

    Jika Anda belum memiliki peran IAM dengan izin ini, pilih Buat peran IAM untuk membuatnya. Pilih izin akses untuk memberikan peran ini, lalu pilih akhiran nama untuk membedakan peran dari peran IAM di akun Anda.

    catatan

    Untuk dokumen masukan terenkripsi, peran IAM yang digunakan juga harus memiliki izin. kms:Decrypt Untuk informasi selengkapnya, lihat Izin yang diperlukan untuk menggunakan enkripsi KMS.

  16. (Opsional) Untuk meluncurkan sumber daya Anda ke Amazon Comprehend dari VPC, masukkan ID VPC di bawah VPC atau pilih ID dari daftar tarik-turun.

    1. Pilih subnet di bawah Subnet (s). Setelah Anda memilih subnet pertama, Anda dapat memilih yang tambahan.

    2. Di bawah Grup Keamanan, pilih grup keamanan yang akan digunakan jika Anda menentukannya. Setelah Anda memilih grup keamanan pertama, Anda dapat memilih yang tambahan.

    catatan

    Saat Anda menggunakan VPC dengan tugas klasifikasi Anda, yang DataAccessRole digunakan untuk operasi Buat dan Mulai harus memiliki izin ke VPC yang mengakses dokumen input dan bucket keluaran.

  17. (Opsional) Untuk menambahkan tag ke pengklasifikasi kustom, masukkan pasangan nilai kunci di bawah Tag. Pilih Tambahkan tanda. Untuk menghapus pasangan ini sebelum membuat pengklasifikasi, pilih Hapus tag. Untuk informasi selengkapnya, lihat Menandai Sumber Daya Anda.

  18. Pilih Buat.

Konsol menampilkan halaman Pengklasifikasi. Pengklasifikasi baru muncul di tabel, ditampilkan Submitted sebagai statusnya. Saat pengklasifikasi mulai memproses dokumen pelatihan, statusnya berubah menjadiTraining. Saat pengklasifikasi siap digunakan, status berubah menjadi Trained atauTrained with warnings. Jika statusnyaTRAINED_WITH_WARNINGS, tinjau folder file yang dilewati di Output pelatihan pengklasifikasi file.

Jika Amazon Comprehend mengalami kesalahan selama pembuatan atau pelatihan, statusnya berubah menjadi. In error Anda dapat memilih pekerjaan pengklasifikasi dalam tabel untuk mendapatkan informasi lebih lanjut tentang pengklasifikasi, termasuk pesan kesalahan apa pun.

Daftar pengklasifikasi kustom.