Latih pengenal khusus (konsol) - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Latih pengenal khusus (konsol)

Anda dapat membuat pengenal entitas kustom menggunakan konsol Amazon Comprehend. Bagian ini menunjukkan cara membuat dan melatih pengenal entitas kustom.

Topik

    Untuk membuat pengenal entitas kustom, pertama-tama berikan kumpulan data untuk melatih model Anda. Dengan kumpulan data ini, sertakan salah satu dari berikut ini: sekumpulan dokumen beranotasi atau daftar entitas dan label jenisnya, bersama dengan sekumpulan dokumen yang berisi entitas tersebut. Untuk informasi selengkapnya, lihat Pengakuan entitas khusus

    Untuk melatih pengenal entitas kustom dengan file CSV
    1. Masuk ke AWS Management Console dan buka konsol Amazon Comprehend di https://console.aws.amazon.com/comprehend/

    2. Dari menu sebelah kiri, pilih Kustomisasi dan kemudian pilih Pengenalan entitas khusus.

    3. Pilih Buat model baru.

    4. Beri nama pengenal. Nama harus unik di dalam Wilayah dan akun.

    5. Pilih bahasa.

    6. Di bawah Jenis entitas kustom, masukkan label kustom yang ingin Anda temukan oleh pengenal di kumpulan data.

      Jenis entitas harus huruf besar, dan jika terdiri dari lebih dari satu kata, pisahkan kata-kata dengan garis bawah.

    7. Pilih Tambah jenis.

    8. Jika Anda ingin menambahkan jenis entitas tambahan, masukkan, lalu pilih Tambah jenis. Jika Anda ingin menghapus salah satu jenis entitas yang telah ditambahkan, pilih Hapus jenis, lalu pilih jenis entitas yang akan dihapus dari daftar. Maksimal 25 jenis entitas dapat dicantumkan.

    9. Untuk mengenkripsi pekerjaan pelatihan Anda, pilih enkripsi Recognizer dan kemudian pilih apakah akan menggunakan kunci KMS yang terkait dengan akun saat ini, atau satu dari akun lain.

      • Jika Anda menggunakan kunci yang terkait dengan akun saat ini, untuk ID kunci KMS pilih ID kunci.

      • Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, untuk kunci KMS ARN masukkan ARN untuk ID kunci.

      catatan

      Untuk informasi selengkapnya tentang membuat dan menggunakan kunci KMS dan enkripsi terkait, lihat AWS Key Management Service.

    10. Di bawah Spesifikasi data, pilih format dokumen pelatihan Anda:

      • File CSV — File CSV yang melengkapi dokumen pelatihan Anda. File CSV berisi informasi tentang entitas khusus yang akan dideteksi oleh model terlatih Anda. Format file yang diperlukan tergantung pada apakah Anda memberikan anotasi atau daftar entitas.

      • Augmented manifest — Dataset berlabel yang diproduksi oleh Amazon Ground Truth SageMaker . File ini dalam format baris JSON. Setiap baris adalah objek JSON lengkap yang berisi dokumen pelatihan dan labelnya. Setiap label menganotasi entitas bernama dalam dokumen pelatihan. Anda dapat menyediakan hingga 5 file manifes tambahan.

      Untuk informasi selengkapnya tentang format yang tersedia, dan untuk contoh, lihatMelatih model pengenal entitas khusus.

    11. Di bawah Jenis pelatihan, pilih jenis pelatihan yang akan digunakan:

      • Menggunakan anotasi dan dokumen pelatihan

      • Menggunakan daftar entitas dan dokumen pelatihan

      Jika memilih anotasi, masukkan URL file anotasi di Amazon S3. Anda juga dapat menavigasi ke bucket atau folder di Amazon S3 tempat file anotasi berada dan memilih Browse S3.

      Jika memilih daftar entitas, masukkan URL daftar entitas di Amazon S3. Anda juga dapat menavigasi ke bucket atau folder di Amazon S3 tempat daftar entitas berada dan memilih Browse S3.

    12. Masukkan URL kumpulan data input yang berisi dokumen pelatihan di Amazon S3. Anda juga dapat menavigasi ke bucket atau folder di Amazon S3 tempat dokumen pelatihan berada dan memilih Pilih folder.

    13. Di bawah Set data Uji pilih cara Anda ingin mengevaluasi kinerja model terlatih Anda - Anda dapat melakukannya untuk anotasi dan jenis pelatihan daftar entitas.

      • Autosplit: Autosplit secara otomatis memilih 10% dari data pelatihan yang Anda berikan untuk digunakan sebagai data pengujian

      • (Opsional) Pelanggan disediakan: Ketika Anda memilih pelanggan yang disediakan, Anda dapat menentukan dengan tepat data pengujian apa yang ingin Anda gunakan.

    14. Jika Anda memilih kumpulan data pengujian yang disediakan Pelanggan, masukkan URL file anotasi di Amazon S3. Anda juga dapat menavigasi ke bucket atau folder di Amazon S3 tempat file anotasi berada dan memilih Pilih folder.

    15. Di bagian Pilih peran IAM, pilih peran IAM yang ada atau buat yang baru.

      • Pilih peran IAM yang ada — Pilih opsi ini jika Anda sudah memiliki peran IAM dengan izin untuk mengakses bucket Amazon S3 input dan output.

      • Buat peran IAM baru — Pilih opsi ini saat Anda ingin membuat peran IAM baru dengan izin yang tepat untuk Amazon Comprehend untuk mengakses bucket input dan output.

        catatan

        Jika dokumen masukan dienkripsi, peran IAM yang digunakan harus memiliki izin. kms:Decrypt Untuk informasi selengkapnya, lihat Izin yang diperlukan untuk menggunakan enkripsi KMS.

    16. (Opsional) Untuk meluncurkan sumber daya Anda ke Amazon Comprehend dari VPC, masukkan ID VPC di bawah VPC atau pilih ID dari daftar drop-down.

      1. Pilih subnet di bawah Subnet (s). Setelah Anda memilih subnet pertama, Anda dapat memilih yang tambahan.

      2. Di bawah Grup Keamanan, pilih grup keamanan yang akan digunakan jika Anda menentukannya. Setelah Anda memilih grup keamanan pertama, Anda dapat memilih yang tambahan.

      catatan

      Saat Anda menggunakan VPC dengan pekerjaan pengenalan entitas kustom Anda, yang DataAccessRole digunakan untuk operasi Buat dan Mulai harus memiliki izin ke VPC tempat dokumen input dan bucket keluaran diakses.

    17. (Opsional) Untuk menambahkan tag ke pengenal entitas kustom, masukkan pasangan nilai kunci di bawah Tag. Pilih Tambahkan tanda. Untuk menghapus pasangan ini sebelum membuat pengenal, pilih Hapus tag.

    18. Pilih Kereta.

    Pengenal baru kemudian akan muncul dalam daftar, menunjukkan statusnya. Pertama kali akan ditampilkan sebagaiSubmitted. Kemudian akan ditampilkan Training untuk pengklasifikasi yang memproses dokumen pelatihan, Trained untuk pengklasifikasi yang siap digunakan, dan In error untuk pengklasifikasi yang memiliki kesalahan. Anda dapat mengklik pekerjaan untuk mendapatkan informasi lebih lanjut tentang pengenal, termasuk pesan kesalahan apa pun.

    Untuk melatih pengenal entitas kustom dengan dokumen plaintext, PDF, atau word
    1. Masuk ke AWS Management Console dan buka konsol Amazon Comprehend.

    2. Dari menu sebelah kiri, pilih Kustomisasi dan kemudian pilih Pengenalan entitas khusus.

    3. Pilih Train Recognizer.

    4. Beri nama pengenal. Nama harus unik di dalam Wilayah dan akun.

    5. Pilih bahasa. Catatan: Jika Anda melatih dokumen PDF atau Word, bahasa Inggris adalah bahasa yang didukung.

    6. Di bawah Jenis entitas kustom, masukkan label kustom yang ingin Anda temukan oleh pengenal di kumpulan data.

      Jenis entitas harus huruf besar, dan jika terdiri dari lebih dari satu kata, pisahkan kata-kata dengan garis bawah.

    7. Pilih Tambah jenis.

    8. Jika Anda ingin menambahkan jenis entitas tambahan, masukkan, lalu pilih Tambah jenis. Jika Anda ingin menghapus salah satu jenis entitas yang telah ditambahkan, pilih Hapus jenis, lalu pilih jenis entitas yang akan dihapus dari daftar. Maksimal 25 jenis entitas dapat dicantumkan.

    9. Untuk mengenkripsi pekerjaan pelatihan Anda, pilih enkripsi Recognizer dan kemudian pilih apakah akan menggunakan kunci KMS yang terkait dengan akun saat ini, atau satu dari akun lain.

      • Jika Anda menggunakan kunci yang terkait dengan akun saat ini, untuk ID kunci KMS pilih ID kunci.

      • Jika Anda menggunakan kunci yang terkait dengan akun yang berbeda, untuk kunci KMS ARN masukkan ARN untuk ID kunci.

      catatan

      Untuk informasi selengkapnya tentang membuat dan menggunakan kunci KMS dan enkripsi terkait, lihat AWS Key Management Service.

    10. Di bawah Data pelatihan, pilih Manifes tambahan sebagai format data Anda:

      • Augmented manifes — adalah kumpulan data berlabel yang diproduksi oleh Amazon Ground Truth SageMaker . File ini dalam format baris JSON. Setiap baris dalam file adalah objek JSON lengkap yang berisi dokumen pelatihan dan labelnya. Setiap label menganotasi entitas bernama dalam dokumen pelatihan. Anda dapat menyediakan hingga 5 file manifes tambahan. Jika Anda menggunakan dokumen PDF untuk data pelatihan, Anda harus memilih manifes Augmented. Anda dapat menyediakan hingga 5 file manifes tambahan. Untuk setiap file, Anda dapat memberi nama hingga 5 atribut untuk digunakan sebagai data pelatihan.

      Untuk informasi selengkapnya tentang format yang tersedia, dan untuk contoh, lihatMelatih model pengenal entitas khusus.

    11. Pilih jenis model pelatihan.

      Jika Anda memilih dokumen Plaintext, di bawah Lokasi input, masukkan URL Amazon S3dari file manifes augmented Amazon SageMakerGround Truth. Anda juga dapat menavigasi ke bucket atau folder di Amazon S3 tempat manifes tambahan berada dan memilih Pilih folder.

    12. Di bawah Nama atribut, masukkan nama atribut yang berisi anotasi Anda. Jika file berisi anotasi dari beberapa pekerjaan pelabelan berantai, tambahkan atribut untuk setiap pekerjaan. Dalam hal ini, setiap atribut berisi kumpulan anotasi dari pekerjaan pelabelan. Catatan: Anda dapat memberikan hingga 5 nama atribut untuk setiap file.

    13. Pilih Tambahkan.

    14. Jika Anda memilih PDF, dokumen Word di bawah Lokasi input, masukkan Amazon S3URL dari file manifes augmented Amazon SageMaker Ground Truth. Anda juga dapat menavigasi ke bucket atau folder di Amazon S3 tempat manifes tambahan berada dan memilih Pilih folder.

    15. Masukkan awalan S3 untuk file data Anotasi Anda. Ini adalah dokumen PDF yang Anda beri label.

    16. Masukkan awalan S3 untuk dokumen Sumber Anda. Ini adalah dokumen PDF asli (objek data) yang Anda berikan ke Ground Truth untuk pekerjaan pelabelan Anda.

    17. Masukkan nama atribut yang berisi anotasi Anda. Catatan: Anda dapat memberikan hingga 5 nama atribut untuk setiap file. Atribut apa pun dalam file Anda yang tidak Anda tentukan akan diabaikan.

    18. Di bagian peran IAM, pilih peran IAM yang ada atau buat yang baru.

      • Pilih peran IAM yang ada — Pilih opsi ini jika Anda sudah memiliki peran IAM dengan izin untuk mengakses bucket Amazon S3 input dan output.

      • Buat peran IAM baru — Pilih opsi ini saat Anda ingin membuat peran IAM baru dengan izin yang tepat untuk Amazon Comprehend untuk mengakses bucket input dan output.

        catatan

        Jika dokumen masukan dienkripsi, peran IAM yang digunakan harus memiliki izin. kms:Decrypt Untuk informasi selengkapnya, lihat Izin yang diperlukan untuk menggunakan enkripsi KMS.

    19. (Opsional) Untuk meluncurkan sumber daya Anda ke Amazon Comprehend dari VPC, masukkan ID VPC di bawah VPC atau pilih ID dari daftar drop-down.

      1. Pilih subnet di bawah Subnet (s). Setelah Anda memilih subnet pertama, Anda dapat memilih yang tambahan.

      2. Di bawah Grup Keamanan, pilih grup keamanan yang akan digunakan jika Anda menentukannya. Setelah Anda memilih grup keamanan pertama, Anda dapat memilih yang tambahan.

      catatan

      Saat Anda menggunakan VPC dengan pekerjaan pengenalan entitas kustom Anda, yang DataAccessRole digunakan untuk operasi Buat dan Mulai harus memiliki izin ke VPC tempat dokumen input dan bucket keluaran diakses.

    20. (Opsional) Untuk menambahkan tag ke pengenal entitas kustom, masukkan pasangan nilai kunci di bawah Tag. Pilih Tambahkan tanda. Untuk menghapus pasangan ini sebelum membuat pengenal, pilih Hapus tag.

    21. Pilih Kereta.

    Pengenal baru kemudian akan muncul dalam daftar, menunjukkan statusnya. Pertama kali akan ditampilkan sebagaiSubmitted. Kemudian akan ditampilkan Training untuk pengklasifikasi yang memproses dokumen pelatihan, Trained untuk pengklasifikasi yang siap digunakan, dan In error untuk pengklasifikasi yang memiliki kesalahan. Anda dapat mengklik pekerjaan untuk mendapatkan informasi lebih lanjut tentang pengenal, termasuk pesan kesalahan apa pun.