Pengakuan entitas khusus - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pengakuan entitas khusus

Pengenalan entitas khusus memperluas kemampuan Amazon Comprehend dengan membantu Anda mengidentifikasi jenis entitas baru spesifik yang tidak ada dalam tipe entitas generik yang telah ditetapkan sebelumnya. Ini berarti Anda dapat menganalisis dokumen dan mengekstrak entitas seperti kode produk atau entitas khusus bisnis yang sesuai dengan kebutuhan khusus Anda.

Membangun pengenal entitas kustom yang akurat sendiri dapat menjadi proses yang kompleks, membutuhkan persiapan set besar dokumen pelatihan beranotasi manual dan pemilihan algoritme dan parameter yang tepat untuk pelatihan model. Amazon Comprehend membantu mengurangi kompleksitas dengan menyediakan anotasi otomatis dan pengembangan model untuk membuat model pengenalan entitas kustom.

Membuat model pengenalan entitas kustom adalah pendekatan yang lebih efektif daripada menggunakan pencocokan string atau ekspresi reguler untuk mengekstrak entitas dari dokumen. Misalnya, untuk mengekstrak nama ENGINEER dalam dokumen, sulit untuk menghitung semua nama yang mungkin. Selain itu, tanpa konteks, sulit untuk membedakan antara nama ENGINEER dan nama ANALIS. Model pengenalan entitas kustom dapat mempelajari konteks di mana nama-nama tersebut kemungkinan akan muncul. Selain itu, pencocokan string tidak akan mendeteksi entitas yang memiliki kesalahan ketik atau mengikuti konvensi penamaan baru, sementara ini dimungkinkan menggunakan model khusus.

Anda memiliki dua opsi untuk membuat model khusus:

  1. Anotasi — menyediakan kumpulan data yang berisi entitas beranotasi untuk pelatihan model.

  2. Daftar entitas (hanya teks biasa) — menyediakan daftar entitas dan label jenisnya (seperti PRODUCT_CODES dan sekumpulan dokumen yang tidak dijelaskan yang berisi entitas tersebut untuk pelatihan model.

Saat Anda membuat pengenal entitas khusus menggunakan file PDF beranotasi, Anda dapat menggunakan pengenal itu dengan berbagai format file input: plaintext, file gambar (JPG, PNG, TIFF), file PDF, dan dokumen Word, tanpa perlu pra-pemrosesan atau perataan dokumen. Amazon Comprehend tidak mendukung anotasi file gambar atau dokumen Word.

catatan

Pengenal entitas khusus yang menggunakan file PDF beranotasi hanya mendukung dokumen bahasa Inggris.

Anda dapat melatih model hingga 25 entitas khusus sekaligus. Untuk detail selengkapnya, lihat halaman Pedoman dan kuota.

Setelah model Anda dilatih, Anda dapat menggunakan model untuk deteksi entitas real-time dan dalam pekerjaan deteksi entitas.