Daftar entitas (hanya teks biasa) - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Daftar entitas (hanya teks biasa)

Untuk melatih model menggunakan daftar entitas, Anda memberikan dua bagian informasi: daftar nama entitas dengan jenis entitas kustom yang sesuai dan kumpulan dokumen yang tidak dijelaskan yang Anda harapkan entitas Anda muncul.

Saat Anda memberikan Daftar Entitas, Amazon Comprehend menggunakan algoritme cerdas untuk mendeteksi kemunculan entitas dalam dokumen untuk dijadikan dasar untuk melatih model pengenalan entitas kustom.

Untuk daftar entitas, berikan setidaknya 25 kecocokan entitas per jenis entitas dalam daftar entitas.

Daftar entitas untuk pengenalan entitas kustom memerlukan file nilai dipisahkan koma (CSV), dengan kolom berikut:

  • Teks — Teks contoh entri persis seperti yang terlihat dalam korpus dokumen yang menyertainya.

  • Tipe —Jenis entitas yang ditentukan pelanggan. Jenis entitas harus huruf besar, menggarisbawahi string terpisah seperti MANAGER atau SENIOR_MANAGER. Hingga 25 jenis entitas dapat dilatih per model.

File documents.txt berisi empat baris:

Jo Brown is an engineer in the high tech industry. John Doe has been a engineer for 14 years. Emilio Johnson is a judge on the Washington Supreme Court. Our latest new employee, Jane Smith, has been a manager in the industry for 4 years.

File CSV dengan daftar entitas memiliki baris berikut:

Text, Type Jo Brown, ENGINEER John Doe, ENGINEER Jane Smith, MANAGER
catatan

Dalam daftar entitas, entri untuk Emilio Johnson tidak ada karena tidak mengandung entitas ENGINEER atau MANAGER.

Membuat file data Anda

Penting bahwa daftar entitas Anda berada dalam file CSV yang dikonfigurasi dengan benar sehingga peluang Anda mengalami masalah dengan file daftar entitas Anda minimal. Untuk mengonfigurasi file CSV Anda secara manual, berikut ini harus benar:

  • Pengkodean UTF-8 harus ditentukan secara eksplisit, bahkan jika digunakan sebagai default dalam banyak kasus.

  • Itu harus menyertakan nama kolom: Type danText.

Kami sangat menyarankan agar file input CSV dibuat secara terprogram untuk menghindari potensi masalah.

Contoh berikut menggunakan Python untuk menghasilkan CSV untuk anotasi yang ditunjukkan di atas:

import csv with open("./entitylist/entitylist.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["Text", "Type"]) csv_writer.writerow(["Jo Brown", " ENGINEER"]) csv_writer.writerow(["John Doe", " ENGINEER"]) csv_writer.writerow(["Jane Smith", " MANAGER"])

Praktik terbaik

Ada beberapa hal yang perlu dipertimbangkan untuk mendapatkan hasil terbaik saat menggunakan daftar entitas, termasuk:

  • Urutan entitas dalam daftar Anda tidak berpengaruh pada pelatihan model.

  • Gunakan item daftar entitas yang mencakup 80% -100% contoh entitas positif yang disebutkan dalam korpus dokumen yang tidak dijelaskan.

  • Hindari contoh entitas yang cocok dengan non-entitas dalam korpus dokumen dengan menghapus kata dan frasa umum. Bahkan beberapa kecocokan yang salah dapat secara signifikan memengaruhi keakuratan model yang Anda hasilkan. Misalnya, kata seperti dalam daftar entitas akan menghasilkan jumlah kecocokan yang tinggi yang tidak mungkin menjadi entitas yang Anda cari dan dengan demikian akan secara signifikan mempengaruhi akurasi Anda.

  • Data input tidak boleh mengandung duplikat. Kehadiran sampel duplikat dapat mengakibatkan kontaminasi set uji dan oleh karena itu berdampak negatif pada proses pelatihan, metrik model, dan perilaku.

  • Berikan dokumen yang menyerupai kasus penggunaan nyata sedekat mungkin. Jangan gunakan data mainan atau data yang disintesis untuk sistem produksi. Data input harus beragam mungkin untuk menghindari overfitting dan membantu model yang mendasari menggeneralisasi dengan lebih baik pada contoh nyata.

  • Daftar entitas peka huruf besar/kecil, dan ekspresi reguler saat ini tidak didukung. Namun, model terlatih seringkali masih dapat mengenali entitas bahkan jika mereka tidak cocok persis dengan casing yang disediakan dalam daftar entitas.

  • Jika Anda memiliki entitas yang merupakan substring dari entitas lain (seperti “Smith” dan “Jane Smith”), berikan keduanya dalam daftar entitas.

Saran tambahan dapat ditemukan di Meningkatkan kinerja pengenal entitas kustom