Jumlah minimum anotasi Praktik terbaik anotasi

Anotasi

Anotasi memberi label entitas dalam konteks dengan mengaitkan jenis entitas kustom Anda dengan lokasi di mana mereka muncul dalam dokumen pelatihan Anda.

Dengan mengirimkan anotasi bersama dengan dokumen Anda, Anda dapat meningkatkan akurasi model. Dengan Anotasi, Anda tidak hanya menyediakan lokasi entitas yang Anda cari, tetapi Anda juga menyediakan konteks yang lebih akurat untuk entitas kustom yang Anda cari.

Misalnya, jika Anda mencari nama John Johnson, dengan tipe entitas JUDGE, memberikan anotasi Anda dapat membantu model untuk mengetahui bahwa orang yang ingin Anda temukan adalah hakim. Jika dapat menggunakan konteksnya, maka Amazon Comprehend tidak akan menemukan orang bernama John Johnson yang merupakan pengacara atau saksi. Tanpa memberikan anotasi, Amazon Comprehend akan membuat versi anotasi sendiri, tetapi tidak akan seefektif hanya menyertakan juri. Memberikan anotasi Anda sendiri dapat membantu mencapai hasil yang lebih baik dan menghasilkan model yang mampu memanfaatkan konteks dengan lebih baik saat mengekstrak entitas khusus.

Topik

Jumlah minimum anotasi

Jumlah minimum dokumen input dan anotasi yang diperlukan untuk melatih model tergantung pada jenis anotasi.

Anotasi PDF

Untuk membuat model untuk menganalisis file gambar,, atau dokumen Word PDFs, latih pengenal Anda menggunakan anotasi PDF. Untuk anotasi PDF, berikan setidaknya 250 dokumen masukan dan setidaknya 100 anotasi per entitas.

Jika Anda menyediakan kumpulan data pengujian, data pengujian harus menyertakan setidaknya satu anotasi untuk setiap jenis entitas yang ditentukan dalam permintaan pembuatan.

Anotasi teks biasa

Untuk membuat model untuk menganalisis dokumen teks, Anda dapat melatih pengenal Anda menggunakan anotasi teks biasa.

Untuk anotasi teks biasa, sediakan setidaknya tiga dokumen masukan beranotasi dan setidaknya 25 anotasi per entitas. Jika Anda memberikan kurang dari 50 anotasi total, Amazon Comprehend mencadangkan lebih dari 10% dokumen masukan untuk menguji model (kecuali jika Anda memberikan kumpulan data pengujian dalam permintaan pelatihan). Jangan lupa bahwa ukuran korpus dokumen minimum adalah 5 KB.

Jika masukan Anda hanya berisi beberapa dokumen pelatihan, Anda mungkin mengalami kesalahan bahwa data input pelatihan berisi terlalu sedikit dokumen yang menyebutkan salah satu entitas. Kirim pekerjaan lagi dengan dokumen tambahan yang menyebutkan entitas.

Jika Anda menyediakan kumpulan data pengujian, data pengujian harus menyertakan setidaknya satu anotasi untuk setiap jenis entitas yang ditentukan dalam permintaan pembuatan.

Untuk contoh cara membandingkan model dengan kumpulan data kecil, lihat Amazon Comprehend mengumumkan batas anotasi yang lebih rendah untuk pengenalan entitas kustom di situs blog. AWS

Praktik terbaik anotasi

Ada beberapa hal yang perlu dipertimbangkan untuk mendapatkan hasil terbaik saat menggunakan anotasi, termasuk:

Anotasi data Anda dengan hati-hati dan verifikasi bahwa Anda membuat anotasi setiap penyebutan entitas. Anotasi yang tidak tepat dapat menyebabkan hasil yang buruk.
Data input tidak boleh berisi duplikat, seperti duplikat PDF yang akan Anda anotasi. Kehadiran sampel duplikat dapat mengakibatkan kontaminasi set uji dan dapat berdampak negatif pada proses pelatihan, metrik model, dan perilaku model.
Pastikan bahwa semua dokumen Anda dianotasi, dan bahwa dokumen tanpa anotasi disebabkan oleh kurangnya entitas yang sah, bukan karena kelalaian. Misalnya, jika Anda memiliki dokumen yang mengatakan “J Doe telah menjadi insinyur selama 14 tahun”, Anda juga harus memberikan anotasi untuk “J Doe” serta “John Doe”. Gagal melakukannya membingungkan model dan dapat mengakibatkan model tidak mengenali “J Doe” sebagai ENGINEER. Ini harus konsisten dalam dokumen yang sama dan di seluruh dokumen.
Secara umum, lebih banyak anotasi menghasilkan hasil yang lebih baik.
Anda dapat melatih model dengan jumlah minimum dokumen dan anotasi, tetapi menambahkan data biasanya meningkatkan model. Kami merekomendasikan untuk meningkatkan volume data beranotasi sebesar 10% untuk meningkatkan akurasi model. Anda dapat menjalankan inferensi pada kumpulan data pengujian yang tetap tidak berubah dan dapat diuji oleh versi model yang berbeda. Anda kemudian dapat membandingkan metrik untuk versi model yang berurutan.
Berikan dokumen yang menyerupai kasus penggunaan nyata sedekat mungkin. Data yang disintesis dengan pola berulang harus dihindari. Data input harus beragam mungkin untuk menghindari overfitting dan membantu model yang mendasarinya menggeneralisasi dengan lebih baik pada contoh nyata.
Penting bahwa dokumen harus beragam dalam hal jumlah kata. Misalnya, jika semua dokumen dalam data pelatihan pendek, model yang dihasilkan mungkin mengalami kesulitan memprediksi entitas dalam dokumen yang lebih panjang.
Coba dan berikan distribusi data yang sama untuk pelatihan seperti yang Anda harapkan saat Anda benar-benar mendeteksi entitas kustom Anda (waktu inferensi). Misalnya, pada waktu inferensi, jika Anda berharap untuk mengirimkan dokumen yang tidak memiliki entitas di dalamnya, ini juga harus menjadi bagian dari kumpulan dokumen pelatihan Anda.

Untuk saran tambahan, lihat Meningkatkan performa pengenal entitas kustom.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Daftar entitas

Anotasi teks biasa