File anotasi PDF - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

File anotasi PDF

Untuk anotasi PDF, Anda menggunakan SageMaker Ground Truth untuk membuat kumpulan data berlabel dalam file manifes tambahan. Ground Truth adalah layanan pelabelan data yang membantu Anda (atau tenaga kerja yang Anda pekerjakan) untuk membangun kumpulan data pelatihan untuk model pembelajaran mesin. Amazon Comprehend menerima file manifes tambahan sebagai data pelatihan untuk model kustom. Anda dapat menyediakan file-file ini saat membuat pengenal entitas kustom dengan menggunakan konsol Amazon Comprehend atau tindakan API. CreateEntityRecognizer

Anda dapat menggunakan tipe tugas bawaan Ground Truth, Named Entity Recognition, untuk membuat pekerjaan pelabelan agar pekerja mengidentifikasi entitas dalam teks. Untuk mempelajari lebih lanjut, lihat Pengenalan Entitas Bernama di Panduan SageMaker Pengembang Amazon. Untuk mempelajari selengkapnya tentang Amazon SageMaker Ground Truth, lihat Menggunakan Amazon SageMaker Ground Truth untuk Label Data.

catatan

Menggunakan Ground Truth, Anda dapat menentukan label yang tumpang tindih (teks yang Anda kaitkan dengan lebih dari satu label). Namun, pengakuan entitas Amazon Comprehend tidak mendukung label yang tumpang tindih.

File manifes yang diperbesar dalam format garis JSON. Dalam file-file ini, setiap baris adalah objek JSON lengkap yang berisi dokumen pelatihan dan label terkait. Contoh berikut adalah file manifes tambahan yang melatih pengenal entitas untuk mendeteksi profesi individu yang disebutkan dalam teks:

{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}} {"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}} {"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}

Setiap baris dalam file baris JSON ini adalah objek JSON lengkap, di mana atribut termasuk teks dokumen, anotasi, dan metadata lainnya dari Ground Truth. Contoh berikut adalah objek JSON tunggal dalam file manifes yang ditambah, tetapi diformat agar mudah dibaca:

{ "source": "Diego Ramirez is an engineer in the high tech industry.", "NamedEntityRecognitionDemo": { "annotations": { "entities": [ { "endOffset": 13, "startOffset": 0, "label": "ENGINEER" } ], "labels": [ { "label": "ENGINEER" } ] } }, "NamedEntityRecognitionDemo-metadata": { "entities": [ { "confidence": 0.92 } ], "job-name": "labeling-job/namedentityrecognitiondemo", "type": "groundtruth/text-span", "creation-date": "2020-05-14T21:45:27.175903", "human-annotated": "yes" } }

Dalam contoh ini, source atribut menyediakan teks dokumen pelatihan, dan NamedEntityRecognitionDemo atribut menyediakan anotasi untuk entitas dalam teks. Nama NamedEntityRecognitionDemo atribut bersifat arbitrer, dan Anda memberikan nama pilihan Anda saat menentukan pekerjaan pelabelan di Ground Truth.

Dalam contoh ini, NamedEntityRecognitionDemo atribut adalah nama atribut label, yang merupakan atribut yang menyediakan label yang diberikan oleh pekerja Ground Truth ke data pelatihan. Saat Anda memberikan data pelatihan ke Amazon Comprehend, Anda harus menentukan satu atau beberapa nama atribut label. Jumlah nama atribut yang Anda tentukan bergantung pada apakah file manifes tambahan Anda adalah output dari pekerjaan pelabelan tunggal atau pekerjaan pelabelan berantai.

Jika file Anda adalah output dari pekerjaan pelabelan tunggal, tentukan nama atribut label tunggal yang digunakan saat pekerjaan dibuat di Ground Truth.

Jika file Anda adalah output dari pekerjaan pelabelan berantai, tentukan nama atribut label untuk satu atau beberapa pekerjaan dalam rantai. Setiap nama atribut label memberikan anotasi dari pekerjaan individu. Anda dapat menentukan hingga 5 atribut ini untuk file manifes tambahan yang dihasilkan oleh pekerjaan pelabelan berantai.

Dalam file manifes tambahan, nama atribut label biasanya mengikuti source kunci. Jika file adalah output dari pekerjaan dirantai, akan ada beberapa nama atribut label. Saat Anda memberikan data pelatihan ke Amazon Comprehend, berikan hanya atribut yang berisi anotasi yang relevan untuk model Anda. Jangan tentukan atribut yang diakhiri dengan “-metadata”.

Untuk informasi selengkapnya tentang pekerjaan pelabelan berantai, dan untuk contoh output yang mereka hasilkan, lihat Pekerjaan Pelabelan Berantai di Panduan Pengembang Amazon. SageMaker