File anotasi teks biasa - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

File anotasi teks biasa

Untuk anotasi teks biasa, Anda membuat file nilai dipisahkan koma (CSV) yang berisi daftar anotasi. File CSV harus berisi kolom berikut jika format input file pelatihan Anda adalah satu dokumen per baris.

File Garis Mulai offset Akhiri offset Tipe

Nama file yang berisi dokumen. Misalnya, jika salah satu file dokumen berada dis3://my-S3-bucket/test-files/documents.txt, nilai di File kolom akan menjadidocuments.txt. Anda harus menyertakan ekstensi file (dalam hal ini '.txt') sebagai bagian dari nama file.

Nomor baris yang berisi entitas. Hilangkan kolom ini jika format input Anda adalah satu dokumen per file.

Karakter offset dalam teks input (relatif terhadap awal baris) yang menunjukkan di mana entitas dimulai. Karakter pertama berada di posisi 0.

Karakter offset dalam teks input yang menunjukkan di mana entitas berakhir.

Jenis entitas yang ditentukan pelanggan. Tipe entitas harus berupa huruf besar, string yang dipisahkan underscore-separated. Sebaiknya gunakan tipe entitas deskriptif sepertiMANAGER,SENIOR_MANAGER, atauPRODUCT_CODE. Hingga 25 jenis entitas dapat dilatih per model.

Jika format input file pelatihan Anda adalah satu dokumen per file, Anda menghilangkan kolom nomor baris dan nilai offset Mulai dan akhir offset adalah offset entitas dari awal dokumen.

Contoh berikut adalah untuk satu dokumen per baris. File documents.txt berisi empat baris (baris 0, 1, 2, dan 3):

Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

File CSV dengan daftar anotasi adalah sebagai berikut:

File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
catatan

Dalam file anotasi, nomor baris yang berisi entitas dimulai dengan baris 0. Dalam contoh ini, file CSV tidak berisi entri untuk baris 2 karena tidak ada entitas di baris 2 dari. documents.txt

Membuat file data Anda

Penting untuk menempatkan anotasi Anda dalam file CSV yang dikonfigurasi dengan benar untuk mengurangi risiko kesalahan. Untuk mengonfigurasi file CSV Anda secara manual, berikut ini harus benar:

  • Pengkodean UTF-8 harus ditentukan secara eksplisit, bahkan jika digunakan sebagai default dalam banyak kasus.

  • Baris pertama berisi header kolom:File, Line (opsional),, Begin OffsetEnd Offset,Type.

Kami sangat menyarankan agar Anda membuat file input CSV secara terprogram untuk menghindari potensi masalah.

Contoh berikut menggunakan Python untuk menghasilkan CSV untuk anotasi yang ditunjukkan sebelumnya:

import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])