Output untuk pekerjaan analisis asinkron - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Output untuk pekerjaan analisis asinkron

Setelah pekerjaan analisis selesai, ia menyimpan hasil di bucket S3 yang Anda tentukan dalam permintaan.

Output untuk input teks

Untuk file input teks, output terdiri dari daftar entitas untuk setiap dokumen input.

Contoh berikut menunjukkan output untuk dua dokumen dari file input bernama50_docs, menggunakan satu dokumen per format baris.

{ "File": "50_docs", "Line": 0, "Entities": [ { "BeginOffset": 0, "EndOffset": 22, "Score": 0.9763959646224976, "Text": "John Johnson", "Type": "JUDGE" } ] } { "File": "50_docs", "Line": 1, "Entities": [ { "BeginOffset": 11, "EndOffset": 15, "Score": 0.9615424871444702, "Text": "Thomas Kincaid", "Type": "JUDGE" } ] }

Output untuk input semi-terstruktur

Untuk dokumen input semi-terstruktur, output dapat mencakup bidang tambahan berikut:

  • DocumentMetadata — Informasi ekstraksi tentang dokumen. Metadata mencakup daftar halaman dalam dokumen, dengan jumlah karakter yang diekstraksi dari setiap halaman. Bidang ini hadir dalam respons jika permintaan menyertakan Byte parameter.

  • DocumentType — Jenis dokumen untuk setiap halaman dalam dokumen input. Bidang ini hadir dalam respons untuk permintaan yang menyertakan Byte parameter.

  • Blok — Informasi tentang setiap blok teks dalam dokumen input. Blok dapat bersarang di dalam blok. Blok halaman berisi blok untuk setiap baris teks, yang berisi blok untuk setiap kata. Bidang ini hadir dalam respons untuk permintaan yang menyertakan Byte parameter.

  • BlockReferences — Referensi untuk setiap blok untuk entitas ini. Bidang ini hadir dalam respons untuk permintaan yang menyertakan Byte parameter. Bidang tidak ada untuk file teks.

  • Kesalahan — Kesalahan tingkat halaman yang terdeteksi sistem saat memproses dokumen input. Bidang kosong jika sistem tidak mengalami kesalahan.

Untuk detail selengkapnya tentang bidang keluaran ini, lihat DetectEntitiesdi Referensi API Amazon Comprehend

Contoh berikut menunjukkan output untuk dokumen input PDF asli satu halaman.

contoh Contoh output dari analisis pengenalan entitas kustom dari dokumen PDF
{ "Blocks": [ { "BlockType": "LINE", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314, "Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "4330efed-6334-4fc4-ba48-e050afa95c8d", "Page": 1, "Relationships": [ { "ids": [ "f343ce48-583d-4abe-b84b-a232e266450f" ], "type": "CHILD" } ], "Text": "S-3" }, { "BlockType": "WORD", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314, "Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "f343ce48-583d-4abe-b84b-a232e266450f", "Page": 1, "Relationships": [], "Text": "S-3" } ], "DocumentMetadata": { "PageNumber": 1, "Pages": 1 }, "DocumentType": "NativePDF", "Entities": [ { "BlockReferences": [ { "BeginOffset": 25, "BlockId": "4330efed-6334-4fc4-ba48-e050afa95c8d", "ChildBlocks": [ { "BeginOffset": 1, "ChildBlockId": "cbba5534-ac69-4bc4-beef-306c659f70a6", "EndOffset": 6 } ], "EndOffset": 30 } ], "Score": 0.9998825926329088, "Text": "0.001", "Type": "OFFERING_PRICE" }, { "BlockReferences": [ { "BeginOffset": 41, "BlockId": "f343ce48-583d-4abe-b84b-a232e266450f", "ChildBlocks": [ { "BeginOffset": 0, "ChildBlockId": "292a2e26-21f0-401b-a2bf-03aa4c47f787", "EndOffset": 9 } ], "EndOffset": 50 } ], "Score": 0.9809727537330395, "Text": "6,097,560", "Type": "OFFERED_SHARES" } ], "File": "example.pdf", "Version": "2021-04-30" }