Tabel - Amazon Textract

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tabel

Amazon Textract dapat mengekstrak tabel dan sel dalam tabel. Misalnya, ketika tabel berikut terdeteksi pada formulir, Amazon Textract mendeteksi tabel dengan empat sel.

Nama Alamat

Carolina

123 Kota mana pun

Tabel yang terdeteksi dikembalikan sebagaiBlockobjek dalam tanggapan dariAnalyzeDocumentdanGetDocumentAnalysis. Anda dapat menggunakanFeatureTypesparameter masukan untuk mengambil informasi tentang pasangan kunci-nilai, tabel, atau keduanya. Untuk tabel saja, gunakan nilainyaTABLES. Sebagai contoh, lihat Mengekspor Tabel ke File CSV. Untuk informasi umum tentang bagaimana dokumen diwakili olehBlockbenda, lihatDeteksi Teks dan Dokumen Analisis Respon Objek.

Diagram berikut menunjukkan bagaimana sel tunggal dalam tabel diwakili olehBlockobjek.

Sel mengandungWORDblok untuk kata-kata yang terdeteksi, danSELECTION_ELEMENTblok untuk elemen seleksi seperti kotak centang.

Berikut ini adalah JSON partial untuk tabel sebelumnya, yang memiliki empat sel.

Objek PAGE Block memiliki daftar ID Blok ANAK untuk blok TABLE dan setiap LINE teks yang terdeteksi.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "f2a4ad7b-f21d-4966-b548-c859b84f66a4", // Line - Name "4dce3516-ffeb-45e0-92a2-60770e9cb744", // Line - Address "ee506578-768f-4696-8f4b-e4917e429f50", // Line - Ana Carolina "33fc7223-411b-4399-8a90-ccd3c5a2c196", // Line - 123 Any Town "3f9665be-379d-4ae7-be44-d02f32b049c2" // Table ] } ], "BlockType": "PAGE", "Id": "78c3ce84-ae70-418e-add7-27058418adf6" },

Blok TABLE mencakup daftar ID anak untuk sel-sel dalam tabel. Sebuah blok TABLE juga mencakup informasi geometri untuk lokasi tabel dalam dokumen. JSON berikut menunjukkan bahwa tabel memiliki empat sel, yang tercantum dalamIdsarray.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "505e9581-0d1c-42fb-a214-6ff736822e8c", "6fca44d4-d3d3-46ab-b22f-7fca1fbaaf02", "9778bd78-f3fe-4ae1-9b78-e6d29b89e5e9", "55404b05-ae12-4159-9003-92b7c129532e" ] } ], "BlockType": "TABLE", "Confidence": 92.5705337524414, "Id": "3f9665be-379d-4ae7-be44-d02f32b049c2" },

Jenis Blok untuk sel tabel adalah CELL. ParameterBlockobjek untuk setiap sel mencakup informasi tentang lokasi sel dibandingkan dengan sel-sel lain dalam tabel. Ini juga mencakup informasi geometri untuk lokasi sel pada dokumen. Dalam contoh sebelumnya,505e9581-0d1c-42fb-a214-6ff736822e8cadalah ID anak untuk sel yang berisi kataNama. Contoh berikut adalah informasi untuk sel.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "e9108c8e-0167-4482-989e-8b6cd3c3653e" ] } ], "Confidence": 100.0, "RowSpan": 1, "RowIndex": 1, "ColumnIndex": 1, "ColumnSpan": 1, "BlockType": "CELL", "Id": "505e9581-0d1c-42fb-a214-6ff736822e8c" },

Setiap sel memiliki lokasi di meja, dengan sel pertama menjadi 1,1. Pada contoh sebelumnya, sel dengan nilaiNamaadalah di baris 1, kolom 1. Sel dengan nilai123 Kota mana punadalah di baris 2, kolom 2. Sebuah objek blok sel berisi informasi ini diRowIndexdanColumnIndexbidang. Daftar anak berisi ID untuk objek WORD Block yang berisi teks yang ada di dalam sel. Kata-kata dalam daftar berada dalam urutan di mana mereka terdeteksi, dari kiri atas sel ke kanan bawah sel. Pada contoh sebelumnya, sel memiliki ID anak dengan nilai e9108c8e-0167-4482-989e-8b6cd3c3653e. Output berikut adalah untuk Blok WORD dengan nilai ID e9108c8e-0167-4482-989e-8b6cd3c3653e:

"Geometry": {...}, "Text": "Name", "TextType": "Printed", "BlockType": "WORD", "Confidence": 99.81139373779297, "Id": "e9108c8e-0167-4482-989e-8b6cd3c3653e" },