Baris dan Kata-kata Teks - Amazon Textract

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Baris dan Kata-kata Teks

Teks yang terdeteksi yang dikembalikan oleh operasi Amazon Textract Texact dikembalikan dalam daftarBlockobjek. Benda-benda ini mewakili baris teks atau kata-kata tekstual yang terdeteksi pada halaman dokumen. Teks berikut menunjukkan dua baris teks yang dibuat dari beberapa kata.

Ini adalah teks.

Dalam dua baris terpisah.

Teks yang terdeteksi dikembalikan dalamTextbidang aBlockobjek. ParameterBlockTypebidang menentukan apakah teks adalah baris teks (LINE) atau kata (WORD). SEBUAHKATAadalah satu atau lebih karakter skrip Latin dasar ISO yang tidak dipisahkan oleh spasi. SEBUAHLINIadalah string kata-kata tab-delimited dan bersebelahan.

Selain itu, Amazon Textract akan menentukan apakah sepotong teks ditulis tangan atau dicetak menggunakanTextTypesBidang. Ini kembali sebagai TANGAN TANGAN dan DICETAKAN masing-masing.

Yang lainnyaBlockproperti umum untuk semua jenis blok, seperti ID, kepercayaan diri, dan informasi geometri. Untuk informasi selengkapnya, lihat Deteksi Teks dan Dokumen Analisis Respon Objek.

Untuk mendeteksi hanya baris dan kata-kata, Anda dapat menggunakanDetectDocumentTextatauStartDocumentTextDetection. Untuk informasi selengkapnya, lihat Mendeteksi teks. Untuk mendapatkan teks yang terdeteksi (baris dan kata-kata) dan informasi tentang bagaimana hal itu berhubungan dengan bagian lain dari dokumen, seperti tabel, Anda dapat menggunakanAnalyzeDocumentatauStartDocumentAnalysis. Untuk informasi selengkapnya, lihat Menganalisis Dokumen.

PAGE,LINE, danWORDblok terkait satu sama lain dalam hubungan orang tua-ke-anak. SEBUAHPAGEblok adalah induk untuk semuaLINEblok objek pada halaman dokumen. Karena GARIS dapat memiliki satu atau beberapa kata, makaRelationshipsarray untuk blok LINE menyimpan ID untuk blok WORD anak yang membentuk baris teks.

Diagram berikut menunjukkan bagaimana garisHalo, dunia.dalam teksHalo, dunia. Bagaimana kabarmu?diwakili olehBlockobjek.

Berikut ini adalah output JSON dariDetectDocumentTextketika kalimatHalo, dunia. Bagaimana kabarmu?terdeteksi. Contoh pertama adalah JSON untuk halaman dokumen. Perhatikan bagaimana ID ANAK memungkinkan Anda untuk menavigasi dokumen.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "d7fbd604-d609-4d69-857d-247a3f591238", // Line - Hello, world. "b6c19a93-6493-4d8e-958f-853c8f7ca055" // Line - How are you? ] } ], "BlockType": "PAGE", "Id": "56ec1d77-171f-4881-9852-2b5b7e761608" },

Berikut ini adalah JSON untuk blok LINE yang membentuk baris “Hello, World”:

{ "Relationships": [ { "Type": "CHILD", "Ids": [ "7f97e2ca-063e-47a8-981c-8beee31afc01", // Word - Hello, "4b990aa0-af96-4369-b90f-dbe02538ed21" // Word - world. ] } ], "Confidence": 99.63229370117188, "Geometry": {...}, "Text": "Hello, world.", "BlockType": "LINE", "Id": "d7fbd604-d609-4d69-857d-247a3f591238" },

Berikut ini adalah JSON untuk blok WORD untuk kataHalo,:

{ "Geometry": {...}, "Text": "Hello,", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.74746704101562, "Id": "7f97e2ca-063e-47a8-981c-8beee31afc01" },

JSON terakhir adalah blok WORD untuk katadunia.:

{ "Geometry": {...}, "Text": "world.", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.5171127319336, "Id": "4b990aa0-af96-4369-b90f-dbe02538ed21" },