Linee e parole di testo - Amazon Textract

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Linee e parole di testo

Il testo rilevato restituito dalle operazioni di Amazon Textract viene restituito in un elenco diBlockobjects. Questi oggetti rappresentano righe di testo o parole testuali rilevate in una pagina del documento. Il testo seguente mostra due righe di testo formate da più parole.

Questo è testo.

In due righe separate.

Il testo rilevato viene restituito nellaTextcampo di aBlockoggetto. LaBlockTypecampo determina se il testo è una riga di testo (LINEA) o una parola (WORD). UNPAROLAè uno o più caratteri di script latino di base ISO non separati da spazi. UNLINEAè una stringa di parole delimitate da tabulazioni e contigue.

Inoltre, Amazon Textract determinerà se un pezzo di testo è stato scritto a mano o stampato utilizzando ilTextTypes. Restituiscono rispettivamente come HANDWWRITING e PRINTED

L'altroBlockle proprietà sono comuni a tutti i tipi di blocchi, come l'ID, la confidenza e le informazioni sulla geometria. Per ulteriori informazioni, consultare Oggetti di risposta di rilevamento del testo e analisi dei documenti.

Per rilevare solo linee e parole, è possibile utilizzareDetectDocumentTextoStartDocumentTextDetection. Per ulteriori informazioni, consultare Rilevamento del testo. Per ottenere il testo rilevato (righe e parole) e informazioni su come si riferisce ad altre parti del documento, come le tabelle, è possibile utilizzareAnalyzeDocumentoStartDocumentAnalysis. Per ulteriori informazioni, consultare Analisi di documenti.

PAGE,LINE, eWORDi blocchi sono correlati tra loro in una relazione genitore-figlio. UNPAGEblock è il genitore per tuttiLINEblocca gli oggetti in una pagina del documento. Poiché una LINEA può avere una o più parole,Relationshipsl'array per un blocco LINE memorizza gli ID per i blocchi WORD figlio che costituiscono la riga di testo.

Il diagramma riportato di seguito illustra come la lineaCiao, world.nel testoCiao, world. Come stai?è rappresentato daBlockobjects.

Di seguito è riportato l'output JSON daDetectDocumentTextquando la fraseCiao, world. Come stai?viene rilevato. Il primo esempio è il JSON per la pagina del documento. Nota come gli ID FIGLIO consentono di navigare nel documento.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "d7fbd604-d609-4d69-857d-247a3f591238", // Line - Hello, world. "b6c19a93-6493-4d8e-958f-853c8f7ca055" // Line - How are you? ] } ], "BlockType": "PAGE", "Id": "56ec1d77-171f-4881-9852-2b5b7e761608" },

Di seguito è riportato il JSON per i blocchi LINE che compongono la riga «Hello, World»:

{ "Relationships": [ { "Type": "CHILD", "Ids": [ "7f97e2ca-063e-47a8-981c-8beee31afc01", // Word - Hello, "4b990aa0-af96-4369-b90f-dbe02538ed21" // Word - world. ] } ], "Confidence": 99.63229370117188, "Geometry": {...}, "Text": "Hello, world.", "BlockType": "LINE", "Id": "d7fbd604-d609-4d69-857d-247a3f591238" },

Di seguito è riportato il JSON per il blocco WORD per la parolaCiao,:

{ "Geometry": {...}, "Text": "Hello,", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.74746704101562, "Id": "7f97e2ca-063e-47a8-981c-8beee31afc01" },

Il JSON finale è il blocco WORD per la parolamondo.:

{ "Geometry": {...}, "Text": "world.", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.5171127319336, "Id": "4b990aa0-af96-4369-b90f-dbe02538ed21" },