Analysieren von Dokumenten

Amazon Textract analysiert Dokumente und Formulare auf Beziehungen zwischen erkannten Texten. Amazon Textract Textract-Analysevorgänge geben 3 Kategorien der Dokumentextraktion zurück - Text, Formulare und Tabellen. Die Analyse von Rechnungen und Belegen wird durch einen anderen Prozess abgewickelt, weitere Informationen finden Sie unterAnalysieren von Rechnungen und Belegenaus.

Textextraktion

Der Rohtext, der aus einem Dokument extrahiert wurde. Weitere Informationen finden Sie unterTextzeilen und Wörteraus.

Extraktion von Formularen

Formulardaten sind mit Textelementen verknüpft, die aus einem Dokument extrahiert wurden. Amazon Textract stellt Formulardaten als Schlüssel-Wert-Paare dar. Im folgenden Beispiel ist eine der von Amazon Textract erkannten TextzeilenName: Jane Doeaus. Amazon Textract identifiziert auch einen Schlüssel (Name:) und ein Wert (Jane Doe) enthalten. Weitere Informationen finden Sie unterFormulardaten (Schlüssel-Wert-Paare)aus.

Name: Jane Doe

Adresse: 123 Any Street, Anytown, USA

Geburtsdatum: 12-26-1980

Schlüssel-Wert-Paare werden auch verwendet, um Kontrollkästchen oder Optionsfelder (Optionsfelder) darzustellen, die aus Formularen extrahiert werden.

Männlich:☑

Weitere Informationen finden Sie unterAuswahl-Elementeaus.

Extraktion von Tabellen

Amazon Textract kann Tabellen, Tabellenzellen und die Elemente in Tabellenzellen extrahieren und kann so programmiert sein, dass die Ergebnisse in einer JSON-, .csv- oder einer TXT-Datei zurückgegeben werden.

Name	Adresse
Ana Carolina	123 Jede Stadt

Weitere Informationen finden Sie unter Tabellen. Selektionselemente können auch aus Tabellen extrahiert werden. Weitere Informationen finden Sie unterAuswahl-Elementeaus.

Für analysierte Artikel gibt Amazon Textract Folgendes in mehrerenBlockObjekte:

Die Zeilen und Wörter des erkannten Textes
Der Inhalt der erkannten Elemente
Die Beziehung zwischen erkannten Elementen
Die Seite, auf der das Element erkannt wurde
Die Position des Elements auf der Dokumentseite

Sie können synchrone oder asynchrone Operationen verwenden, um Text in einem Dokument zu analysieren. Um Text synchron zu analysieren, verwenden Sie dieAnalyzeDocument-Operation, und übergeben Sie ein Dokument als Eingabe.AnalyzeDocumentgibt den gesamten Ergebnissatz zurück. Weitere Informationen finden Sie unter Analysieren von Dokumenttext mit Amazon Textract .

Um Text asynchron zu erkennen, verwenden SieStartDocumentAnalysisum mit der Verarbeitung zu beginnen. Rufen Sie an, um die Ergebnisse zu erhaltenGetDocumentAnalysisaus. Die Ergebnisse werden in einer oder mehreren Antworten vonGetDocumentAnalysisaus. Weitere Informationen sowie ein Beispiel finden Sie unter Erkennen oder Analysieren von Text in einem mehrseitigen Dokument.

Um anzugeben, welche Art von Analyse durchgeführt werden soll, können Sie dieFeatureTypeslistet Eingabeparameter auf. Fügen Sie der Liste TABLES hinzu, um Informationen über die im Eingabedokument erkannten Tabellen zurückzugeben, z. B. Tabellenzellen, Zelltext und Auswahlelemente in Zellen. Fügen Sie FORMS hinzu, um Wortbeziehungen wie Schlüssel-Wert-Paare und Auswahlelemente zurückzugeben. Um beide Analysetypen durchzuführen, fügen Sie sowohl TABLES als auch FORMS hinzuFeatureTypesaus.

Alle Zeilen und Wörter, die im Dokument erkannt werden, sind in der Antwort enthalten (einschließlich Text, der nicht mit dem Wert vonFeatureTypes) enthalten.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erkennen von Text

Analysieren von Rechnungen und Belegen