Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Analysieren von Dokumenten
Amazon Textract analysiert Dokumente und Formulare auf Beziehungen zwischen erkannten Texten. Amazon Textract Textract-Analysevorgänge geben 3 Kategorien der Dokumentextraktion zurück - Text, Formulare und Tabellen. Die Analyse von Rechnungen und Belegen wird durch einen anderen Prozess abgewickelt, weitere Informationen finden Sie unterAnalysieren von Rechnungen und Belegenaus.
Textextraktion
Der Rohtext, der aus einem Dokument extrahiert wurde. Weitere Informationen finden Sie unterTextzeilen und Wörteraus.
Extraktion von Formularen
Formulardaten sind mit Textelementen verknüpft, die aus einem Dokument extrahiert wurden. Amazon Textract stellt Formulardaten als Schlüssel-Wert-Paare dar. Im folgenden Beispiel ist eine der von Amazon Textract erkannten TextzeilenName: Jane Doeaus. Amazon Textract identifiziert auch einen Schlüssel (Name:) und ein Wert (Jane Doe) enthalten. Weitere Informationen finden Sie unterFormulardaten (Schlüssel-Wert-Paare)aus.
Name: Jane Doe
Adresse: 123 Any Street, Anytown, USA
Geburtsdatum: 12-26-1980
Schlüssel-Wert-Paare werden auch verwendet, um Kontrollkästchen oder Optionsfelder (Optionsfelder) darzustellen, die aus Formularen extrahiert werden.
Männlich:☑
Weitere Informationen finden Sie unterAuswahl-Elementeaus.
Extraktion von Tabellen
Amazon Textract kann Tabellen, Tabellenzellen und die Elemente in Tabellenzellen extrahieren und kann so programmiert sein, dass die Ergebnisse in einer JSON-, .csv- oder einer TXT-Datei zurückgegeben werden.
Name | Adresse |
---|---|
Ana Carolina |
123 Jede Stadt |
Weitere Informationen finden Sie unter Tabellen. Selektionselemente können auch aus Tabellen extrahiert werden. Weitere Informationen finden Sie unterAuswahl-Elementeaus.
Für analysierte Artikel gibt Amazon Textract Folgendes in mehrerenBlockObjekte:
-
Die Zeilen und Wörter des erkannten Textes
-
Der Inhalt der erkannten Elemente
-
Die Beziehung zwischen erkannten Elementen
-
Die Seite, auf der das Element erkannt wurde
-
Die Position des Elements auf der Dokumentseite
Sie können synchrone oder asynchrone Operationen verwenden, um Text in einem Dokument zu analysieren. Um Text synchron zu analysieren, verwenden Sie dieAnalyzeDocument-Operation, und übergeben Sie ein Dokument als Eingabe.AnalyzeDocument
gibt den gesamten Ergebnissatz zurück. Weitere Informationen finden Sie unter Analysieren von Dokumenttext mit Amazon Textract .
Um Text asynchron zu erkennen, verwenden SieStartDocumentAnalysisum mit der Verarbeitung zu beginnen. Rufen Sie an, um die Ergebnisse zu erhaltenGetDocumentAnalysisaus. Die Ergebnisse werden in einer oder mehreren Antworten vonGetDocumentAnalysis
aus. Weitere Informationen sowie ein Beispiel finden Sie unter Erkennen oder Analysieren von Text in einem mehrseitigen Dokument.
Um anzugeben, welche Art von Analyse durchgeführt werden soll, können Sie dieFeatureTypes
listet Eingabeparameter auf. Fügen Sie der Liste TABLES hinzu, um Informationen über die im Eingabedokument erkannten Tabellen zurückzugeben, z. B. Tabellenzellen, Zelltext und Auswahlelemente in Zellen. Fügen Sie FORMS hinzu, um Wortbeziehungen wie Schlüssel-Wert-Paare und Auswahlelemente zurückzugeben. Um beide Analysetypen durchzuführen, fügen Sie sowohl TABLES als auch FORMS hinzuFeatureTypes
aus.
Alle Zeilen und Wörter, die im Dokument erkannt werden, sind in der Antwort enthalten (einschließlich Text, der nicht mit dem Wert vonFeatureTypes
) enthalten.