AnalyzeDocument - Amazon Textract

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AnalyzeDocument

Analysiert ein Eingabedokument auf Beziehungen zwischen erkannten Elementen.

Die Arten der zurückgegebenen Informationen lauten wie folgt:

  • Formulardaten (Schlüssel-Wert-Paare). Die zugehörigen Informationen werden in zweiBlockObjekte, jeweils vom TypKEY_VALUE_SET: Ein SCHLÜSSELBlockObjekt und ein VALUEBlock-Objekt. Beispiel,Name: Ana Silva Carolinaenthält einen Schlüssel und einen Wert. Name:ist der Schlüssel. Ana Silva Carolinaist der Wert.

  • Tabellen- und Tabellenzellendaten. EIN TISCHBlock-Objekt enthält Informationen über eine erkannte Tabelle. EINE ZELLEBlock-Objekt wird für jede Zelle in einer Tabelle zurückgegeben.

  • Textzeilen und Wörter. EINE ZEILEBlockObjekt enthält ein oder mehrereBlockObjekte. Alle Zeilen und Wörter, die im Dokument erkannt werden, werden zurückgegeben (einschließlich Text, der keine Beziehung zum Wert vonFeatureTypes) enthalten.

Auswahlelemente wie Kontrollkästchen und Optionsfelder (Optionsfelder) können in Formulardaten und in Tabellen erkannt werden. EIN SELECTION_ELEMENTBlock-Objekt enthält Informationen über ein Selektionselement, einschließlich des Auswahlstatus.

Sie können auswählen, welche Art von Analyse durchgeführt werden soll, indem Sie dieFeatureTypes-Liste.

Die Ausgabe wird in einer Liste vonBlockObjekte.

AnalyzeDocumentist ein synchroner Vorgang. Um Dokumente asynchron zu analysieren, verwenden SieStartDocumentAnalysisaus.

Weitere Informationen finden Sie unterTextanalyse von Dokumentenaus.

Anforderungssyntax

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "HumanLoopConfig": { "DataAttributes": { "ContentClassifiers": [ "string" ] }, "FlowDefinitionArn": "string", "HumanLoopName": "string" } }

Anfrageparameter

Die Anforderung akzeptiert die folgenden Daten im JSON-Format.

Document

Das Eingabedokument als Base64-codierte Bytes oder ein Amazon S3 S3-Objekt. Wenn Sie die AWS CLI verwenden, um Amazon Textract Textract-Vorgänge aufzurufen, können Sie keine Bildbytes übergeben. Das Dokument muss ein Bild im JPEG-, PNG-, PDF- oder TIFF-Format sein.

Wenn Sie ein AWS SDK zum Aufrufen von Amazon Textract verwenden, müssen Sie möglicherweise keine Base64-Codierungsbytes codieren, die mit derBytesfield.

Typ: Document Objekt

Erforderlich Ja

FeatureTypes

Eine Liste der durchzuführenden Analysetypen. Fügen Sie TABLES zur Liste hinzu, um Informationen zu den Tabellen zurückzugeben, die im Eingabedokument erkannt werden. Fügen Sie FORMS hinzu, um erkannte Formulardaten zurückzugeben Um beide Analysetypen durchzuführen, fügen Sie TABLES und FORMS hinzuFeatureTypesaus. Alle im Dokument erkannten Zeilen und Wörter sind in der Antwort enthalten (einschließlich Text, der nicht mit dem Wert vonFeatureTypes) enthalten.

Type: Zeichenfolgen-Array

Zulässige Werte: TABLES | FORMS

Erforderlich Ja

HumanLoopConfig

Legt die Konfiguration für den Menschen im Loop-Workflow zur Analyse von Dokumenten fest.

Typ: HumanLoopConfig Objekt

Erforderlich Nein

Antwortsyntax

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "HumanLoopActivationOutput": { "HumanLoopActivationConditionsEvaluationResults": "string", "HumanLoopActivationReasons": [ "string" ], "HumanLoopArn": "string" } }

Antwortelemente

Wenn die Aktion erfolgreich ist, sendet der Service eine HTTP 200-Antwort zurück.

Die folgenden Daten werden vom Service im JSON-Format zurückgegeben.

AnalyzeDocumentModelVersion

Die Version des für die Analyse des Dokuments verwendeten Modells.

Type: String (Zeichenfolge)

Blocks

Die Elemente, die erkannt und analysiert werden vonAnalyzeDocumentaus.

Type: Array vonBlockObjekte

DocumentMetadata

Metadaten über das analysierte Dokument. Ein Beispiel ist die Anzahl der Seiten.

Typ: DocumentMetadata Objekt

HumanLoopActivationOutput

Zeigt die Ergebnisse des Menschen in der Schleifenauswertung an.

Typ: HumanLoopActivationOutput Objekt

Fehler

AccessDeniedException

Sie sind nicht berechtigt, die Aktion auszuführen. Verwenden Sie den Amazon-Ressourcennamen (ARN) der IAM-Rolle oder eines autorisierten Benutzers, um den Vorgang auszuführen.

HTTP-Statuscode: 400

BadDocumentException

Amazon Textract kann das Dokument nicht lesen. Weitere Informationen zu den Beleglimits in Amazon Textract finden Sie unterHard Limits in Amazon Textractaus.

HTTP-Statuscode: 400

DocumentTooLargeException

Das Dokument kann nicht verarbeitet werden, da es zu groß ist. Die maximale Dokumentgröße für synchrone Operationen 10 MB. Die maximale Dokumentgröße für asynchrone Vorgänge beträgt 500 MB für PDF-Dateien.

HTTP-Statuscode: 400

HumanLoopQuotaExceededException

Zeigt an, dass Sie die maximal zulässige Anzahl an aktiven Menschen in den verfügbaren Loop-Workflows überschritten haben

HTTP-Statuscode: 400

InternalServerError

Amazon Textract hat ein Service-Problem festgestellt. Wiederholen Sie den Aufruf.

HTTP-Statuscode: 500

InvalidParameterException

Ein Eingabeparameter verletzt eine Beschränkung. Zum Beispiel wird bei synchronen Operationen einInvalidParameterExceptionAusnahme tritt auf, wenn keiner derS3ObjectoderBytesWerte werden imDocumentAnforderungsparameter. Validieren Sie den Parameter, bevor Sie die API-Operation erneut aufrufen.

HTTP-Statuscode: 400

InvalidS3ObjectException

Amazon Textract kann auf das in der Anforderung angegebene S3-Objekt nicht zugreifen.Konfigurieren des Zugriffs auf Amazon S3Informationen zur Problembehebung finden Sie unterFehlerbehebung für Amazon S3

HTTP-Statuscode: 400

ProvisionedThroughputExceededException

Die Anzahl der Anforderungen hat das Durchsatzlimit überschritten. Wenn Sie dieses Limit erhöhen müssen, wenden Sie sich an Amazon Textract.

HTTP-Statuscode: 400

ThrottlingException

Amazon Textract kann die Anforderung vorübergehend nicht verarbeiten. Wiederholen Sie den Aufruf.

HTTP-Statuscode: 500

UnsupportedDocumentException

Das Format des Eingabedokuments wird nicht unterstützt. Dokumente für Operationen können im PNG-, JPEG-, PDF- oder TIFF-Format vorliegen.

HTTP-Statuscode: 400

Weitere Informationen finden Sie unter:

Weitere Informationen zur Verwendung dieser API in einem der sprachspezifischen AWS-SDKs finden Sie unter: