Dokumente im Nur-Text-Format Halbstrukturierte Dokumente Bilddateien und gescannte PDF-Dateien Amazon Textract Textract-Ausgabe Maximale Dokumentengrößen für Echtzeitanalysen Fehler in halbstrukturierten Dokumenten

Eingaben für benutzerdefinierte Analysen in Echtzeit

Bei der Echtzeitanalyse mit benutzerdefinierten Modellen wird ein einzelnes Dokument als Eingabe verwendet. In den folgenden Themen werden die Eingabedokumenttypen beschrieben, die Sie verwenden können.

Themen

Dokumente im Nur-Text-Format
Halbstrukturierte Dokumente
Bilddateien und gescannte PDF-Dateien
Amazon Textract Textract-Ausgabe
Maximale Dokumentengrößen für Echtzeitanalysen
Fehler in halbstrukturierten Dokumenten

Dokumente im Nur-Text-Format

Stellen Sie das Eingabedokument als UTF-8-formatierten Text bereit.

Halbstrukturierte Dokumente

Halbstrukturierte Dokumente umfassen native PDF-Dokumente und Word-Dokumente.

Standardmäßig verwendet die benutzerdefinierte Echtzeitanalyse den Amazon Comprehend Comprehend-Parser, um den Text aus Word-Dateien und digitalen PDF-Dateien zu extrahieren. Bei PDF-Dateien können Sie diese Standardeinstellung überschreiben und Amazon Textract verwenden, um den Text zu extrahieren. Siehe Optionen für die Textextraktion festlegen.

Bilddateien und gescannte PDF-Dateien

Zu den unterstützten Bildtypen gehören JPEG, PNG und TIFF.

Standardmäßig verwendet die benutzerdefinierte Entitätserkennung den Amazon Textract DetectDocumentText Textract-API-Vorgang, um den Text aus Bilddateien und gescannten PDF-Dateien zu extrahieren. Sie können diese Standardeinstellung überschreiben, um stattdessen den AnalyzeDocument API-Vorgang zu verwenden. Siehe Optionen für die Textextraktion festlegen.

Amazon Textract Textract-Ausgabe

Sie können die JSON-Ausgabe der Amazon Textract DetectDocumentText Textract-API oder AnalyzeDocument -API als Eingabe für die Echtzeit-API-Operationen zur benutzerdefinierten Klassifizierung und benutzerdefinierten Entitätserkennung bereitstellen. Amazon Comprehend unterstützt diesen Eingabetyp für die Echtzeit-API-Operationen, jedoch nicht für die Konsole.

Maximale Dokumentengrößen für Echtzeitanalysen

Für alle Eingabedokumenttypen beträgt das Maximum der Eingabedatei eine Seite mit nicht mehr als 10.000 Zeichen.

Die folgende Tabelle zeigt die maximalen Dateigrößen für Eingabedokumente.

Dateityp	Maximale Größe (API)	Maximale Größe (Konsole)
UTF-8-Textdokumente	10 KB	10 KB
PDF-Dokumente	10 MB	5 MB
Word-Dokumente	10 MB	1 MB
Abbildungsdateien	10 MB	5 MB
Textausgabedateien	1 MB	–

Fehler in halbstrukturierten Dokumenten

Bei der Operation ClassifyDocumentoder der DetectEntitiesAPI können beim Extrahieren von Text aus einem halbstrukturierten Dokument oder einer Bilddatei Fehler auf Dokument- oder Seitenebene auftreten.

Fehler auf Seitenebene

Wenn bei der DetectEntitiesAPI-Operation ClassifyDocumentoder bei der Verarbeitung einer Seite im Eingabedokument Fehler auftreten, enthält die API-Antwort für jeden Fehler einen Eintrag in der Fehlerliste.

Der Eintrag ErrorCode in der Fehlerliste enthält einen der folgenden Werte:

TEXTRACT_BAD_PAGE — Amazon Textract kann die Seite nicht lesen. Weitere Informationen zu Seitenbeschränkungen in Amazon Textract finden Sie unter Seitenkontingente in Amazon Textract.
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDEED — Die Anzahl der Anfragen hat Ihr Durchsatzlimit überschritten. Weitere Informationen zu Durchsatzquoten in Amazon Textract finden Sie unter Standardkontingente in Amazon Textract.
PAGE_CHARACTERS_EXCEEDED — Zu viele Textzeichen auf der Seite (maximal 10.000 Zeichen).
PAGE_SIZE_EXCEEDED — Die maximale Seitengröße beträgt 10 MB.
INTERNAL_SERVER_ERROR — Bei der Anfrage ist ein Dienstproblem aufgetreten. Versuchen Sie die API-Anfrage erneut.

Fehler auf Dokumentebene

Wenn der DetectEntitiesAPI-Vorgang ClassifyDocumentoder einen Fehler auf Dokumentebene in Ihrem Eingabedokument feststellt, gibt die API eine Fehlerantwort zurück. InvalidRequestException

In der Fehlerantwort enthält das Reason Feld den Wert. INVALID_DOCUMENT

Das Detail Feld enthält einen der folgenden Werte:

DOCUMENT_SIZE_EXCEEDED — Die Dokumentgröße ist zu groß. Überprüfen Sie die Größe Ihrer Datei und senden Sie die Anfrage erneut.
UNSUPPORTED_DOC_TYPE — Der Dokumenttyp wird nicht unterstützt. Überprüfen Sie den Dateityp und senden Sie die Anfrage erneut.
PAGE_LIMIT_EXCEEDED — Zu viele Seiten im Dokument. Überprüfen Sie die Anzahl der Seiten in Ihrer Datei und senden Sie die Anfrage erneut.
TEXTRACT_ACCESS_DENIED_EXCEPTION — Zugriff auf Amazon Textract verweigert. Stellen Sie sicher, dass Ihr Konto berechtigt ist, die Amazon Textract DetectDocumentText- und AnalyzeDocumentAPI-Operationen zu verwenden, und reichen Sie die Anfrage erneut ein.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Bearbeitung von Dokumenten

Eingaben für die asynchrone Analyse