Eingaben für benutzerdefinierte Echtzeitanalysen - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Eingaben für benutzerdefinierte Echtzeitanalysen

Bei der Echtzeitanalyse mit benutzerdefinierten Modellen wird ein einzelnes Dokument als Eingabe verwendet. In den folgenden Themen werden die Eingabedokumenttypen beschrieben, die Sie verwenden können.

Klartextdokumente

Geben Sie das Eingabedokument als Text im UTF-8-formatted.

Semistrukturierte Dokumente

Zu den halbstrukturierten Dokumenten gehören native PDF-Dokumente und Word-Dokumente.

Standardmäßig verwendet die benutzerdefinierte Echtzeitanalyse den Amazon Comprehend-Parser, um den Text aus Word-Dateien und digitalen PDF-Dateien zu extrahieren. Für PDF-Dateien können Sie diesen Standard überschreiben und Amazon Textract verwenden, um den Text zu extrahieren. Siehe Festlegen von Optionen für die Textextraktion.

Bilddateien und gescannte PDF-Dateien

Zu den unterstützten Bildtypen gehören JPEG, PNG und TIFF.

Standardmäßig verwendet die benutzerdefinierte Entitätserkennung die Amazon TextractDetectDocumentText-API-Operation, um den Text aus Bilddateien und gescannten PDF-Dateien zu extrahieren. Sie können diesen Standard überschreiben, um stattdessen die AnalyzeDocument-API-Operation zu verwenden. Siehe Festlegen von Optionen für die Textextraktion.

Amazon-Textract-Ausgabe

Sie können die JSON-Ausgabe von der Amazon Textract DetectDocumentText API oder AnalyzeDocument API als Eingabe für die Echtzeit-API-Operationen für die benutzerdefinierte Klassifizierung und die Erkennung benutzerdefinierter Entitäten bereitstellen. Amazon Comprehend unterstützt diesen Eingabetyp für die Echtzeit-API-Operationen, aber nicht für die Konsole.

Maximale Dokumentgrößen für Echtzeitanalysen

Für alle Eingabedokumenttypen beträgt das Maximum der Eingabedatei eine Seite mit nicht mehr als 10.000 Zeichen.

Die folgende Tabelle zeigt die maximalen Dateigrößen für Eingabedokumente.

Dateityp Maximale Größe (API) Maximale Größe (Konsole)
UTF-8-Textdokumente 10 KB 10 KB
PDF-Dokumente 10 MB 5 MB
Word-Dokumente 10 MB 1 MB
Abbildungsdateien 10 MB 5 MB
Textract-Ausgabedateien 1 MB

Fehler in halbstrukturierten Dokumenten

Der - ClassifyDocument oder -DetectEntitiesAPI-Vorgang kann beim Extrahieren von Text aus einem halbstrukturierten Dokument oder einer Bilddatei auf Fehler auf Dokument- oder Seitenebene stoßen.

Fehler auf Seitenebene

Wenn bei der - ClassifyDocument oder -DetectEntitiesAPI-Operation während der Verarbeitung einer Seite im Eingabedokument Fehler auftreten, enthält die API-Antwort für jeden Fehler einen Eintrag in der Fehlerliste.

Der ErrorCode im Fehlerlisteneintrag enthält einen der folgenden Werte:

  • TEXTRACT_BAD_PAGE – Amazon Textract kann die Seite nicht lesen. Weitere Informationen zu Seitenlimits in Amazon Textract finden Sie unter Seitenkontingente in Amazon Textract.

  • TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED – Die Anzahl der Anfragen hat Ihr Durchsatzlimit überschritten. Weitere Informationen zu Durchsatzkontingenten in Amazon Textract finden Sie unter Standardkontingente in Amazon Textract .

  • PAGE_CHARACTERS_EXCEEDED – Zu viele Textzeichen auf der Seite (maximal 10.000 Zeichen).

  • PAGE_SIZE_EXCEEDED – Die maximale Seitengröße beträgt 10 MB.

  • INTERNAL_SERVER_ERROR – Bei der Anforderung ist ein Serviceproblem aufgetreten. Versuchen Sie die API-Anfrage erneut.

Fehler auf Dokumentebene

Wenn die - ClassifyDocument oder -DetectEntitiesAPI-Operation einen Fehler auf Dokumentebene in Ihrem Eingabedokument erkennt, gibt die API eine InvalidRequestException Fehlerantwort zurück.

In der Fehlerantwort enthält das Reason Feld den Wert INVALID_DOCUMENT.

Das Detail Feld enthält einen der folgenden Werte:

  • DOCUMENT_SIZE_EXCEED – Die Dokumentgröße ist zu groß. Überprüfen Sie die Größe Ihrer Datei und senden Sie die Anfrage erneut.

  • UNSUPPORTED_DOC_TYPE – Der Dokumenttyp wird nicht unterstützt. Überprüfen Sie den Dateityp und senden Sie die Anforderung erneut.

  • PAGE_LIMIT_EXCEED – Zu viele Seiten im Dokument. Überprüfen Sie die Anzahl der Seiten in Ihrer Datei und senden Sie die Anforderung erneut.

  • TEXTRACT_ACCESS_DENIED_EXCEPTION – Zugriff auf Amazon Textract verweigert. Stellen Sie sicher, dass Ihr Konto über die Berechtigung zur Verwendung der Amazon Textract- DetectDocumentText und AnalyzeDocument-API-Operationen verfügt, und übermitteln Sie die Anforderung erneut.