Eingaben für asynchrone benutzerdefinierte Analysen - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Eingaben für asynchrone benutzerdefinierte Analysen

Sie können mehrere Dokumente in einen benutzerdefinierten asynchronen Analyseauftrag eingeben. In den folgenden Themen werden die Eingabedokumenttypen beschrieben, die Sie verwenden können. Die maximale Dateigröße variiert je nach Typ des Eingabedokuments.

Klartextdokumente

Stellen Sie alle Klartext-Eingabedokumente als UTF-8-formatted Text bereit. In der folgenden Tabelle sind die maximalen Dateigrößen und andere Richtlinien aufgeführt.

Anmerkung

Diese Grenzwerte gelten, wenn all eEingabedateien Klartext sind.

Beschreibung Kontingent/Anleitung
Maximale Dateigröße für ein Dokument pro Dateiformat (benutzerdefinierte Klassifizierung) 1 Byte–10 MB
Dokumentgröße (Kennung benutzerdefinierter Entitäten) 1 Byte–1 MB
Maximale Anzahl von Dateien, ein Dokument pro Datei 1 000 000
Maximale Anzahl von Zeilen, ein Dokument pro Zeile (für alle Dateien in Anforderung) 1 000 000
Dokumentkorpusgröße (alle Dokumente im Klartext kombiniert) 1 Byte–5 GB

Semistrukturierte Dokumente

Zu den halbstrukturierten Dokumenten gehören native PDF-Dokumente und Word-Dokumente.

In der folgenden Tabelle sind die maximalen Dateigrößen und andere Richtlinien aufgeführt.

Beschreibung Kontingent/Anleitung
Dokumentgröße (PDF) 1 Byte–50 MB
Dokumentgröße (Docx) 1 Byte–5 MB
Maximale Anzahl von Dateien 500
Maximale Anzahl von Seiten für eine PDF- oder Docx-Datei 100
Dokumentkorpusgröße nach Textextraktion (Klartext, alle Dateien kombiniert) 1 Byte–5 GB

Standardmäßig verwendet die benutzerdefinierte Analyse den Amazon Comprehend-Parser, um den Text aus Word-Dateien und digitalen PDF-Dateien zu extrahieren. Für PDF-Dateien können Sie diesen Standard überschreiben und Amazon Textract verwenden, um den Text zu extrahieren. Siehe Festlegen von Optionen für die Textextraktion.

Bilddateien und gescannte PDF-Dateien

Benutzerdefinierte Analysen unterstützen JPEG-, PNG- und TIFF-Bilder.

In der folgenden Tabelle sind die maximalen Dateigrößen für Bilder aufgeführt. Gescannte PDF-Dateien unterliegen denselben maximalen Größen wie native PDF-Dateien.

Beschreibung Kontingent/Anleitung
Bildgröße (JPG oder PNG) 1 Byte–10 MB
Bildgröße (TIFF) 1 Byte–10 MB. Maximal eine Seite.

Weitere Informationen zu Bildern finden Sie unter Bewährte Methoden für Images.

Standardmäßig verwendet Amazon Comprehend die Amazon Textract DetectDocumentText API-Operation, um den Text aus Bilddateien und gescannten PDF-Dateien zu extrahieren. Sie können diesen Standard überschreiben, um stattdessen die AnalyzeDocument-API-Operation zu verwenden. Siehe Festlegen von Optionen für die Textextraktion.

Amazon-Textract-Ausgabe-JSON-Dateien

Für die Erkennung benutzerdefinierter Entitäten, aber nicht für die benutzerdefinierte Klassifizierung können Sie die Ausgabedatei aus der Amazon TextractAnalyzeDocument-API-Operation als Eingabe für Analyseaufträge bereitstellen.