Festlegen von Optionen für die Textextraktion - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Festlegen von Optionen für die Textextraktion

Standardmäßig führt Amazon Comprehend die folgenden Aktionen aus, um Text aus einer Datei basierend auf dem Eingabedateityp zu extrahieren:

  • Word-Dateien – Amazon Comprehend Parser extrahiert den Text.

  • Digitale PDF-Dateien – Amazon Comprehend Parser extrahiert den Text.

  • Bilddateien und gescannte PDF-Dateien – Amazon Comprehend verwendet die Amazon Textract DetectDocumentText API, um den Text zu extrahieren.

Für Bilddateien und PDF-Dateien können Sie den DocumentReaderConfig Parameter verwenden, um diese Standardextraktionsaktionen zu überschreiben. Dieser Parameter ist verfügbar, wenn Sie die Amazon Comprehend-Konsole oder -API für benutzerdefinierte Analysen in Echtzeit oder asynchron verwenden.

Der DocumentReaderConfig Parameter enthält drei Felder:

  • DocumentReadMode – Legen Sie den Wert auf fest, damit SERVICE_DEFAULT Amazon Comprehend die Standardaktionen ausführen kann.

    Legen Sie den Wert auf festFORCE_DOCUMENT_READ_ACTION, um Amazon Textract zum Analysieren digitaler PDF-Dateien zu verwenden.

  • DocumentReadAction – Legt die Amazon Textract API (DetectDocumentText oder AnalyzeDocument) fest, die verwendet werden soll, wenn Amazon Comprehend Amazon Textract für die Textextraktion verwendet.

  • FeatureTypes – Wenn Sie DocumentReadAction für die Verwendung der AnalyzeDocument -API-Operation festlegen, können Sie eine oder beide der FeatureTypes (TABLES, FORMS) hinzufügen. Diese Funktionen enthalten zusätzliche Informationen zu den Tabellen und Formularen im -Dokument. Weitere Informationen zu diesen Funktionen finden Sie unter Amazon Textract Document Analysis Response Objects.

Die folgenden Beispiele zeigen, wie für DocumentReaderConfig bestimmte Anwendungsfälle konfiguriert wird:

  1. Verwenden Sie Amazon Textract für alle PDF-Dateien.

    1. DocumentReadMode – Eingestellt auf FORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction – Eingestellt auf TEXTRACT_DETECT_DOCUMENT_TEXT.

    3. FeatureTypes – Nicht erforderlich.

  2. Verwenden Sie die Amazon Textract AnalyzeDocument API für alle PDF- und Bilddateien.

    1. DocumentReadMode – Eingestellt auf FORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction – Eingestellt auf TEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes – Legen Sie auf TABLES FORMS oder beide Funktionen fest.

  3. Verwenden Sie die Amazon Textract AnalyzeDocument API für gescannte PDF-Dateien und alle Bilddateien.

    1. DocumentReadMode – Eingestellt auf SERVICE_DEFAULT.

    2. DocumentReadAction – Eingestellt auf TEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes – Legen Sie auf TABLES FORMS oder beide Funktionen fest.

Weitere Informationen zu den Amazon-Textract-Optionen finden Sie unter DocumentReaderConfig.