Modi für die Dokumentenverarbeitung - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Modi für die Dokumentenverarbeitung

Amazon Comprehend unterstützt drei Dokumentverarbeitungsmodi. Die Wahl des Modus hängt von der Anzahl der Dokumente ab, die Sie verarbeiten müssen, und davon, wie sofort Sie die Ergebnisse anzeigen müssen:

  • Einzeldokument synchron – Sie rufen Amazon Comprehend mit einem einzigen Dokument auf und erhalten sofort eine synchrone Antwort, die an Ihre Anwendung (oder die Konsole) übermittelt wird.

  • Multi-Document synchronous – Sie rufen die Amazon Comprehend API mit einer Sammlung von bis zu 25 Dokumenten auf und erhalten eine synchrone Antwort.

  • Asynchroner Batch – Legen Sie die Dokumente für eine große Sammlung von Dokumenten in einen Amazon S3-Bucket und starten Sie einen asynchronen Auftrag (mit Konsolen- oder API-Operationen), um die Dokumente zu analysieren. Amazon Comprehend speichert die Ergebnisse der Analyse in dem S3-Bucket/-Ordner, den Sie in der Anforderung angeben.

Einzeldokumentverarbeitung

Einzeldokumentoperationen sind synchrone Operationen, die die Ergebnisse der Dokumentanalyse direkt an Ihre Anwendung zurückgeben. Verwenden Sie synchrone Einzeldokumentoperationen, wenn Sie eine interaktive Anwendung erstellen, die jeweils für ein Dokument funktioniert.

Weitere Informationen zu den synchronen API-Operationen finden Sie unter Echtzeitanalyse mit den integrierten Modellen (für die Konsole) und Echtzeitanalyse mit der API.

Synchrone Verarbeitung mehrerer Dokumente

Wenn Sie mehrere Dokumente verarbeiten möchten, können Sie die Batch* API-Operationen verwenden, um mehr als ein Dokument gleichzeitig an Amazon Comprehend zu senden. Sie können bis zu 25 Dokumente in jeder Anfrage senden. Amazon Comprehend sendet eine Liste von Antworten zurück, eine für jedes Dokument in der Anforderung. Anforderungen, die mit diesen Operationen gestellt werden, sind synchron. Ihre Anwendung ruft die -Operation auf und wartet dann auf die Antwort vom Service.

Die Verwendung der -Batch*Operationen ist identisch mit dem Aufrufen der einzelnen Dokument-APIs für jedes der Dokumente in der Anforderung. Die Verwendung dieser APIs kann zu einer besseren Leistung für Ihre Anwendungen führen.

Die Eingabe für jede der APIs ist eine JSON-Struktur, die die zu verarbeitenden Dokumente enthält. Für alle Operationen außer müssen BatchDetectDominantLanguageSie die Eingabesprache festlegen. Sie können für jede Anfrage nur eine Eingabesprache festlegen. Im Folgenden finden Sie beispielsweise die Eingabe für die -BatchDetectEntitiesOperation. Es enthält zwei Dokumente und ist in englischer Sprache.

{ "LanguageCode": "en", "TextList": [ "I have been living in Seattle for almost 4 years", "It is raining today in Seattle" ] }

Die Antwort einer -Batch*Operation enthält zwei Listen, die ResultList und die ErrorList. Die ResultList enthält einen Datensatz für jedes Dokument, das erfolgreich verarbeitet wurde. Das Ergebnis für jedes Dokument in der Anforderung ist identisch mit dem Ergebnis, das Sie erhalten würden, wenn Sie eine einzelne Dokumentoperation für das Dokument ausführen würden. Den Ergebnissen für jedes Dokument wird ein Index zugewiesen, der auf der Reihenfolge der Dokumente in der Eingabedatei basiert. Die Antwort des BatchDetectEntities Vorgangs lautet:

{ "ResultList" : [ { "Index": 0, "Entities": [ { "Text": "Seattle", "Score": 0.95, "Type": "LOCATION", "BeginOffset": 22, "EndOffset": 29 }, { "Text": "almost 4 years", "Score": 0.89, "Type": "QUANTITY", "BeginOffset": 34, "EndOffset": 48 } ] }, { "Index": 1, "Entities": [ { "Text": "today", "Score": 0.87, "Type": "DATE", "BeginOffset": 14, "EndOffset": 19 }, { "Text": "Seattle", "Score": 0.96, "Type": "LOCATION", "BeginOffset": 23, "EndOffset": 30 } ] } ], "ErrorList": [] }

Wenn in der Anforderung ein Fehler auftritt, enthält die Antwort einen ErrorList, der die Dokumente identifiziert, die einen Fehler enthielten. Das Dokument wird durch seinen Index in der Eingabeliste identifiziert. Die folgende Eingabe für die -BatchDetectLanguageOperation enthält beispielsweise ein Dokument, das nicht verarbeitet werden kann:

{ "TextList": [ "hello friend", "$$$$$$", "hola amigo" ] }

Die Antwort von Amazon Comprehend enthält eine Fehlerliste, die das Dokument identifiziert, das einen Fehler enthielt:

{ "ResultList": [ { "Index": 0, "Languages":[ { "LanguageCode":"en", "Score": 0.99 } ] }, { "Index": 2 "Languages":[ { "LanguageCode":"es", "Score": 0.82 } ] } ], "ErrorList": [ { "Index": 1, "ErrorCode": "InternalServerException", "ErrorMessage": "Unexpected Server Error. Please try again." } ] }

Weitere Informationen zu den synchronen Batch-API-Operationen finden Sie unter Batch-APIs in Echtzeit.

Asynchrone Batchverarbeitung

Um große Dokumente und große Sammlungen von Dokumenten zu analysieren, verwenden Sie die asynchronen Operationen von Amazon Comprehend.

Um eine Sammlung von Dokumenten zu analysieren, führen Sie in der Regel die folgenden Schritte aus:

  1. Speichern Sie die Dokumente in einem Amazon S3-Bucket.

  2. Starten Sie einen oder mehrere Analyseaufträge, um die Dokumente zu analysieren.

  3. Überwachen Sie den Fortschritt der Analyseaufträge.

  4. Rufen Sie die Ergebnisse der Analyse aus einem S3-Bucket ab, wenn der Auftrag abgeschlossen ist.

Weitere Informationen zur Verwendung der asynchronen API-Operationen finden Sie unter Ausführen von Analyseaufträgen mit der Konsole (Konsole) und Asynchrone Analyseaufträge mit der API.