Dateiformate für die asynchrone Analyse - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Dateiformate für die asynchrone Analyse

Wenn Sie eine asynchrone Analyse mit Ihrem Modell ausführen, haben Sie die Wahl zwischen verschiedenen Formaten für Eingabedokumente: One document per line oderone document per file. Welches Format Sie verwenden, hängt von der Art der Dokumente ab, die Sie analysieren möchten, wie in der folgenden Tabelle beschrieben.

Beschreibung Format

Die Eingabe enthält mehrere Dateien. Jede Datei enthält ein Eingabedokument. Dieses Format eignet sich am besten für Sammlungen großer Dokumente, wie Zeitungsartikel oder wissenschaftliche Arbeiten.

Verwenden Sie dieses Format auch für halbstrukturierte Dokumente (Bild- oder Docx-Dateien) mit einem systemeigenen Dokumentenklassifizierer. PDF

Ein Dokument pro Datei

Die Eingabe besteht aus einer oder mehreren Dateien. Jede Zeile in der Datei ist ein separates Eingabedokument. Dieses Format eignet sich am besten für kurze Dokumente wie Textnachrichten oder Beiträge in sozialen Netzwerken.

Ein Dokument pro Zeile

Ein Dokument pro Datei

Beim one document per file Format steht jede Datei für ein Eingabedokument.

Ein Dokument pro Zeile

Bei diesem One document per line Format wird jedes Dokument in einer separaten Zeile platziert und es wird keine Kopfzeile verwendet. Das Etikett ist nicht in jeder Zeile enthalten (da Sie das Etikett für das Dokument noch nicht kennen). Jede Zeile der Datei (das Ende des einzelnen Dokuments) muss mit einem Zeilenvorschub (LF,\n), einem Zeilenwechsel (CR,\ r) oder beidem (CRLF,\ r\n) enden. Verwenden Sie nicht das Zeilentrennzeichen UTF -8 (u+2028), um eine Zeile zu beenden.

Das folgende Beispiel zeigt das Format der Eingabedatei.

Text of document 1 \n Text of document 2 \n Text of document 3 \n Text of document 4 \n

Verwenden Sie für beide Formate die Kodierung UTF -8 für Textdateien. Nachdem Sie die Dateien vorbereitet haben, platzieren Sie sie in dem S3-Bucket, den Sie für die Eingabedaten verwenden.

Wenn Sie einen Klassifizierungsjob starten, geben Sie diesen Amazon S3 S3-Speicherort für Ihre Eingabedaten an. Der URI muss sich in derselben Region befinden wie der API Endpunkt, den Sie aufrufen. URISie kann auf eine einzelne Datei verweisen (wie bei der Methode „Ein Dokument pro Zeile“), oder sie kann das Präfix für eine Sammlung von Datendateien sein.

Wenn Sie beispielsweise das verwenden URIS3://bucketName/prefix, wenn das Präfix eine einzelne Datei ist, verwendet Amazon Comprehend diese Datei als Eingabe. Wenn mehr als eine Datei mit dem Präfix beginnt, verwendet Amazon Comprehend sie alle als Eingabe.

Gewähren Sie Amazon Comprehend Zugriff auf den S3-Bucket, der Ihre Dokumentensammlungs- und Ausgabedateien enthält. Weitere Informationen finden Sie unter Rollenbasierte Berechtigungen, die für asynchrone Operationen erforderlich sind.