Klartext-Anmerkungsdateien - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Klartext-Anmerkungsdateien

Für Klartext-Anmerkungen erstellen Sie eine CSV-Datei (durch Kommas getrennte Werte), die eine Liste von Anmerkungen enthält. Die CSV-Datei muss die folgenden Spalten enthalten, wenn Ihr Eingabeformat für die Trainingsdatei ein Dokument pro Zeile ist.

Datei Linien Offset beginnen Endversatz Typ

Der Name der Datei, die das Dokument enthält. Wenn sich beispielsweise eine der Dokumentdateien unter befindets3://my-S3-bucket/test-files/documents.txt, lautet der Wert in der File Spalte documents.txt. Sie müssen die Dateierweiterung (in diesem Fall .txt') in den Dateinamen aufnehmen.

Die Zeilennummer, die die Entität enthält. Lassen Sie diese Spalte weg, wenn Ihr Eingabeformat ein Dokument pro Datei ist.

Der Zeichenversatz im Eingabetext (relativ zum Anfang der Zeile), der anzeigt, wo die Entität beginnt. Das erste Zeichen befindet sich an Position 0.

Der Zeichenversatz im Eingabetext, der anzeigt, wo die Entität endet.

Der vom Kunden definierte Entitätstyp. Entitätstypen müssen eine durch Unterstriche getrennte Zeichenfolge in Großbuchstaben sein. Wir empfehlen die Verwendung beschreibender Entitätstypen wie MANAGER, SENIOR_MANAGERoder PRODUCT_CODE. Pro Modell können bis zu 25 Entitätstypen trainiert werden.

Wenn Ihr Eingabeformat für die Trainingsdatei ein Dokument pro Datei ist, lassen Sie die Zeilennummernspalte weg und die Werte Offset beginnen und Offset beenden sind die Offsets der Entität vom Anfang des Dokuments.

Das folgende Beispiel gilt für ein Dokument pro Zeile. Die Datei documents.txt enthält vier Zeilen (Zeilen 0, 1, 2 und 3):

Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

Die CSV-Datei mit der Liste der Anmerkungen lautet wie folgt:

File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
Anmerkung

In der Annotationsdatei beginnt die Zeilennummer, die die Entität enthält, mit Zeile 0. In diesem Beispiel enthält die CSV-Datei keinen Eintrag für Zeile 2, da in Zeile 2 von keine Entität vorhanden istdocuments.txt.

Erstellen Ihrer Datendateien

Es ist wichtig, Ihre Anmerkungen in einer ordnungsgemäß konfigurierten CSV-Datei abzulegen, um das Fehlerrisiko zu verringern. Um Ihre CSV-Datei manuell zu konfigurieren, muss Folgendes zutreffen:

  • Die UTF-8-Kodierung muss explizit angegeben werden, auch wenn sie in den meisten Fällen als Standard verwendet wird.

  • Die erste Zeile enthält die Spaltenüberschriften: File, Line (optional), Begin Offset, End Offset, Type.

Es wird dringend empfohlen, die CSV-Eingabedateien programmgesteuert zu generieren, um potenzielle Probleme zu vermeiden.

Im folgenden Beispiel wird Python verwendet, um ein CSV für die zuvor gezeigten Anmerkungen zu generieren:

import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])