Dateien mit Anmerkungen im Klartext-Format

Für Klartext-Anmerkungen erstellen Sie eine Datei mit kommagetrennten Werten (CSV), die eine Liste von Anmerkungen enthält. Die CSV-Datei muss die folgenden Spalten enthalten, wenn das Eingabeformat Ihrer Trainingsdatei ein Dokument pro Zeile ist.

Datei	Linien	Offset beginnen	Offset beenden	Typ
Der Name der Datei, die das Dokument enthält. Wenn sich beispielsweise eine der Dokumentdateien unter befindet`s3://my-S3-bucket/test-files/documents.txt`, lautet der Wert in der `File` Spalte`documents.txt`. Sie müssen die Dateierweiterung (in diesem Fall '`.txt`') als Teil des Dateinamens angeben.	Die Zeilennummer, die die Entität enthält. Lassen Sie diese Spalte weg, wenn Ihr Eingabeformat ein Dokument pro Datei ist.	Der Zeichenversatz im Eingabetext (relativ zum Zeilenanfang), der angibt, wo die Entität beginnt. Das erste Zeichen befindet sich an Position 0.	Der Zeichen-Offset im Eingabetext, der angibt, wo die Entität endet.	Der vom Kunden definierte Entitätstyp. Entitätstypen müssen eine durch Unterstriche getrennte Zeichenfolge in Großbuchstaben sein. Wir empfehlen die Verwendung beschreibender Entitätstypen wie,, oder. `MANAGER` `SENIOR_MANAGER` `PRODUCT_CODE` Pro Modell können bis zu 25 Entitätstypen trainiert werden.

Wenn Ihr Eingabeformat für die Trainingsdatei ein Dokument pro Datei ist, lassen Sie die Spalte mit der Zeilennummer weg und die Werte Begin-Offset und End-Offset sind die Offsets der Entität vom Anfang des Dokuments.

Das folgende Beispiel bezieht sich auf ein Dokument pro Zeile. Die Datei documents.txt enthält vier Zeilen (Zeilen 0, 1, 2 und 3):


Diego Ramirez is an engineer in the high tech industry.
Emilio Johnson has been an engineer for 14 years.
J Doe is a judge on the Washington Supreme Court.
Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

Die CSV-Datei mit der Liste der Anmerkungen lautet wie folgt:


File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENGINEER
documents.txt, 1, 0, 14, ENGINEER
documents.txt, 3, 25, 38, MANAGER

Anmerkung

In der Annotationsdatei beginnt die Zeilennummer, die die Entität enthält, mit Zeile 0. In diesem Beispiel enthält die CSV-Datei keinen Eintrag für Zeile 2, da sich in Zeile 2 von documents.txt keine Entität befindet.

Erstellen Sie Ihre Datendateien

Es ist wichtig, dass Sie Ihre Anmerkungen in einer ordnungsgemäß konfigurierten CSV-Datei ablegen, um das Fehlerrisiko zu verringern. Um Ihre CSV-Datei manuell zu konfigurieren, muss Folgendes zutreffen:

Die UTF-8-Kodierung muss explizit angegeben werden, auch wenn sie in den meisten Fällen als Standard verwendet wird.
Die erste Zeile enthält die Spaltenüberschriften:File, Line (optional),,,Begin Offset. End Offset Type

Es wird dringend empfohlen, die CSV-Eingabedateien programmgesteuert zu generieren, um mögliche Probleme zu vermeiden.

Im folgenden Beispiel wird Python verwendet, um eine CSV-Datei für die zuvor gezeigten Anmerkungen zu generieren:


import csv 
with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"])
    csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Anmerkungen

PDF-Anmerkungen