Formate der Classifier-Trainingsdateien - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Formate der Classifier-Trainingsdateien

Für ein Klartextmodell können Sie Classifier-Trainingsdaten als CSV-Datei oder als erweiterte Manifestdatei bereitstellen, die Sie mit SageMaker Ground Truth erstellen. Die CSV-Datei oder erweiterte Manifestdatei enthält den Text für jedes Schulungsdokument und die zugehörigen Bezeichnungen.

Für ein systemeigenes Dokumentenmodell stellen Sie Classifier-Trainingsdaten als CSV-Datei bereit. Die CSV-Datei enthält den Dateinamen für jedes Schulungsdokument und die zugehörigen Labels. Sie fügen die Schulungsdokumente in den Amazon S3 S3-Eingabeordner für den Schulungsjob ein.

CSV-Dateien

Sie stellen beschriftete Trainingsdaten als UTF-8-codierten Text in einer CSV-Datei bereit. Fügen Sie keine Kopfzeile hinzu. Das Hinzufügen einer Kopfzeile zu Ihrer Datei kann zu Laufzeitfehlern führen.

Für jede Zeile in der CSV-Datei enthält die erste Spalte eine oder mehrere Klassenbezeichnungen. Eine Klassenbezeichnung kann eine beliebige gültige UTF-8-Zeichenfolge sein. Wir empfehlen, klare Klassennamen zu verwenden, deren Bedeutung sich nicht überschneidet. Der Name kann Leerzeichen enthalten und aus mehreren Wörtern bestehen, die durch Unterstriche oder Bindestriche miteinander verbunden sind.

Lassen Sie vor oder nach den Kommas, die die Werte in einer Zeile trennen, keine Leerzeichen stehen.

Der genaue Inhalt der CSV-Datei hängt vom Klassifikatormodus und der Art der Trainingsdaten ab. Einzelheiten finden Sie in den Abschnitten zu Mehrklassenmodus undModus mit mehreren Bezeichnungen.

Erweiterte Manifestdatei

Eine erweiterte Manifestdatei ist ein beschrifteter Datensatz, den Sie mit SageMaker Ground Truth erstellen. Ground Truth ist ein Datenkennzeichnungsdienst, der Ihnen — oder einer von Ihnen beschäftigten Belegschaft — dabei hilft, Trainingsdatensätze für Modelle des maschinellen Lernens zu erstellen.

Weitere Informationen zu Ground Truth und der damit generierten Ausgabe finden Sie unter Use SageMaker Ground Truth to Label Data im Amazon SageMaker Developer Guide.

Erweiterte Manifestdateien sind im JSON-Zeilenformat. In diesen Dateien ist jede Zeile ein vollständiges JSON-Objekt, das ein Schulungsdokument und die zugehörigen Beschriftungen enthält. Der genaue Inhalt jeder Zeile hängt vom Klassifikatormodus ab. Einzelheiten finden Sie in den Abschnitten zu Mehrklassenmodus undModus mit mehreren Bezeichnungen.

Wenn Sie Amazon Comprehend Ihre Trainingsdaten zur Verfügung stellen, geben Sie einen oder mehrere Namen für Labelattribute an. Wie viele Attributnamen Sie angeben, hängt davon ab, ob Ihre erweiterte Manifestdatei das Ergebnis eines einzelnen Label-Jobs oder eines verketteten Labeling-Jobs ist.

Wenn Ihre Datei das Ergebnis eines einzelnen Label-Jobs ist, geben Sie den Namen des einzelnen Label-Attributs aus dem Ground Truth Job an.

Wenn Ihre Datei das Ergebnis eines verketteten Beschriftungsauftrags ist, geben Sie den Namen des Labelattributs für einen oder mehrere Jobs in der Kette an. Jeder Name eines Labelattributs enthält die Anmerkungen zu einem einzelnen Auftrag. Sie können bis zu 5 dieser Attribute für erweiterte Manifestdateien aus verketteten Labeling-Jobs angeben.

Weitere Informationen zu verketteten Labeling-Jobs und Beispiele für das Ergebnis, das sie produzieren, finden Sie unter Chaining Labeling-Jobs im Amazon SageMaker Developer Guide.