Modus mit mehreren Bezeichnungen - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Modus mit mehreren Bezeichnungen

Im Modus mit mehreren Bezeichnungen stehen einzelne Klassen für unterschiedliche Kategorien, die sich nicht gegenseitig ausschließen. Bei der Klassifizierung mit mehreren Bezeichnungen werden jedem Dokument eine oder mehrere Klassen zugewiesen. Sie können beispielsweise einen Film als Dokumentarfilm und einen anderen als Science-Fiction, Action und Comedy klassifizieren.

Zu Schulungszwecken unterstützt der Multi-Label-Modus bis zu 1 Million Beispiele mit bis zu 100 eindeutigen Klassen.

Modelle im Klartext-Format

Um ein Klartextmodell zu trainieren, können Sie beschriftete Trainingsdaten als CSV-Datei oder als erweiterte Manifestdatei von SageMaker Ground Truth bereitstellen.

CSV-Datei

Allgemeine Informationen zur Verwendung von CSV-Dateien zum Trainieren von Klassifikatoren finden Sie unter. CSV-Dateien

Stellen Sie die Trainingsdaten als zweispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte die Klassenbeschriftungswerte und die zweite Spalte ein Beispieltextdokument für diese Klassen. Um mehr als eine Klasse in die erste Spalte einzugeben, verwenden Sie ein Trennzeichen (z. B. ein |) zwischen den einzelnen Klassen.

CLASS,Text of document 1 CLASS,Text of document 2 CLASS|CLASS|CLASS,Text of document 3

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator trainiert, um Genres in Filmzusammenfassungen zu erkennen:

COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"

Das Standardtrennzeichen zwischen Klassennamen ist ein senkrechter Strich (|). Sie können jedoch ein anderes Zeichen als Trennzeichen verwenden. Das Trennzeichen muss sich von allen Zeichen in Ihren Klassennamen unterscheiden. Wenn Ihre Klassen beispielsweise CLASS_1, CLASS_2 und CLASS_3 sind, ist der Unterstrich (_) Teil des Klassennamens. Verwenden Sie also keinen Unterstrich als Trennzeichen für die Trennung von Klassennamen.

Erweiterte Manifestdatei

Allgemeine Hinweise zur Verwendung erweiterter Manifestdateien für das Training von Klassifikatoren finden Sie unterErweiterte Manifestdatei.

Bei Klartextdokumenten ist jede Zeile der erweiterten Manifestdatei ein vollständiges JSON-Objekt. Es enthält ein Schulungsdokument, Klassennamen und andere Metadaten von Ground Truth. Das folgende Beispiel ist eine erweiterte Manifestdatei, mit der ein benutzerdefinierter Klassifikator trainiert wird, um Genres in Filmzusammenfassungen zu erkennen:

{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}

Das folgende Beispiel zeigt ein JSON-Objekt aus der erweiterten Manifestdatei, das aus Gründen der Lesbarkeit formatiert ist:

{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }

In diesem Beispiel stellt das source Attribut den Text des Schulungsdokuments bereit, und das MultiLabelJob Attribut weist die Indizes mehrerer Klassen aus einer Klassifikationsliste zu. Der Jobname in den MultiLabelJob Metadaten ist der Name, den Sie für den Labeling-Job in Ground Truth definiert haben.

Systemeigene Dokumentenmodelle

Ein systemeigenes Dokumentmodell ist ein Modell, das Sie mit systemeigenen Dokumenten (wie PDF-, DOCX- und Bilddateien) trainieren. Sie stellen beschriftete Trainingsdaten als CSV-Datei bereit.

CSV-Datei

Allgemeine Informationen zur Verwendung von CSV-Dateien für Trainingsklassifikatoren finden Sie unterCSV-Dateien.

Stellen Sie die Trainingsdaten als dreispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte die Klassenbeschriftungswerte. Die zweite Spalte enthält den Dateinamen eines Beispieldokuments für diese Klassen. Die dritte Spalte enthält die Seitenzahl. Die Seitenzahl ist optional, wenn es sich bei dem Beispieldokument um ein Bild handelt.

Um mehr als eine Klasse in die erste Spalte einzugeben, verwenden Sie ein Trennzeichen (z. B. ein |) zwischen den einzelnen Klassen.

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS|CLASS|CLASS,input-doc-3.png,2

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator trainiert, um Genres in Filmzusammenfassungen zu erkennen. Seite 2 der PDF-Datei enthält das Beispiel einer Komödie oder eines Jugendfilms.

COMEDY|TEEN,movie-summary-1.pdf,2

Das Standardtrennzeichen zwischen Klassennamen ist ein senkrechter Strich (|). Sie können jedoch ein anderes Zeichen als Trennzeichen verwenden. Das Trennzeichen muss sich von allen Zeichen in Ihren Klassennamen unterscheiden. Wenn Ihre Klassen beispielsweise CLASS_1, CLASS_2 und CLASS_3 sind, ist der Unterstrich (_) Teil des Klassennamens. Verwenden Sie also keinen Unterstrich als Trennzeichen für die Trennung von Klassennamen.