Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Klassifizieren Sie die Trainingsleistung
Nachdem Amazon Comprehend das Training des benutzerdefinierten Klassifikatormodells abgeschlossen hat, erstellt es Ausgabedateien im Amazon S3-Ausgabespeicherort, den Sie in der CreateDocumentClassifierAPIAnfrage oder der entsprechenden Konsolenanforderung angegeben haben.
Amazon Comprehend erstellt eine Konfusionsmatrix, wenn Sie ein Klartext-Modell oder ein systemeigenes Dokumentenmodell trainieren. Es kann zusätzliche Ausgabedateien erstellen, wenn Sie ein systemeigenes Dokumentenmodell trainieren.
Verwechslungsmatrix
Wenn Sie ein benutzerdefiniertes Klassifikatormodell trainieren, erstellt Amazon Comprehend eine Konfusionsmatrix, die Kennzahlen darüber enthält, wie gut das Modell beim Training abgeschnitten hat. Diese Matrix zeigt eine Matrix von Beschriftungen, die das Modell vorhergesagt hat, im Vergleich zu den tatsächlichen Dokumentenbeschriftungen. Amazon Comprehend verwendet einen Teil der Trainingsdaten, um die Konfusionsmatrix zu erstellen.
Eine Konfusionsmatrix gibt Aufschluss darüber, welche Klassen mehr Daten verwenden könnten, um die Modellleistung zu verbessern. Eine Klasse mit einem hohen Anteil an korrekten Vorhersagen hat die höchste Anzahl von Ergebnissen entlang der Diagonalen der Matrix. Wenn die Zahl auf der Diagonalen eine niedrigere Zahl ist, hat die Klasse einen geringeren Anteil richtiger Vorhersagen. Sie können weitere Trainingsbeispiele für diese Klasse hinzufügen und das Modell erneut trainieren. Wenn beispielsweise 40 Prozent der Stichproben mit Label A als Label D klassifiziert werden, verbessert das Hinzufügen weiterer Proben für Label A und Label D die Leistung des Klassifikators.
Nachdem Amazon Comprehend das Klassifikatormodell erstellt hat, ist die Konfusionsmatrix in der confusion_matrix.json
Datei im S3-Ausgabespeicherort verfügbar.
Das Format der Konfusionsmatrix variiert, je nachdem, ob Sie Ihren Klassifikator im Mehrklassenmodus oder im Multi-Label-Modus trainiert haben.
Konfusionsmatrix für den Mehrklassenmodus
Im Mehrklassenmodus schließen sich die einzelnen Klassen gegenseitig aus, sodass bei der Klassifizierung jedem Dokument eine Bezeichnung zugewiesen wird. Ein Tier kann beispielsweise ein Hund oder eine Katze sein, aber nicht beides gleichzeitig.
Betrachten Sie das folgende Beispiel für eine Konfusionsmatrix für einen trainierten Klassifikator mit mehreren Klassen:
A B X Y <-(predicted label)
A 1 2 0 4
B 0 3 0 1
X 0 0 1 0
Y 1 1 1 1
^
|
(actual label)
In diesem Fall prognostizierte das Modell Folgendes:
Ein „A“ -Label wurde genau vorhergesagt, zwei „A“ -Labels wurden fälschlicherweise als „B“ -Labels vorhergesagt und vier „A“ -Labels wurden fälschlicherweise als „Y“ -Label vorhergesagt.
Drei „B“ -Labels wurden genau vorhergesagt, und ein „B“ -Label wurde fälschlicherweise als „Y“ -Label vorhergesagt.
Ein „X“ wurde genau vorhergesagt.
Ein „Y“ -Label wurde genau vorhergesagt, eines wurde fälschlicherweise als „A“ -Label vorhergesagt, eines wurde fälschlicherweise als „B“ -Label vorhergesagt und eines wurde fälschlicherweise als „X“ -Label vorhergesagt.
Die diagonale Linie in der Matrix (A:A, B:B, X:X und Y:Y) zeigt die genauen Vorhersagen. Die Vorhersagefehler sind die Werte außerhalb der Diagonale. In diesem Fall zeigt die Matrix die folgenden Prognosefehlerraten:
-
A-Etiketten: 86%
-
B-Etiketten: 25%
-
X-Etiketten: 0%
-
Y-Etiketten: 75%
Der Klassifikator gibt die Konfusionsmatrix als Datei im JSON Format zurück. Die folgende JSON Datei stellt die Matrix für das vorherige Beispiel dar.
{
"type": "multi_class",
"confusion_matrix": [
[1, 2, 0,4],
[0, 3, 0, 1],
[0, 0, 1, 0],
[1, 1, 1, 1]],
"labels": ["A", "B", "X", "Y"],
"all_labels": ["A", "B", "X", "Y"]
}
Konfusionsmatrix für den Multi-Label-Modus
Im Modus mit mehreren Bezeichnungen kann die Klassifizierung einem Dokument eine oder mehrere Klassen zuweisen. Betrachten Sie das folgende Beispiel einer Konfusionsmatrix für einen aus mehreren Klassen bestehenden, trainierten Klassifikator.
In diesem Beispiel gibt es drei mögliche Bezeichnungen: Comedy
Action
, und. Drama
Die Konfusionsmatrix mit mehreren Bezeichnungen erstellt für jedes Etikett eine 2x2-Matrix.
Comedy Action Drama
No Yes No Yes No Yes <-(predicted label)
No 2 1 No 1 1 No 3 0
Yes 0 2 Yes 2 1 Yes 1 1
^ ^ ^
| | |
|-----------(was this label actually used)--------|
In diesem Fall gab das Modell für das Etikett Folgendes zurück: Comedy
-
Zwei Fälle, in denen das Vorhandensein eines
Comedy
Labels genau vorhergesagt wurde. Wirklich positiv (TP). -
Zwei Fälle, in denen genau vorhergesagt wurde, dass ein
Comedy
Etikett nicht vorhanden ist. Richtig negativ (TN). -
Keine Fälle, in denen fälschlicherweise vorhergesagt wurde, dass ein
Comedy
Etikett vorhanden ist. Falsch positiv (FP). -
Ein Fall, in dem fälschlicherweise vorhergesagt wurde, dass ein
Comedy
Etikett nicht vorhanden ist. Falsch negativ (FN).
Wie bei einer Konfusionsmatrix mit mehreren Klassen zeigt die diagonale Linie in jeder Matrix die genauen Vorhersagen.
In diesem Fall hat das Modell Comedy
Labels in 80% der Fälle (TP plus TN) genau und in 20% der Fälle falsch vorhergesagt (FP plus FN).
Der Klassifikator gibt die Konfusionsmatrix als Datei im JSON Format zurück. Die folgende JSON Datei stellt die Matrix für das vorherige Beispiel dar.
{
"type": "multi_label",
"confusion_matrix": [
[[2, 1],
[0, 2]],
[[1, 1],
[2, 1]],
[[3, 0],
[1, 1]]
],
"labels": ["Comedy", "Action", "Drama"]
"all_labels": ["Comedy", "Action", "Drama"]
}
Zusätzliche Ausgaben für native Dokumentenmodelle
Amazon Comprehend kann zusätzliche Ausgabedateien erstellen, wenn Sie ein systemeigenes Dokumentenmodell trainieren.
Amazon Textract Textract-Ausgabe
Wenn Amazon Comprehend Amazon Textract aufgerufen hat, um Text für eines der Schulungsdokumente APIs zu extrahieren, speichert es die Amazon Textract Textract-Ausgabedateien im S3-Ausgabespeicherort. Es verwendet die folgende Verzeichnisstruktur:
-
Schulungsunterlagen:
amazon-textract-output/train/<file_name>/<page_num>/textract_output.json
-
Testdokumente:
amazon-textract-output/test/<file_name>/<page_num>/textract_output.json
Amazon Comprehend füllt den Testordner aus, wenn Sie in der Anfrage Testdokumente angegeben haben. API
Fehler bei der Anmerkung zu Dokumenten
Amazon Comprehend erstellt die folgenden Dateien im Amazon S3 S3-Ausgabespeicherort (im Ordner skipped_documents/), falls Anmerkungen fehlschlagen:
-
failed_annotations_train.jsonl
Die Datei ist vorhanden, falls Anmerkungen in den Trainingsdaten fehlgeschlagen sind.
-
failed_annotations_test.jsonl
Die Datei ist vorhanden, wenn die Anfrage Testdaten enthielt und alle Anmerkungen in den Testdaten fehlgeschlagen sind.
Bei den fehlgeschlagenen JSONL Annotationsdateien handelt es sich um Dateien mit dem folgenden Format:
{ "File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."} {"File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..." }