Matrice Confusion Sorties supplémentaires pour les modèles de documents natifs

Résultat d'entraînement du classificateur

Une fois qu'Amazon Comprehend a terminé l'apprentissage du modèle de classificateur personnalisé, il crée des fichiers de sortie dans l'emplacement de sortie Amazon S3 que vous avez spécifié dans la demande d'CreateDocumentClassifierAPI ou dans la demande de console équivalente.

Amazon Comprehend crée une matrice de confusion lorsque vous entraînez un modèle en texte brut ou un modèle de document natif. Il peut créer des fichiers de sortie supplémentaires lorsque vous entraînez un modèle de document natif.

Rubriques

Matrice Confusion
Sorties supplémentaires pour les modèles de documents natifs

Matrice Confusion

Lorsque vous entraînez un modèle de classificateur personnalisé, Amazon Comprehend crée une matrice de confusion qui fournit des indicateurs sur les performances du modèle pendant l'entraînement. Cette matrice montre une matrice d'étiquettes prédites par le modèle, par rapport aux étiquettes réelles du document. Amazon Comprehend utilise une partie des données de formation pour créer la matrice de confusion.

Une matrice de confusion indique quelles classes pourraient utiliser davantage de données pour améliorer les performances du modèle. Une classe présentant une fraction élevée de prédictions correctes a le plus grand nombre de résultats le long de la diagonale de la matrice. Si le nombre sur la diagonale est inférieur, la classe a une fraction plus faible de prédictions correctes. Vous pouvez ajouter d'autres exemples d'entraînement pour cette classe et entraîner à nouveau le modèle. Par exemple, si 40 % des échantillons de l'étiquette A sont classés dans l'étiquette D, l'ajout d'échantillons supplémentaires pour l'étiquette A et l'étiquette D améliore les performances du classificateur.

Une fois qu'Amazon Comprehend a créé le modèle de classificateur, la matrice de confusion est disponible dans le confusion_matrix.json fichier à l'emplacement de sortie S3.

Le format de la matrice de confusion varie selon que vous avez entraîné votre classificateur à utiliser le mode multi-classes ou le mode multi-étiquettes.

Rubriques

Matrice de confusion pour le mode multiclasse
Matrice de confusion pour le mode multi-étiquettes

Matrice de confusion pour le mode multiclasse

En mode multiclasse, les classes individuelles s'excluent mutuellement, de sorte que la classification attribue une étiquette à chaque document. Par exemple, un animal peut être un chien ou un chat, mais pas les deux à la fois.

Prenons l'exemple suivant de matrice de confusion pour un classificateur entraîné à plusieurs classes :


  A B X Y <-(predicted label)
A 1 2 0 4
B 0 3 0 1
X 0 0 1 0
Y 1 1 1 1
^
|
(actual label)

Dans ce cas, le modèle a prédit ce qui suit :

Une étiquette « A » a été prédite avec précision, deux étiquettes « A » ont été incorrectement prédites comme des étiquettes « B » et quatre étiquettes « A » ont été incorrectement prédites comme des étiquettes « Y ».
Trois étiquettes « B » ont été prédites avec précision, et une étiquette « B » a été incorrectement prédite en tant qu'étiquette « Y ».
Un « X » a été prédit avec précision.
Une étiquette « Y » a été prédite avec précision, une a été incorrectement prédite comme une étiquette « A », une a été incorrectement prédite comme une étiquette « B » et une autre a été incorrectement prédite comme une étiquette « X ».

La ligne diagonale de la matrice (A:A, B:B, X:X et Y:Y) montre les prédictions précises. Les erreurs de prédiction sont les valeurs situées en dehors de la diagonale. Dans ce cas, la matrice indique les taux d'erreur de prédiction suivants :

Étiquettes A : 86 %
Étiquettes B : 25 %
Étiquettes X : 0 %
Étiquettes Y : 75 %

Le classificateur renvoie la matrice de confusion sous forme de fichier au format JSON. Le fichier JSON suivant représente la matrice de l'exemple précédent.


{
 "type": "multi_class",
 "confusion_matrix": [
 [1, 2, 0,4],
 [0, 3, 0, 1],
 [0, 0, 1, 0],
 [1, 1, 1, 1]],
 "labels": ["A", "B", "X", "Y"],
 "all_labels": ["A", "B", "X", "Y"]
}

Matrice de confusion pour le mode multi-étiquettes

En mode multi-étiquettes, la classification peut attribuer une ou plusieurs classes à un document. Prenons l'exemple suivant d'une matrice de confusion pour un classificateur entraîné à plusieurs classes.

Dans cet exemple, trois libellés sont possibles : ComedyAction, etDrama. La matrice de confusion multi-étiquettes crée une matrice 2x2 pour chaque étiquette.


Comedy                   Action                   Drama 
     No Yes                   No Yes                   No Yes   <-(predicted label)                                      
 No  2   1                No  1   1                No  3   0                                                         
Yes  0   2               Yes  2   1               Yes  1   1   
 ^                        ^                        ^
 |                        |                        |
 |-----------(was this label actually used)--------|

Dans ce cas, le modèle a renvoyé ce qui suit pour l'Comedyétiquette :

Deux cas où la présence d'une Comedy étiquette a été prédite avec précision. Vrai positif (TP).
Deux cas où l'absence d'une Comedy étiquette a été prédite avec précision. Vrai négatif (TN).
Aucune occurrence où la présence d'une Comedy étiquette a été prédite par erreur. Faux positif (FP).
Un cas où l'absence d'une Comedy étiquette a été incorrectement prédite. Faux négatif (FN).

Comme dans le cas d'une matrice de confusion à classes multiples, la ligne diagonale de chaque matrice indique les prédictions exactes.

Dans ce cas, le modèle a prédit avec précision Comedy les étiquettes 80 % du temps (TP plus TN) et les a incorrectement prédites 20 % du temps (FP plus FN).

Le classificateur renvoie la matrice de confusion sous forme de fichier au format JSON. Le fichier JSON suivant représente la matrice de l'exemple précédent.


{
"type": "multi_label",
"confusion_matrix": [
 [[2, 1],        
 [0, 2]],
 [[1, 1],        
 [2, 1]],      
 [[3, 0],        
 [1, 1]]
], 
"labels": ["Comedy", "Action", "Drama"]
"all_labels": ["Comedy", "Action", "Drama"]
}

Sorties supplémentaires pour les modèles de documents natifs

Amazon Comprehend peut créer des fichiers de sortie supplémentaires lorsque vous entraînez un modèle de document natif.

Sortie Amazon Textract

Si Amazon Comprehend a invoqué Amazon APIs Textract pour extraire le texte de l'un des documents de formation, il enregistre les fichiers de sortie Amazon Textract dans l'emplacement de sortie S3. Il utilise la structure de répertoire suivante :

Documents de formation :

amazon-textract-output/train/<file_name>/<page_num>/textract_output.json
Documents de test :

amazon-textract-output/test/<file_name>/<page_num>/textract_output.json

Amazon Comprehend remplit le dossier de test si vous avez fourni des documents de test dans la demande d'API.

Défaillances d'annotation de documents

Amazon Comprehend crée les fichiers suivants dans l'emplacement de sortie Amazon S3 (dans le dossier skipped_documents/) en cas d'échec des annotations :

failed_annotations_train.jsonl

Le fichier existe si des annotations ont échoué dans les données d'entraînement.
failed_annotations_test.jsonl

Le fichier existe si la demande incluait des données de test et que les annotations échouaient dans les données de test.

Les fichiers d'annotation ayant échoué sont des fichiers JSONL au format suivant :


{
     "File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."}
    {"File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."
  }

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Testez les données d'entraînement

Métriques