Matriz de confusão Saídas adicionais para modelos de documentos nativos

Saída do treinamento do classificador

Depois que o Amazon Comprehend conclui o treinamento do modelo de classificador personalizado, ele cria arquivos de saída no local de saída do Amazon S3 que você especificou na solicitação de API ou CreateDocumentClassifierna solicitação de console equivalente.

O Amazon Comprehend cria uma matriz de confusão quando você treina um modelo de texto sem formatação ou um modelo de documento nativo. Ele pode criar arquivos de saída adicionais quando você treina um modelo de documento nativo.

Tópicos

Matriz de confusão
Saídas adicionais para modelos de documentos nativos

Matriz de confusão

Quando você treina um modelo de classificador personalizado, o Amazon Comprehend cria uma matriz de confusão que fornece métricas sobre o desempenho do modelo no treinamento. Essa matriz mostra uma matriz de rótulos que o modelo previu, em comparação com os rótulos reais do documento. O Amazon Comprehend usa uma parte dos dados de treinamento para criar a matriz de confusão.

Uma matriz de confusão fornece uma indicação de quais classes poderiam usar mais dados para melhorar o desempenho do modelo. Uma classe com uma alta fração de previsões corretas tem o maior número de resultados ao longo da diagonal da matriz. Se o número na diagonal for menor, a classe terá uma fração menor de previsões corretas. Você pode adicionar mais exemplos de treinamento para essa classe e treinar o modelo novamente. Por exemplo, se 40% das amostras do rótulo A forem classificadas como rótulo D, adicionar mais amostras para o rótulo A e o rótulo D aumentará o desempenho do classificador.

Depois que o Amazon Comprehend cria o modelo classificador, a matriz de confusão fica disponível no arquivo confusion_matrix.json no local de saída do S3.

O formato da matriz de confusão varia, dependendo se você treinou seu classificador usando o modo multiclasse ou o multirrótulo.

Tópicos

Matriz de confusão para o modo multiclasse
Matriz de confusão para o modo multirrótulo

Matriz de confusão para o modo multiclasse

No modo multiclasse, as classes individuais são mutuamente exclusivas, então a classificação atribui um rótulo a cada documento. Por exemplo, um animal pode ser um cachorro ou um gato, mas não os dois ao mesmo tempo.

Considere o exemplo a seguir de uma matriz de confusão para um classificador treinado em várias classes:


  A B X Y <-(predicted label)
A 1 2 0 4
B 0 3 0 1
X 0 0 1 0
Y 1 1 1 1
^
|
(actual label)

Nesse caso, o modelo previu o seguinte:

Um rótulo “A” foi previsto com precisão, dois rótulos “A” foram previstos incorretamente como rótulos “B” e quatro rótulos “A” foram previstos incorretamente como rótulos “Y”.
Três rótulos “B” foram previstos com precisão e um rótulo “B” foi previsto incorretamente como um rótulo “Y”.
Um “X” foi previsto com precisão.
Um rótulo “Y” foi previsto com precisão, um foi previsto incorretamente como rótulo “A”, um foi previsto incorretamente como rótulo “B” e um foi previsto incorretamente como rótulo “X”.

A linha diagonal na matriz (A:A, B:B, X:X e Y:Y) mostra as previsões precisas. Os erros de predição são os valores fora da diagonal. Nesse caso, a matriz mostra as seguintes taxas de erro de predição:

Rótulos A: 86%
Rótulos B: 25%
Rótulos X: 0%
Rótulos Y: 75%

O classificador retorna a matriz de confusão como um arquivo no formato JSON. O arquivo JSON a seguir representa a matriz do exemplo anterior.


{
 "type": "multi_class",
 "confusion_matrix": [
 [1, 2, 0,4],
 [0, 3, 0, 1],
 [0, 0, 1, 0],
 [1, 1, 1, 1]],
 "labels": ["A", "B", "X", "Y"],
 "all_labels": ["A", "B", "X", "Y"]
}

Matriz de confusão para o modo multirrótulo

No modo multirrótulo, a classificação pode atribuir uma ou mais classes a um documento. Considere o exemplo a seguir de uma matriz de confusão para um classificador treinado em várias classes.

Neste exemplo, há três rótulos possíveis: Comedy, Action e Drama. A matriz de confusão de vários rótulos cria uma matriz 2x2 para cada rótulo.


Comedy                   Action                   Drama 
     No Yes                   No Yes                   No Yes   <-(predicted label)                                      
 No  2   1                No  1   1                No  3   0                                                         
Yes  0   2               Yes  2   1               Yes  1   1   
 ^                        ^                        ^
 |                        |                        |
 |-----------(was this label actually used)--------|

Nesse caso, o modelo retornou o seguinte para o rótulo de Comedy:

Dois casos em que foi prevista a presença de um rótulo de Comedy com precisão. True positive (TP — verdadeiro positivo ).
Duas instâncias em que se previu com precisão a ausência de um rótulo de Comedy. True negative (TN — falso verdadeiro)
Zero instâncias em que a presença de um rótulo de Comedy foi prevista incorretamente. False positive (FP — falso positivo)
Uma instância em que foi prevista incorretamente a ausência de um rótulo de Comedy. False negative (FN — falso negativo)

Assim como em uma matriz de confusão multiclasse, a linha diagonal em cada matriz mostra as previsões precisas.

Nesse caso, o modelo previu rótulos de Comedy com precisão em 80% das vezes (TP mais TN) e os previu incorretamente em 20% das vezes (FP mais FN).

O classificador retorna a matriz de confusão como um arquivo no formato JSON. O arquivo JSON a seguir representa a matriz do exemplo anterior.


{
"type": "multi_label",
"confusion_matrix": [
 [[2, 1],        
 [0, 2]],
 [[1, 1],        
 [2, 1]],      
 [[3, 0],        
 [1, 1]]
], 
"labels": ["Comedy", "Action", "Drama"]
"all_labels": ["Comedy", "Action", "Drama"]
}

Saídas adicionais para modelos de documentos nativos

O Amazon Comprehend pode criar arquivos de saída adicionais quando você treina um modelo de documento nativo.

Saída do Amazon Textract

Se o Amazon Comprehend invocou o Amazon Textract APIs para extrair texto para qualquer um dos documentos de treinamento, ele salvará os arquivos de saída do Amazon Textract no local de saída do S3. Ele usa a seguinte estrutura de diretórios:

Documentos de treinamento:

amazon-textract-output/train/<file_name>/<page_num>/textract_output.json
Documentos de teste:

amazon-textract-output/test/<file_name>/<page_num>/textract_output.json

O Amazon Comprehend preenche a pasta de teste se você tiver fornecido documentos de teste na solicitação da API.

Falhas de anotação de documento

O Amazon Comprehend cria os seguintes arquivos no local de saída do Amazon S3 (na pasta documentos_ignorados/) se houver alguma falha na anotação:

failed_annotations_train.jsonl

O arquivo existe se alguma anotação falhar nos dados de treinamento.
failed_annotations_test.jsonl

O arquivo existe se a solicitação incluiu dados de teste e qualquer anotação falhou nos dados de teste.

Os arquivos de anotação com falha são arquivos JSONL com o seguinte formato:


{
     "File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."}
    {"File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."
  }

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Teste os dados de treinamento

Métricas