Como avaliar o desempenho do modelo Limite assumido Precisão Recall F1 Uso de métricas do

Métricas para avaliar seu modelo

Depois que seu modelo é treinado, o Amazon Rekognition Custom Labels retorna métricas de testes de modelo que podem ser usadas para avaliar o desempenho do seu modelo. Este tópico descreve as métricas disponíveis para você e como entender se seu modelo treinado está funcionando bem.

O console do Amazon Rekognition Custom Labels fornece as seguintes métricas como um resumo dos resultados do treinamento e como métricas para cada rótulo:

Precisão
Recall
F1

Cada métrica que fornecemos é uma métrica comumente usada para avaliar o desempenho de um modelo de machine learning. O Amazon Rekognition Custom Labels retorna métricas para os resultados dos testes em todo o conjunto de dados de teste, junto com métricas para cada rótulo personalizado. Também é possível analisar o desempenho do seu modelo personalizado treinado para cada imagem em seu conjunto de dados de teste. Para obter mais informações, consulte Como acessar as métricas de avaliação (console).

Como avaliar o desempenho do modelo

Durante o teste, o Amazon Rekognition Custom Labels prevê se uma imagem de teste contém um rótulo personalizado. A pontuação de confiança é um valor que quantifica a certeza da previsão do modelo.

Se a pontuação de confiança de um rótulo personalizado exceder o valor limite, a saída do modelo incluirá esse rótulo. As previsões podem ser categorizadas das seguintes formas:

Verdadeiro positivo: o modelo do Amazon Rekognition Custom Labels prevê corretamente a presença de um rótulo personalizado em uma imagem de teste. Ou seja, o rótulo previsto também é um rótulo de "verdade fundamental" para esta imagem. Por exemplo, o Amazon Rekognition Custom Labels retorna corretamente um rótulo de bola de futebol quando uma bola de futebol está presente em uma imagem.
Falso positivo: o modelo do Amazon Rekognition Custom Labels prevê incorretamente a presença de um rótulo personalizado em uma imagem de teste. Ou seja, o rótulo previsto não é um rótulo de "verdade fundamental" para a imagem. Por exemplo, o Amazon Rekognition Custom Labels retorna um rótulo de bola de futebol, mas não há nenhum rótulo de bola de futebol na "verdade absoluta" para essa imagem.
Falso negativo: o modelo do Amazon Rekognition Custom Labels não prevê a presença de um rótulo personalizado na imagem, mas a "verdade fundamental" dessa imagem inclui esse rótulo. Por exemplo, o Amazon Rekognition Custom Labels não retorna um rótulo personalizado de "bola de futebol" para uma imagem que contém uma bola de futebol.
Verdadeiro positivo: o modelo do Amazon Rekognition Custom Labels prevê corretamente a ausência de um rótulo personalizado em uma imagem de teste. Por exemplo, o Amazon Rekognition Custom Labels não retorna um rótulo de bola de futebol para uma imagem que não contém uma bola de futebol.

O console fornece acesso a valores verdadeiros positivos, falsos positivos e falsos negativos para cada imagem em seu conjunto de dados de teste. Para obter mais informações, consulte Como acessar as métricas de avaliação (console).

Estes resultados de previsão são usados para calcular as seguintes métricas para cada rótulo e um agregado para todo o conjunto de testes. As mesmas definições se aplicam às previsões feitas pelo modelo no nível da caixa delimitadora, com a distinção de que todas as métricas são calculadas sobre cada caixa delimitadora (previsão ou "verdade fundamental") em cada imagem de teste.

Interseção sobre união (IoU) e detecção de objetos

Interseção sobre União (IoU) mede a porcentagem de sobreposição entre duas caixas delimitadoras de objetos em sua área combinada. O intervalo é de 0 (menor sobreposição) a 1 (sobreposição completa). Durante o teste, uma caixa delimitadora prevista está correta quando o IoU da caixa delimitadora de "verdade fundamental" e da caixa delimitadora prevista é de pelo menos 0,5.

Limite assumido

O Amazon Rekognition Custom Labels calcula automaticamente um valor limite assumido (0-1) para cada um de seus rótulos personalizados. Você não pode definir o valor limite assumido para um rótulo personalizado. O limite assumido para cada rótulo é o valor acima do qual uma previsão é contada como verdadeiro ou falso positivo. Ele é definido com base no seu conjunto de dados de teste. O limite assumido é calculado com base na melhor pontuação F1 alcançada no conjunto de dados de teste durante o treinamento do modelo.

É possível obter o valor do limite assumido para um rótulo a partir dos resultados de treinamento do modelo. Para obter mais informações, consulte Como acessar as métricas de avaliação (console).

Normalmente, as alterações nos valores-limite assumidos são usadas para melhorar a precisão e o recall de um modelo. Para obter mais informações, consulte Como melhorar um modelo do Amazon Rekognition Custom Labels. Como não é possível definir o limite assumido de um modelo para um rótulo, é possível obter os mesmos resultados analisando uma imagem DetectCustomLabels e especificando o parâmetro de entrada MinConfidence. Para obter mais informações, consulte Como analisar uma imagem com um modelo treinado.

Precisão

O Amazon Rekognition Custom Labels fornece métricas de precisão para cada rótulo e uma métrica de precisão média para todo o conjunto de dados de teste.

A precisão é a fração das previsões corretas (verdadeiros positivos) sobre todas as previsões do modelo (verdadeiros e falsos positivos) no limite assumido para um rótulo individual. À medida que o limite aumenta, o modelo pode fazer menos previsões. Em geral, entretanto, ele terá uma proporção maior de verdadeiros positivos sobre falsos positivos em comparação com um limite mais baixo. Os valores possíveis para precisão variam de 0 a 1 e os valores mais altos indicam uma maior precisão.

Por exemplo, quando o modelo prevê que uma bola de futebol está presente em uma imagem, com que frequência essa previsão está correta? Suponha que haja uma imagem com oito bolas de futebol e cinco pedras. Se o modelo prevê 9 bolas de futebol (oito previstas corretamente e um falso positivo), a precisão para este exemplo é 0,89. No entanto, se o modelo previu 13 bolas de futebol na imagem com oito previsões corretas e cinco incorretas, a precisão resultante será menor.

Para obter mais informações, consulte Precisão e recall.

Recall

O Amazon Rekognition Custom Labels fornece métricas de recall médio para cada rótulo e uma métrica de recall médio para todo o conjunto de dados de teste.

Recall é a fração dos rótulos do conjunto de testes que foram previstos corretamente acima do limite assumido. É uma medida da frequência com que o modelo pode prever corretamente um rótulo personalizado quando ele está realmente presente nas imagens do seu conjunto de testes. O intervalo para recall é de 0 a 1. Valores mais altos indicam um recall maior.

Por exemplo, se uma imagem contém oito bolas de futebol, quantas delas são detectadas corretamente? Neste exemplo, em que uma imagem tem oito bolas de futebol e cinco pedras, se o modelo detectar cinco das bolas de futebol, o valor de recall será 0,62. Se, após o retreinamento, o novo modelo detectar 9 bolas de futebol, incluindo todas as 8 que estavam presentes na imagem, o valor de recall será 1,0.

Para obter mais informações, consulte Precisão e recall.

F1

O Amazon Rekognition Custom Labels usa a métrica de pontuação F1 para medir o desempenho médio do modelo de cada rótulo e o desempenho médio do modelo de todo o conjunto de dados de teste.

O desempenho do modelo é uma medida agregada que leva em consideração a precisão e o recall de todos os rótulos (por exemplo, pontuação F1 ou precisão média). A pontuação de desempenho do modelo é um valor entre 0 e 1. Quanto maior o valor, melhor o desempenho do modelo em termos de recall e precisão. Especificamente, o desempenho do modelo para tarefas de classificação é comumente medido pela pontuação F1. Esta pontuação é a média harmônica das pontuações de precisão e recall no limite assumido. Por exemplo, para um modelo com precisão de 0,9 e recall de 1,0, a pontuação F1 é 0,947.

Um valor alto para a pontuação F1 indica que o modelo está funcionando bem tanto em termos de precisão quanto de recall. Se o modelo não está funcionando bem, por exemplo, com uma baixa precisão de 0,30 e um alto recall de 1,0, a pontuação F1 é 0,46. Da mesma forma, se a precisão for alta (0,95) e o recall for baixo (0,20), a pontuação F1 será 0,33. Em ambos os casos, a pontuação F1 é baixa e indica problemas com o modelo.

Para obter mais informações, consulte Pontuação F1.

Uso de métricas do

Para um determinado modelo que você treinou e dependendo da sua aplicação, é possível fazer uma troca entre precisão e recall usando o parâmetro de entrada MinConfidence para DetectCustomLabels. Com um valor MinConfidence mais alto, você geralmente obtém uma maior precisão (previsões mais corretas de bolas de futebol), mas um menor recall (mais bolas de futebol reais serão perdidas). Com um valor MinConfidence menor, você obtém um maior recall (mais bolas de futebol reais previstas corretamente), mas uma menor precisão (mais dessas previsões estarão erradas). Para obter mais informações, consulte Como analisar uma imagem com um modelo treinado.

As métricas também informam sobre as etapas que é possível tomar para melhorar o desempenho do modelo, se necessário. Para obter mais informações, consulte Como melhorar um modelo do Amazon Rekognition Custom Labels.

nota

DetectCustomLabels retorna previsões que variam de 0 a 100, que correspondem à faixa métrica de 0-1.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Como melhorar um modelo treinado

Como acessar as métricas de avaliação (console)