Referência de métricas - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Referência de métricas

As seções a seguir descrevem as métricas que estão disponíveis no Amazon SageMaker Canvas para cada tipo de modelo.

Métricas para previsão numérica

A lista a seguir define as métricas para previsão numérica no SageMaker Canvas e fornece informações sobre como você pode usá-las.

  • InferenceLatency — O tempo aproximado entre fazer uma solicitação de previsão do modelo e recebê-la de um endpoint em tempo real no qual o modelo é implantado. Essa métrica é medida em segundos e só está disponível para modelos criados com o modo Ensembling.

  • MAE – Erro absoluto médio. Em média, a previsão para a coluna de destino é +/- {MAE} a partir do valor real.

    Mede o quão diferentes são os valores previstos e reais quando se calcula a média de todos os valores. O MAE é comumente usado na predição numérica para entender o erro de predição do modelo. Se as previsões forem lineares, o MAE representa a distância média de uma linha prevista até o valor real. O MAE é definido como a soma dos erros absolutos dividida pelo número de observações. Os valores variam de 0 a infinito, com números menores indicando um melhor ajuste do modelo aos dados.

  • MAPE – Erro percentual absoluto médio. Em média, a previsão para a coluna alvo é +/- {MAPE}% do valor real.

    MAPE é a média das diferenças absolutas entre os valores reais e os valores previstos ou estimados, dividida pelos valores reais e expressos em porcentagem. Um MAPE menor indica melhor desempenho, pois significa que os valores previstos ou estimados estão mais próximos dos valores reais.

  • MSE — Erro quadrático médio, ou a média das diferenças quadradas entre os valores previstos e reais.

    Os valores do MSE são sempre positivos. Quanto melhor for o modelo em prever os valores reais, menor será o valor do MSE.

  • R2 — A porcentagem da diferença na coluna de destino que pode ser explicada pela coluna de entrada.

    Quantifica o quanto um modelo pode explicar a variância de uma variável dependente. Os valores variam de um (1) a menos um (-1). Números mais altos indicam uma fração maior da variabilidade explicada. Valores próximos de zero (0) indicam que muito pouco da variável dependente pode ser explicada pelo modelo. Valores negativos indicam um ajuste ruim e que o modelo é superado por uma função constante (ou uma linha horizontal).

  • RMSE — Raiz do erro quadrático médio ou o desvio padrão dos erros.

    Mede a raiz quadrada da diferença quadrada entre os valores previstos e reais e é calculada a média de todos os valores. Ela é usada para entender o erro de predição do modelo e é uma métrica importante para indicar a presença de grandes erros e discrepâncias no modelo. Os valores variam de zero (0) ao infinito, com números menores indicando um melhor ajuste do modelo aos dados. O RMSE depende da escala e não deve ser usado para comparar conjuntos de dados de diferentes tipos.

Métricas para predição categórica

Esta seção define as métricas para previsão categórica no SageMaker Canvas e fornece informações sobre como você pode usá-las.

Veja a seguir uma lista das métricas disponíveis para predição em duas categorias:

  • Precisão – A porcentagem de previsões corretas.

    Ou a razão entre o número de itens previstos corretamente e o número total de previsões. A precisão mede o quão próximos estão os valores de classe previstos dos valores reais. Os valores das métricas de precisão variam entre zero (0) e um (1). Um valor de 1 indica precisão perfeita e 0 indica total imprecisão.

  • AUC – Um valor entre 0 e 1 que indica o quão bem seu modelo é capaz de separar as categorias em seu conjunto de dados. Um valor de 1 indica que ele foi capaz de separar as categorias perfeitamente.

  • BalancedAccuracy — Mede a proporção entre previsões precisas e todas as previsões.

    Essa razão é calculada após a normalização de positivos verdadeiros (TP) e negativos verdadeiros (TN) pelo número total de valores positivos (P) e negativos (N). É definido da seguinte forma:0.5*((TP/P)+(TN/N)), com valores que variam de 0 a 1. A métrica de precisão balanceada fornece uma melhor medida de precisão quando o número de positivos ou negativos difere muito um do outro em um conjunto de dados desequilibrado, como quando apenas 1% dos e-mails são spam.

  • F1 – Uma medida equilibrada de precisão que leva em consideração o saldo para a conta.

    É a média harmônica das pontuações de precisão e recall, definida da seguinte forma:F1 = 2 * (precision * recall) / (precision + recall). As pontuações F1 variam entre 0 e 1. Uma pontuação de 1 indica a melhor performance possível, e 0 indica a pior.

  • InferenceLatency — O tempo aproximado entre fazer uma solicitação de previsão do modelo e recebê-la de um endpoint em tempo real no qual o modelo é implantado. Essa métrica é medida em segundos e só está disponível para modelos criados com o modo Ensembling.

  • LogLoss — A perda de log, também conhecida como perda de entropia cruzada, é uma métrica usada para avaliar a qualidade das saídas de probabilidade, em vez das saídas em si. A perda de log é uma métrica importante para indicar quando um modelo faz previsões incorretas com altas probabilidades. Os valores variam de 0 a infinito. Um valor de 0 representa um modelo que prevê perfeitamente os dados.

  • Precisão — De todas as vezes em que {categoria x} foi prevista, a previsão estava correta {precisão}% das vezes.

    A precisão mede o quão bem um algoritmo prevê os positivos verdadeiros (TP) de todos os positivos que ele identifica. É definido da seguinte forma:Precision = TP/(TP+FP), com valores que variam de zero (0) a um (1). A precisão é uma métrica importante quando o custo de um falso-positivo é alto. Por exemplo, o custo de um falso-positivo é muito alto se o sistema de segurança de um avião for considerado falsamente seguro para voar. Um falso-positivo (FP) reflete uma previsão positiva que, na verdade, é negativa nos dados.

  • Recuperação — O modelo previu corretamente que {recall}% seria {categoria x} quando {target_column} era na verdade {categoria x}.

    O recall mede o quão bem um algoritmo prevê corretamente todos os positivos verdadeiros (TP) em um conjunto de dados. Um positivo verdadeiro é uma previsão positiva que também é um valor positivo real nos dados. O recall é definido da seguinte forma:Recall = TP/(TP+FN), com valores que variam de 0 a 1. Pontuações mais altas refletem uma melhor capacidade do modelo de prever positivos verdadeiros (TP) nos dados. Observe que geralmente é insuficiente medir apenas o recall, porque prever cada saída como um verdadeiro positivo produz uma pontuação de recall perfeita.

A seguir está uma lista das métricas disponíveis para previsão de mais de 3 categorias:

  • Precisão – A porcentagem de previsões corretas.

    Ou a razão entre o número de itens previstos corretamente e o número total de previsões. A precisão mede o quão próximos estão os valores de classe previstos dos valores reais. Os valores das métricas de precisão variam entre zero (0) e um (1). Um valor de 1 indica precisão perfeita e 0 indica total imprecisão.

  • BalancedAccuracy — Mede a proporção entre previsões precisas e todas as previsões.

    Essa razão é calculada após a normalização de positivos verdadeiros (TP) e negativos verdadeiros (TN) pelo número total de valores positivos (P) e negativos (N). É definido da seguinte forma:0.5*((TP/P)+(TN/N)), com valores que variam de 0 a 1. A métrica de precisão balanceada fornece uma melhor medida de precisão quando o número de positivos ou negativos difere muito um do outro em um conjunto de dados desequilibrado, como quando apenas 1% dos e-mails são spam.

  • F1macro — A pontuação F1macro aplica a pontuação F1 calculando a precisão e a recuperação e, em seguida, tomando sua média harmônica para calcular a pontuação F1 para cada classe. Em seguida, o F1macro calcula a média das pontuações individuais para obter a pontuação F1macro. As pontuações F1macro variam entre 0 e 1. Uma pontuação de 1 indica a melhor performance possível, e 0 indica a pior.

  • InferenceLatency — O tempo aproximado entre fazer uma solicitação de previsão do modelo e recebê-la de um endpoint em tempo real no qual o modelo é implantado. Essa métrica é medida em segundos e só está disponível para modelos criados com o modo Ensembling.

  • LogLoss — A perda de log, também conhecida como perda de entropia cruzada, é uma métrica usada para avaliar a qualidade das saídas de probabilidade, em vez das saídas em si. A perda de log é uma métrica importante para indicar quando um modelo faz previsões incorretas com altas probabilidades. Os valores variam de 0 a infinito. Um valor de 0 representa um modelo que prevê perfeitamente os dados.

  • PrecisionMacro — Mede a precisão calculando a precisão para cada classe e calculando a média das pontuações para obter precisão para várias classes. As pontuações variam de zero (0) a um (1). Pontuações mais altas refletem a capacidade do modelo de prever positivos verdadeiros (TP) a partir de todos os positivos identificados, com a média de várias classes.

  • RecallMacro — Mede a recordação calculando a recordação para cada classe e calculando a média das pontuações para obter a recordação de várias classes. As pontuações variam de 0 a 1. Pontuações mais altas refletem a capacidade do modelo de prever positivos verdadeiros (TP) em um conjunto de dados, enquanto um positivo verdadeiro reflete uma previsão positiva que também é um valor positivo real nos dados. Frequentemente, é insuficiente medir apenas o recall, porque prever cada saída como um positivo verdadeiro produzirá uma pontuação de recall perfeita.

Observe que, para a previsão de mais de 3 categorias, você também recebe as métricas médias de F1, Precisão, Precisão e Recall. As pontuações dessas métricas são apenas a média das pontuações métricas de todas as categorias.

Métricas para previsão de imagens e textos

Veja a seguir uma lista das métricas disponíveis para previsão de imagem e previsão de texto.

  • Precisão – A porcentagem de previsões corretas.

    Ou a razão entre o número de itens previstos corretamente e o número total de previsões. A precisão mede o quão próximos estão os valores de classe previstos dos valores reais. Os valores das métricas de precisão variam entre zero (0) e um (1). Um valor de 1 indica precisão perfeita e 0 indica total imprecisão.

  • F1 – Uma medida equilibrada de precisão que leva em consideração o saldo para a conta.

    É a média harmônica das pontuações de precisão e recall, definida da seguinte forma:F1 = 2 * (precision * recall) / (precision + recall). As pontuações F1 variam entre 0 e 1. Uma pontuação de 1 indica a melhor performance possível, e 0 indica a pior.

  • Precisão — De todas as vezes em que {categoria x} foi prevista, a previsão estava correta {precisão}% das vezes.

    A precisão mede o quão bem um algoritmo prevê os positivos verdadeiros (TP) de todos os positivos que ele identifica. É definido da seguinte forma:Precision = TP/(TP+FP), com valores que variam de zero (0) a um (1). A precisão é uma métrica importante quando o custo de um falso-positivo é alto. Por exemplo, o custo de um falso-positivo é muito alto se o sistema de segurança de um avião for considerado falsamente seguro para voar. Um falso-positivo (FP) reflete uma previsão positiva que, na verdade, é negativa nos dados.

  • Recuperação — O modelo previu corretamente que {recall}% seria {categoria x} quando {target_column} era na verdade {categoria x}.

    O recall mede o quão bem um algoritmo prevê corretamente todos os positivos verdadeiros (TP) em um conjunto de dados. Um positivo verdadeiro é uma previsão positiva que também é um valor positivo real nos dados. O recall é definido da seguinte forma:Recall = TP/(TP+FN), com valores que variam de 0 a 1. Pontuações mais altas refletem uma melhor capacidade do modelo de prever positivos verdadeiros (TP) nos dados. Observe que geralmente é insuficiente medir apenas o recall, porque prever cada saída como um verdadeiro positivo produz uma pontuação de recall perfeita.

Observe que, para modelos de previsão de imagem e texto em que você está prevendo 3 ou mais categorias, você também recebe as métricas médias de F1, Precisão, Precisão e Recall. As pontuações dessas métricas são apenas a média das pontuações métricas de todas as categorias.

Métricas para previsões de séries temporais

O seguinte define as métricas avançadas para previsões de séries temporais no Amazon SageMaker Canvas e fornece informações sobre como você pode usá-las.

  • Perda Quantílica Média Ponderada (wQl) – Avalia a previsão calculando a média da precisão nos quantis P10, P50 e P90. Um valor mais baixo indica um modelo mais preciso.

  • Erro percentual absoluto ponderado (WAPE) — A soma do erro absoluto normalizado pela soma da meta absoluta, que mede o desvio geral dos valores previstos dos valores observados. Um valor menor indica um modelo mais preciso, onde WAPE = 0 é um modelo sem erros.

  • Root Mean Square Error (RMSE) – A raiz quadrada dos erros quadráticos médios. Um RMSE mais baixo indica um modelo mais preciso, onde RMSE = 0 é um modelo sem erros.

  • Erro percentual absoluto médio (MAPE) – O erro percentual (diferença percentual do valor médio previsto versus o valor real) calculado em média em todos os pontos temporais. Um valor menor indica um modelo mais preciso, onde MAPE = 0 é um modelo sem erros.

  • Erro médio absoluto em escala (MASE) – O erro médio absoluto da previsão normalizado pelo erro médio absoluto de um método simples de previsão de linha de base. Um valor mais baixo indica um modelo mais preciso, onde MASE < 1 é estimado como melhor do que a linha de base e MASE > 1 é estimado como pior do que a linha de base.