Evaluación del rendimiento de los modelos Umbral supuesto Precisión Exhaustividad F1 Uso de las métricas

Métricas para evaluar su modelo

Una vez entrenado el modelo, Etiquetas personalizadas de Amazon Rekognition devuelve las métricas de las pruebas del modelo, que puede utilizar para evaluar el rendimiento del modelo. En este tema se describen las métricas que tiene a su disposición y cómo saber si su modelo entrenado está funcionando bien.

La consola de Etiquetas personalizadas de Amazon Rekognition genera las siguientes métricas a modo de resumen de los resultados del entrenamiento y en forma de métricas para cada etiqueta:

Precisión
Exhaustividad
F1

Cada métrica que se genere es una métrica de uso común para evaluar el rendimiento de un modelo de Machine Learning. Etiquetas personalizadas de Amazon Rekognition devuelve las métricas de los resultados de las pruebas de todo el conjunto de datos de prueba, junto con las métricas de cada etiqueta personalizada. También puede revisar el rendimiento del modelo personalizado entrenado por cada imagen del conjunto de datos de prueba. Para obtener más información, consulte Acceso a las métricas de evaluación (consola).

Evaluación del rendimiento de los modelos

Durante las pruebas, Etiquetas personalizadas de Amazon Rekognition predice si una imagen de prueba contiene una etiqueta personalizada. La puntuación de confianza es un valor que cuantifica la certeza de la predicción del modelo.

Si la puntuación de confianza de una etiqueta personalizada supera el valor del umbral, el resultado del modelo incluirá esta etiqueta. Las predicciones se pueden clasificar de las siguientes maneras:

Verdadero positivo: el modelo de Etiquetas personalizadas de Amazon Rekognition predice correctamente la presencia de la etiqueta personalizada en la imagen de prueba. Es decir, la etiqueta pronosticada también es una etiqueta con “datos reales” en cuanto a esa imagen. Por ejemplo, Etiquetas personalizadas de Amazon Rekognition devuelve correctamente la etiqueta de un balón de fútbol cuando hay uno en una imagen.
Falso positivo: el modelo de Etiquetas personalizadas de Amazon Rekognition predice incorrectamente la presencia de la etiqueta personalizada en la imagen de prueba. Es decir, la etiqueta pronosticada también no es una etiqueta con «datos reales» en cuanto a esa imagen. Por ejemplo, Etiquetas personalizadas de Amazon Rekognition devuelve la etiqueta de un balón de fútbol, aunque no haya ninguna etiqueta de balón de fútbol en los datos reales de esa imagen.
Falso negativo: el modelo de Etiquetas personalizadas de Amazon Rekognition no predice la presencia de una etiqueta personalizada en la imagen, pero los “datos reales” de esa imagen incluyen esta etiqueta. Por ejemplo, Etiquetas personalizadas de Amazon Rekognition no devuelve una etiqueta personalizada de “balón de fútbol” en una imagen que contiene un balón de fútbol.
Verdadero negativo: el modelo de Etiquetas personalizadas de Amazon Rekognition predice correctamente que una etiqueta personalizada no está presente en la imagen de prueba. Por ejemplo, Etiquetas personalizadas de Amazon Rekognition no devuelve la etiqueta personalizada de un balón de fútbol en una imagen que no contiene un balón de fútbol.

La consola da acceso a los valores verdaderos positivos, falsos positivos y falsos negativos de cada imagen del conjunto de datos de prueba. Para obtener más información, consulte Acceso a las métricas de evaluación (consola).

Estos resultados de predicción se utilizan para calcular las siguientes métricas en cada etiqueta y un valor acumulado de todo el conjunto de pruebas. Las mismas definiciones se aplican a las predicciones realizadas por el modelo en cuanto a los cuadros delimitadores, con la diferencia de que todas las métricas se calculan por cada cuadro delimitador (predicción o dato real) en cada imagen de prueba.

Intersección sobre la unión (IoU) y detección de objetos

La intersección sobre la unión (IoU) calcula el porcentaje de superposición entre dos cuadros delimitadores de objetos en su área combinada. El rango va de 0 (superposición más baja) a 1 (superposición completa). Durante las pruebas, un cuadro delimitador predicho es correcto cuando el IoU del cuadro delimitador con el dato real y el cuadro delimitador previsto es de al menos 0,5.

Umbral supuesto

Las Etiquetas personalizadas de Amazon Rekognition calculan automáticamente un valor de umbral supuesto (0-1) para cada una de sus etiquetas personalizadas. No puede definir el valor de umbral supuesto en una etiqueta personalizada. El umbral supuesto de cada etiqueta es el valor por encima del cual una predicción se cuenta como un verdadero positivo o un falso positivo. Se establece en función del conjunto de datos de prueba. El umbral supuesto se calcula en función de la mejor puntuación de F1 obtenida en el conjunto de datos de prueba durante el entrenamiento del modelo.

Puede obtener el valor del umbral supuesto de una etiqueta a partir de los resultados de entrenamiento del modelo. Para obtener más información, consulte Acceso a las métricas de evaluación (consola).

Los cambios en los valores de umbral supuesto se utilizan normalmente para mejorar la precisión y la capacidad de recuperación de un modelo. Para obtener más información, consulte Mejora de un modelo de Etiquetas personalizadas de Amazon Rekognition. Como no se puede establecer el umbral supuesto de un modelo en una etiqueta, se pueden obtener los mismos resultados analizando una imagen con DetectCustomLabels e indicando el parámetro de entrada MinConfidence. Para obtener más información, consulte Análisis de una imagen con un modelo entrenado.

Precisión

Las Etiquetas personalizadas de Amazon Rekognition generan proporciona métricas de precisión para cada etiqueta y una métrica de precisión media para todo el conjunto de datos de prueba.

La precisión es la fracción de las predicciones correctas (verdaderos positivos) sobre todas las predicciones del modelo (verdaderos positivos y falsos positivos) en el umbral supuesto de una etiqueta individual. A medida que aumenta el umbral, es posible que el modelo haga menos predicciones. Sin embargo, en general, tendrá una proporción más alta de verdaderos positivos sobre falsos positivos en comparación con un umbral más bajo. Los valores posibles de precisión oscilan entre 0 y 1 y los valores más altos indican una precisión más alta.

Por ejemplo, cuando el modelo predice la presencia de un balón de fútbol en una imagen, ¿con qué frecuencia es correcta esa predicción? Supongamos que hay una imagen con 8 balones de fútbol y 5 rocas. Si el modelo predice 9 balones de fútbol (8 pronosticados correctamente y 1 falso positivo), la precisión de este ejemplo es de 0,89. Sin embargo, si el modelo ha predicho 13 balones de fútbol en la imagen con 8 predicciones correctas y 5 incorrectas, la precisión resultante es menor.

Para obtener más información, consulte Precisión y exhaustividad.

Exhaustividad

Etiquetas personalizadas de Amazon Rekognition genera métricas de exhaustividad promedio para cada etiqueta y una métrica de exhaustividad media para todo el conjunto de datos de prueba.

La exhaustividad es la fracción de las etiquetas del conjunto de pruebas que se ha predicho correctamente por encima del umbral supuesto. Con esto se mide la frecuencia con la que el modelo puede predecir correctamente una etiqueta personalizada cuando está realmente presente en las imágenes del conjunto de prueba. El rango de exhaustividad es de 0 a 1. Los valores más altos indican una exhaustividad más alta.

Por ejemplo, si una imagen contiene 8 balones de fútbol, ¿cuántos de ellos se han detectado correctamente? En este ejemplo en el que una imagen presenta 8 balones de fútbol y 5 rocas, si el modelo detecta 5 balones de fútbol, el valor de exhaustividad es de 0,62. Si después de volver a entrenarlo, el nuevo modelo detecta 9 balones de fútbol, incluidos los 8 que estaban presentes en la imagen, el valor de exhaustividad es de 1,0.

Para obtener más información, consulte Precisión y exhaustividad.

F1

Etiquetas personalizadas de Amazon Rekognition utiliza la métrica de puntuación F1 para medir el rendimiento medio del modelo en cada etiqueta y el rendimiento medio del modelo en todo el conjunto de datos de prueba.

El rendimiento del modelo es una medida acumulada que tiene en cuenta tanto la precisión como la exhaustividad de todas las etiquetas. (por ejemplo, la puntuación F1 o la precisión media). La puntuación de rendimiento del modelo es un valor entre 0 y 1. Cuanto mayor sea el valor, mejor será el rendimiento del modelo tanto en términos de exhaustividad como de precisión. En concreto, el rendimiento del modelo para las tareas de clasificación suele medirse mediante la puntuación F1. Esa puntuación es la media armónica de las puntuaciones de precisión y exhaustividad en el umbral supuesto. Por ejemplo, en un modelo con una precisión de 0,9 y una exhaustividad de 1,0, la puntuación F1 es de 0,947.

Un valor alto en la puntuación F1 indica que el modelo está funcionando bien tanto en precisión como en exhaustividad. Si el modelo no funciona como debiera, por ejemplo, y presenta una baja precisión de 0,30 y una alta exhaustividad de 1,0, la puntuación F1 será de 0,46. Del mismo modo, si la precisión es alta (0,95) y la exhaustividad es baja (0,20), la puntuación F1 será de 0,33. En ambos casos, la puntuación F1 es baja y da a entender que hay problemas con el modelo.

Para obtener más información, consulte Puntuación F1.

Uso de las métricas

En un modelo determinado que haya entrenado y en función de su aplicación, puede establecer un equilibrio entre precisión y exhaustividad utilizando el parámetro de entrada MinConfidence en DetectCustomLabels. Con un valor MinConfidence más alto, por lo general se obtiene una mayor precisión (más predicciones correctas de balones de fútbol), pero una menor exhaustividad (se pierden más balones de fútbol reales). Con un valor MinConfidence más bajo, se consigue una mayor exhaustividad (se pronostican correctamente más balones de fútbol reales), pero se reduce la precisión (habrá más predicciones que sean erróneas). Para obtener más información, consulte Análisis de una imagen con un modelo entrenado.

Las métricas también le informan sobre lo que podría hacer para mejorar el rendimiento del modelo si fuera necesario. Para obtener más información, consulte Mejora de un modelo de Etiquetas personalizadas de Amazon Rekognition.

nota

DetectCustomLabels devuelve las predicciones que van de 0 a 100, que se corresponden con el rango de métrica de 0 a 1.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Mejora de un modelo entrenado

Acceso a las métricas de evaluación (consola)