Visualización de puntuaciones de calidad de datos y anomalías - AWS Glue

Visualización de puntuaciones de calidad de datos y anomalías

En esta sección, analizaremos el panel de calidad de los datos y las diferentes funcionalidades que ofrece.

Una vez que complete su trabajo, elija la pestaña Calidad de datos para ver las puntuaciones y las anomalías de la calidad de los datos.

En la captura de pantalla se muestra la pestaña de Calidad de datos seleccionada y las puntuaciones y métricas.

Los siguientes componentes de la pestaña Calidad de datos proporcionan información útil.

  1. Seleccione la pestaña Calidad de datos para ver las métricas de calidad de los datos.

  2. Seleccione un ID de ejecución de trabajo específico para ver la puntuación de calidad de los datos.

  3. En este panel se muestran tres datos importantes. Puede elegir cada uno de ellos para ir a tablas específicas y ver anomalías, estadísticas de datos o reglas.

    • Puntuación de calidad de los datos cuando se configuran reglas.

    • Cantidad de estadísticas recopiladas por Reglas y Analizadores.

    • La cantidad total de anomalías detectadas.

  4. En este gráfico de tendencias se muestra la evolución de la calidad de los datos a lo largo del tiempo. Puede pasar el ratón sobre la tendencia e ir a un momento específico en el que las puntuaciones de calidad de los datos hayan empeorado.

  5. Las tendencias de las anomalías a lo largo del tiempo le mostrarán la cantidad de anomalías detectadas a lo largo del tiempo.

  6. Pestañas:

    • La pestaña Reglas es la pestaña predeterminada en la que se muestra una lista de todas las reglas y los estados. Las reglas evaluadas son útiles en el caso de las reglas dinámicas para ver el valor real con el que se evaluó la regla.

    • En la pestaña Estadísticas se muestran todas las estadísticas, lo que le permite ver las métricas y las tendencias a lo largo del tiempo.

    • En la pestaña Anomalías se muestra la lista de anomalías detectadas.

Visualización de anomalías y entrenamiento del algoritmo de detección de anomalías

En la captura de pantalla se muestra la pestaña Anomalías con las métricas.

Indicaciones para la imagen de arriba:

  1. Cuando se detecten anomalías, haga clic en la anomalía o seleccione la pestaña Anomalías

  2. Calidad de datos de AWS Glue proporciona una explicación detallada de la anomalía, el valor real y el rango previsto

  3. Calidad de datos de AWS Glue muestra una línea de tendencia. Tiene el valor real, una tendencia derivada basada en los valores reales (línea roja), el límite superior y el límite inferior

  4. Calidad de datos de AWS Glue recomienda reglas de calidad de datos que se pueden utilizar para capturar los patrones para el futuro. Puede copiar todas las reglas que se le recomienden y aplicarlas a su nodo de calidad de datos para capturar estos patrones de forma eficaz.

  5. Puede proporcionar entradas al modelo de machine learning (ML) para excluir valores anómalos y garantizar que las ejecuciones futuras detecten las anomalías con precisión. Si no excluye las anomalías de forma explícita, Calidad de datos de AWS Glue las considerará automáticamente como parte del modelo para futuras predicciones. Es importante tener en cuenta que solo la última ejecución reflejará las entradas del modelo que proporcione. Por ejemplo, si retrocedió y excluyó los puntos anómalos de algunas ejecuciones anteriores, el modelo no reflejará esos cambios a menos que visualice y actualice las entradas del modelo en la última ejecución. El modelo seguirá utilizando las entradas proporcionadas anteriormente hasta que realice los ajustes necesarios en la ejecución más reciente. Mediante la gestión activa de la exclusión de valores anómalos, puede ajustar la comprensión del modelo de ML sobre lo que constituye una anomalía para adaptarla a sus requisitos y patrones de datos específicos, lo que permite detectar las anomalías con más precisión a lo largo del tiempo.

Visualización de las estadísticas de datos a lo largo del tiempo y suministro de entradas de entrenamiento

En algunas ocasiones, puede ver las estadísticas de datos o los perfiles de datos para saber cómo progresan a lo largo del tiempo. Para ello, elija Estadísticas o abra la pestaña Estadísticas. Podrá ver las últimas estadísticas de datos recopiladas por Calidad de datos de AWS Glue.

En la captura de pantalla se muestra la pestaña Estadísticas con estadísticas de conjuntos de datos y columnas.

Al hacer clic en Ver tendencias, se muestra el progreso de cada una de las estadísticas a lo largo del tiempo.

En la captura de pantalla se muestra la pestaña Estadísticas con estadísticas de conjuntos de datos y columnas.
  1. Puede seleccionar la estadística de una columna específica

  2. Puede ver cómo progresan las tendencias

  3. Puede seleccionar valores anómalos y optar por excluirlos o incluirlos. Al proporcionar esta información, el algoritmo excluirá o incluirá los puntos de datos anómalos identificados y volverá a entrenar el modelo. Este proceso de reentrenamiento garantiza una detección precisa de las anomalías en el futuro, ya que el modelo aprende a partir de los comentarios que usted proporciona acerca de qué valores deben considerarse anómalos o no.

    Gracias a este ciclo de comentarios, podrá refinar la comprensión del algoritmo sobre lo que constituye una anomalía para adaptarla a sus patrones de datos y requisitos empresariales específicos. Al excluir valores que no deberían marcarse como anomalías o incluir valores que no se hayan detectado, el modelo rediseñado podrá diferenciar mejor entre los puntos de datos esperados y los verdaderamente anómalos.