Configuración de la detección de anomalías y generación de información - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de la detección de anomalías y generación de información

La calidad de los datos (DQ) de AWS Glue evalúa los datos en función de las normas de calidad de los datos que usted establece, y da información y observaciones sobre los datos a lo largo del tiempo para que pueda tomar medidas de inmediato. Dado que DQ escanea sus datos, calcula métricas estadísticas, como el recuento de filas, el máximo o el mínimo, y luego las compara con las expresiones de umbral.

Algunas de las ventajas de la detección de anomalías en la calidad de los datos incluyen:

  • escaneo continuo y automatizado de datos

  • detección de anomalías que puedan ser indicios de un hecho imprevisto o de una anomalía estadística

  • ofrecer recomendaciones de reglas para tomar medidas en relación con las observaciones detectadas mediante la detección de anomalías en la calidad de los datos

Esto resulta útil si:

  • quiere detectar anomalías en sus datos automáticamente, sin necesidad de escribir datos de calidad

  • quiere perfilar sus datos y ver representaciones visuales del aspecto de los datos

  • quiere hacer un seguimiento de cómo cambian sus datos a lo largo del tiempo

¿Qué observaciones puedo ver sobre mis datos?

El DQ identifica los valores atípicos en las estadísticas de datos recopiladas, los cambios en los formatos de los datos, las desviaciones de los datos y los cambios de esquema. Partiendo de las observaciones, el DQ recomienda reglas de calidad de los datos que los usuarios puedan poner en práctica fácilmente. Las estadísticas incluyen integridad, unicidad, media, suma StandardDeviation, entropía y. DistinctValuesCount UniqueValueRatio

Cómo habilitar la detección de anomalías en AWS Glue Studio

Para activar la detección de anomalías, puede abrir un trabajo de AWS Glue Studio y activar la opción “Activar la detección de anomalías”. Si lo activa, podrá detectar anomalías en sus datos, ya que los analizará a lo largo del tiempo y dará estadísticas sobre sus datos y observaciones para que pueda actuar en consecuencia.

Para habilitar la detección de anomalías en AWS Glue Studio:
  1. Elija el nodo de calidad de datos de su trabajo y, a continuación, elija la pestaña Detección de anomalías. Active “Activar la detección de anomalías”.

    La captura de pantalla muestra la opción “Activar la detección de anomalías” activada.
  2. Defina los datos que se van a monitorizar en busca de anomalías seleccionando Añadir analizador. Hay dos campos que puede rellenar: Estadísticas y Datos.

    Las estadísticas son información sobre la forma de los datos y otras propiedades. Puede elegir una o varias estadísticas a la vez o elegir todas las estadísticas. Las estadísticas incluyen: integridad, unicidad, media, suma StandardDeviation, entropía y. DistinctValuesCount UniqueValueRatio

    Los datos son las columnas del conjunto de datos. Puede elegir todas las columnas o columnas individuales.

    La captura de pantalla muestra los campos para Estadísticas y Datos. Puede elegir qué estadísticas quiere aplicar a su conjunto de datos y en qué columnas.
  3. Elija Agregar alcance de detección de anomalías para guardar los cambios. Cuando haya creado los analizadores, podrá verlos en la sección Alcance de la detección de anomalías.

    También puede utilizar el menú Acciones para editar los analizadores, o elegir la pestaña del Editor de conjuntos de reglas y editar el analizador directamente en el bloc de notas del editor de conjuntos de reglas. Verá los analizadores que ha guardado justo debajo de las reglas que creó.

    Rules = [ ] Analyzers = [ Completeness “id” ]

    Con el conjunto de reglas actualizado y los analizadores, Calidad de los datos monitorea continuamente los datos entrantes y detecta las anomalías mediante alertas o interrupciones del trabajo en función de su configuración.

nota

Las observaciones se generan cuando se observan un mínimo de tres valores por estadística de datos en el conjunto de datos. Si no hay observaciones visibles, Calidad de los datos no tiene datos suficientes para generar una observación. Tras varios trabajos, Calidad de los datos puede presentar información sobre los datos y los mostrará en la sección Observaciones.

Los analizadores generan observaciones mediante la detección de anomalías en los datos y ofrecen recomendaciones para crear reglas de forma progresiva. Puede ver las observaciones si elige la pestaña Calidad de los datos. Las observaciones son específicas de cada ejecución de trabajo. Puede ver el nodo de calidad de datos específico y la ejecución del trabajo en la parte superior de la sección Observaciones. Elija un nuevo nodo o ejecución de tareas para ver las observaciones específicas de ese nodo y trabajo.

La captura de pantalla muestra la pestaña de Calidad de los datos de un trabajo y las observaciones que se presentan durante la ejecución del trabajo.

Observación: cada información se basa en una ejecución de trabajo específica configurada según los conjuntos de reglas y los analizadores que especificó.

Métricas relacionadas: cuando se generan observaciones, la columna de métricas relacionadas muestra la regla y los valores reales y esperados, al igual que los límites inferior y superior.

Recomendaciones de reglas: a continuación, AWS Glue también recomienda reglas para tratar este problema. Cada regla recomendada se puede copiar haciendo clic en el icono de copia. Para copiar todas las reglas recomendadas, haga clic en el icono de copia situado junto a cada regla y, a continuación, en Aplicar las reglas copiadas.

Datos monitorizados: la columna de datos monitorizados presenta la columna o fila que se monitorizó y activó la observación.

Una vez que se haya generado una observación y se dé una regla recomendada, puede aplicarla a su nodo de calidad de datos. Para ello:

  1. Haga clic en el icono de copia situado junto a cada recomendación de regla. Esto añadirá la recomendación de la regla a un bloc de notas que podrá consultar después.

  2. Haga clic en Aplicar recomendaciones de reglas. Se abrirá el bloc de notas, donde podrá ver las reglas que ha copiado antes.

  3. Elija Copiar conjunto de reglas.

  4. Seleccione Aplicar al editor de conjuntos de reglas. Se abrirá el editor de conjuntos de reglas, donde puede pegar las reglas copiadas.

  5. Pegue las reglas copiadas en el editor de conjuntos de reglas.