Calidad de datos de AWS Glue - AWS Glue

Calidad de datos de AWS Glue

Calidad de datos de AWS Glue permite medir y supervisar la calidad de los datos para que se puedan tomar buenas decisiones empresariales. Creado a partir del marco de DeeQu de código abierto, Calidad de los datos de AWS Glue proporciona una experiencia administrada y sin servidor. AWS Glue Calidad de datos funciona con el lenguaje de definición de calidad de datos (DQDL), que es un lenguaje específico de un dominio que se utiliza para definir las reglas de calidad de datos. Para obtener más información sobre el DQDL y los tipos de reglas compatibles, consulte Referencia del lenguaje de definición de calidad de datos (DQDL).

Para conocer los detalles adicionales del producto y los precios, consulte la página de servicio de Calidad de datos de AWS Glue.

Beneficios y características principales

Los beneficios y las características clave de la calidad de los datos de AWS Glue incluyen:

  • Sin servidor: no requiere instalación, aplicación de parches ni mantenimiento.

  • Comience rápidamente: Calidad de datos de AWS Glue analiza rápidamente sus datos y crea reglas de calidad de datos para usted. Puede empezar con dos clics: “Crear reglas de calidad de datos → Recomendar reglas”.

  • Detección de problemas de calidad de los datos: use el machine learning (ML) para detectar anomalías y problemas de calidad de los datos difíciles de detectar.

  • Improvise sus reglas: con más de 25 reglas de calidad de datos listas para usar con las que empezar, puede crear reglas que se adapten a sus necesidades específicas.

  • Evalúe la calidad y tome decisiones empresariales con confianza: una vez que evalúe las reglas, obtendrá una puntuación de calidad de los datos que proporciona una visión general del estado de sus datos. Utilice la puntuación de calidad de los datos para tomar decisiones empresariales fiables.

  • Céntrese en los datos incorrectos: Calidad de datos de AWS Glue ayuda a identificar los registros exactos que provocaron la caída de sus puntajes de calidad. Identifíquelos fácilmente, póngalos en cuarentena y corríjalos.

  • Pago por uso: no necesita licencias anuales para utilizar calidad de los datos de AWS Glue.

  • Sin restricciones: Calidad de datos de AWS Glue se basa en DeeQu de código abierto, lo que permite mantener las reglas que crea en un lenguaje abierto.

  • Controles de calidad de los datos: con Calidad de datos de AWS Glue, puede aplicar controles de calidad de los datos en los procesos ETL Data Catalog y AWS Glue, lo que permitirá administrar la calidad de los datos en reposo y en tránsito.

  • Detección de calidad de datos basada en ML: use el machine learning (ML) para detectar anomalías y problemas de calidad de los datos difíciles de detectar.

Cómo funcionan

Hay dos puntos de partida para Calidad de datos de AWS Glue: los trabajos ETL AWS Glue Data Catalog y AWS Glue. En esta sección se proporciona información general de los casos de uso y de las características de AWS Glue que admite cada punto de entrada.

Calidad de los datos para AWS Glue Data Catalog

Calidad de datos de AWS Glue evalúa los objetos que se almacenan en el. AWS Glue Data Catalog Ofrece a los no codificadores una forma sencilla de configurar las reglas de calidad de los datos. Entre estas personas, se incluyen administradores de datos y analistas de negocios.

Puede elegir esta opción para los siguientes casos de uso:

  • Desea realizar tareas de calidad de datos en conjuntos de datos que ya ha catalogado en AWS Glue Data Catalog.

  • Trabaja en la gobernanza de datos y necesita identificar o evaluar los problemas de calidad de los datos en su lago de datos de forma continua.

Puede administrar la calidad de los datos del catálogo de datos mediante las siguientes interfaces:

  • La consola de administración de AWS Glue

  • Las API de AWS Glue

Para empezar con Calidad de datos de AWS Glue para AWS Glue Data Catalog, consulte Introducción a AWS Glue Data Quality para el Data Catalog.

Calidad de los datos para los trabajos de ETL de AWS Glue

Calidad de datos de AWS Glue para los trabajos de AWS Glue ETL permite realizar tareas proactivas de calidad de datos. Las tareas proactivas ayudan a identificar y filtrar los datos incorrectos antes de cargar un conjunto de datos en el lago de datos.

Puede elegir la calidad de los datos para los trabajos de ETL en los siguientes casos de uso:

  • Desea incorporar tareas de calidad de datos en sus trabajos de ETL

  • Desea escribir código que defina las tareas de calidad de los datos en los scripts de ETL

  • Desea administrar la calidad de los datos que fluyen en los procesos de datos visuales

Puede administrar la calidad de los datos para los trabajos de ETL mediante las siguientes interfaces:

  • AWS Glue Studio, cuadernos de AWS Glue Studio y sesiones interactivas de AWS Glue

  • Bibliotecas de AWS Glue para secuencias de comandos de ETL

  • Las API de AWS Glue

Para empezar con la calidad de los datos para los trabajos de ETL, consulte Tutorial: Introducción a Calidad de datos en la Guía del usuario de AWS Glue Studio.

Comparación de la calidad de los datos del catálogo de datos con la calidad de los datos para los trabajos de ETL

En esta tabla se proporciona información general de las características que admite cada punto de entrada para Calidad de datos de AWS Glue.

Característica Calidad de datos para el catálogo de datos Calidad de los datos para los trabajos de ETL
Origen de datos Orígenes de Amazon S3, Amazon Redshift y JDBC compatibles con el catálogo de datos y formatos de lago de datos transaccionales, como Apache Iceberg, Apache Hudi y Delta Lake. Tenga en cuenta que si las tablas están administradas por AWS Lake Formation, no son compatibles con las tablas de Iceberg, Delta o HUDI. Las vistas de Amazon Athena catalogadas en AWS Glue Data Catalog no son compatibles. Todos los orígenes de datos son compatibles con AWS Glue, incluidos los conectores personalizados y los conectores de terceros.
Recomendaciones sobre reglas de calidad de datos Compatible No compatible
Crear y ejecutar reglas de DQDL Soportado Soportado
Escalado automático No compatible Compatible
Compatibilidad con AWS Glue Flex No compatible Compatible
Programación Compatible al evaluar las reglas de calidad de los datos y mediante Step Functions. Compatible al usar Step Functions y flujos de trabajo.
Identificación de registros que no superaron las comprobaciones de calidad de los datos No compatible Compatible
Integración con Amazon Eventbridge Soportado Soportado
Integración con AWS CloudWatch Soportado Soportado
Escritura de resultados de calidad de datos en Amazon S3 Soportado Soportado
Calidad de datos incremental Compatible mediante predicados insertados Compatible mediante marcadores de AWS Glue
Compatibilidad con AWS CloudFormation Soportado Soportado
Detección de anomalías basada en machine learning No compatible Vista previa
Reglas dinámicas No compatible Compatible

Consideraciones

Tenga en cuenta los siguientes elementos antes de utilizar Calidad de datos de AWS Glue:

Terminología

En la siguiente lista se definen los términos relacionados con Calidad de datos de AWS Glue.

Lenguaje de definición de calidad de datos (DQDL)

Lenguaje específico del dominio que puede utilizar para escribir reglas de Calidad de datos de AWS Glue.

Para obtener más información sobre DQDL, consulte la guía de Referencia del lenguaje de definición de calidad de datos (DQDL).

calidad de datos

Describe qué tan bien un conjunto de datos cumple su propósito específico. AWS Glue Calidad de datos evalúa las reglas con respecto a un conjunto de datos para medir la calidad de los datos. Cada regla comprueba características específicas, como la actualización o integridad de los datos. Para cuantificar la calidad de los datos, puede utilizar una puntuación de calidad de datos.

puntuación de calidad de datos

El porcentaje de reglas de calidad de datos que cumplen (el resultado es true [verdadero]) al evaluar un conjunto de reglas con Calidad de datos de AWS Glue.

regla

Una expresión de DQDL que comprueba los datos para detectar una característica específica y devuelve un valor booleano. Para obtener más información, consulte Estructura de la regla.

analizador

Expresión DQDL que recopila estadísticas de datos. Un analizador recopila estadísticas de datos que los algoritmos de aprendizaje automático pueden utilizar para detectar anomalías y problemas de calidad de los datos difíciles de detectar a lo largo del tiempo.

conjunto de reglas

Un recurso de AWS Glue que comprende un conjunto de reglas de la calidad de los datos. El conjunto de reglas debe estar asociado a una tabla de AWS Glue Data Catalog. Al guardar un conjunto de reglas, AWS Glue asigna un nombre de recurso de Amazon (ARN) al conjunto de reglas.

puntuación de calidad de datos

El porcentaje de reglas de calidad de datos que cumplen (el resultado es true [verdadero]) al evaluar un conjunto de reglas con Calidad de datos de AWS Glue.

observación

Información no confirmada que se genera por AWS Glue cuando se analizan las estadísticas de datos recopiladas por las reglas y los analizadores a lo largo del tiempo.

Notas de publicación sobre Calidad de datos de AWS Glue

En este tema se describen las características introducidas en Calidad de datos de AWS Glue.

Disponibilidad general: características nuevas

Las siguientes características nuevas están disponibles con la disponibilidad general de Calidad de datos de AWS Glue:

  • La capacidad de identificar qué registros no pasaron las comprobaciones de calidad de los datos ahora es compatible con AWS Glue Studio

  • Nuevos tipos de reglas de calidad de los datos, como la validación de la integridad referencial de los datos entre dos conjuntos de datos, la comparación de datos entre dos conjuntos de datos y las comprobaciones del tipo de datos

  • Experiencia de usuario mejorada en AWS Glue Data Catalog

  • Compatibilidad con Apache Iceberg, Apache Hudi y Delta Lake

  • Compatibilidad con Amazon Redshift

  • Notificación simplificada con Amazon Eventbridge

  • Compatibilidad con AWS CloudFormation para crear conjuntos de reglas

  • Mejoras en el rendimiento: opción de almacenamiento en caché en ETL y AWS Glue Studio para un rendimiento más rápido al evaluar la calidad de los datos

27 de noviembre de 2023 (Vista previa)

12 de marzo de 2024

  • Compatibilidad con palabras clave como NULL (Nulo), BLANKS (En blanco) y WHITESPACES_ONLY (Solo espacios en blanco)

  • Corrección de errores: de ahora en adelante, ColumnValues arrojará un error si los valores de la fila son nulos.

  • Opción para evaluar las reglas compuestas