Controles de calidad de los datos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Controles de calidad de los datos

La calidad de los datos es una parte integral del proceso de limpieza de datos, que a menudo se pasa por alto. El siguiente diagrama muestra cómo los controles de calidad de los datos se integran en el ciclo de vida de la ingeniería de datos, la automatización y el control de acceso.

Diagrama de calidad de los datos

La siguiente tabla proporciona una descripción general de las diferentes soluciones de calidad de datos según el caso de uso.

Caso de uso

Solución

Ejemplo

Solución sin código para añadir condiciones de calidad a nivel de columna o de tabla

AWS Glue DataBrew

Comprueba si todos los valores de las columnas están entre 1 y 12, o si una tabla o columna está vacía

Código personalizado agregado a un trabajo de AWS Glue o a una solución sin código (en versión preliminar) para añadir condiciones de calidad a nivel de columna o tabla

Calidad de datos de AWS Glue

Comprueba si la columna no first_name es nula o si solo phone_number contiene números o un operador «+» o funciones estadísticas, como el promedio o la suma

Comprobaciones personalizadas

ETL de su elección, como AWS Lambda, AWS Glue o Amazon EMR

Comprueba si el valor de la columna A es siempre mayor que el valor correspondiente de las columnas B y C, o si el valor de la columna siempre continent es geográficamente correcto y se deriva de la columna city

Solución sofisticada con un informe de métricas, validación de restricciones y sugerencias de restricciones

Deequ

Comprueba si la métrica CompletenessConstraint review_id de integridad de la columna es igual a 1