Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Introducción a Calidad de datos de AWS Glue en la consola de AWS Glue
Calidad de datos de AWS Glue se encuentra en versión preliminar para AWS Glue, por lo que es una característica que está sujeta a cambios. |
Esta página proporciona instrucciones para ayudar a empezar a utilizar Calidad de datos de AWS Glue en la consola de AWS Glue. Aprenderá a completar tareas esenciales, como generar recomendaciones de reglas de la calidad de los datos y evaluar un conjunto de reglas en función de sus datos.
Temas
Requisitos previos
Antes de utilizar Calidad de datos de AWS Glue, familiarícese con la información que contiene Catálogo de datos y rastreadores en AWS Glue. AWS Calidad de datos de Glue evalúa la calidad de las tablas de una base de datos del Catálogo de datos.
También necesitará los siguientes elementos:
-
Una tabla del Catálogo de datos de AWS Glue para evaluar su conjunto de reglas de la calidad de los datos.
-
Un rol de IAM para AWS Glue que se proporciona al generar recomendaciones de reglas o ejecutar una tarea de calidad de datos. Este rol debe tener permiso para acceder a los recursos que requieren diversos procesos de Calidad de datos de AWS Glue para ejecutarse en su nombre. Entre estos recursos se incluyenAWS Glue, Amazon S3, IAM y CloudWatch. Para ver ejemplos de políticas que incluyen los permisos mínimos para Calidad de los datos de AWS Glue, consulteEjemplos de políticas de IAM.
Para obtener más información sobre los roles de IAM para AWS Glue, consulte Creación de una política de IAM para el servicio de AWS Glue y Creación de un rol de IAM para AWS Glue. También puede ver una lista de todos los permisos de AWS Glue específicos para la calidad de los datos en la página de Autorización para las acciones de Calidad de datos de AWS Glue.
Generar recomendaciones de reglas
Las recomendaciones de reglas facilitan la introducción a la calidad de los datos sin necesidad de escribir código. AWS Calidad de datos de Glue analiza los datos, identifica las reglas y crea un conjunto de reglas que puede evaluar en una tarea de calidad de datos.
Para generar recomendaciones sobre reglas de calidad de datos
-
Abra la consola de AWS Glue en https://console.aws.amazon.com/glue/
. -
Elija Tables (Tablas) en el panel de navegación. A continuación, elija la tabla para generar recomendaciones de reglas de la calidad de los datos.
-
En la página de detalles de la tabla, seleccione la pestaña Data quality (Calidad de los datos) para acceder a las opciones de la calidad de los datos de AWS Glue para la tabla.
-
En la sección Rulesets (Conjuntos de reglas), seleccione Recommend ruleset (Recomendar conjunto de reglas).
-
En la página Recommend data quality rules (Recomendación de reglas de la calidad de los datos), mantenga seleccionada la opción Save recommended rules as a ruleset (Guardar reglas recomendadas como conjunto de reglas). A continuación, ingrese un nombre en Ruleset (Conjunto de reglas).
-
Elija su rol de IAM para AWS Glue. Este rol debe tener permiso para acceder a los recursos que requieren diversos procesos de Calidad de datos de AWS Glue para ejecutarse en su nombre.
-
Elija Recommend ruleset (Recomendar conjunto de reglas) para iniciar la ejecución de la tarea de recomendación. Run status (Estado de ejecución) debe cambiar a Success (Correcto) cuando se complete la ejecución de la tarea. Puede que tenga que actualizar la tabla Recommendation task runs (Ejecuciones de tareas de recomendación) para ver el cambio de estado. El conjunto de reglas recomendado también debe aparecer en la lista Rulesets (Conjuntos de reglas) con el nombre que indicó.
Creación de un conjunto de reglas
Un conjunto de reglas es un grupo de reglas de la calidad de los datos que se evalúa en relación con los datos. En la consola de AWS Glue, puede crear conjuntos de reglas personalizados con Lenguaje de definición de calidad de datos (DQDL).
Para crear un conjunto de reglas de calidad de datos
-
En la consola de AWS Glue, seleccione Tables (Tablas) en el panel de navegación. A continuación, elija la tabla para crear un conjunto de reglas de calidad de datos.
-
Abra la pestaña Data quality (Calidad de datos).
-
En la sección Rulesets (Conjuntos de reglas), elija Create ruleset (Crear conjunto de reglas) para acceder al editor de Data quality rules (Reglas de calidad de los datos).
-
Comience a agregar reglas a la lista
Rules = []
en el panel del editor. Para obtener una lista completa de los tipos de reglas con sintaxis y ejemplos, consulte Referencia de tipo de regla de DQDL.Para Haga lo siguiente Agregar una regla mediante el generador de reglas de DQDL -
Seleccione un tipo de regla de la lista y elija el signo más para insertar un ejemplo de sintaxis en el panel del editor.
-
Intercambie los nombres de las columnas del marcador de posición por sus propios nombres de columna. Puede seleccionar los nombres de las columnas en la pestaña Schema (Esquema).
-
Actualice el parámetro de expresión para que se ajuste a su caso de uso. Por ejemplo, podría cambiar
> 1000
porbetween 10 and 20
. Para obtener una lista completa de las expresiones que admite DQDL, consulte Expresiones.
Crear una regla en DQDL Ingrese una o más reglas directamente en el editor dentro de los corchetes del conjunto de reglas de Rules = []
. Las reglas deben estar separadas por comas.nota
Las reglas de DQDL distinguen mayúsculas de minúsculas. Para más información sobre la sintaxis de DQDL, consulte la guía de Lenguaje de definición de calidad de datos (DQDL).
-
Ejecución de una tarea de calidad de datos
Al ejecutar una tarea de calidad de datos, Calidad de datos de AWS Glue evalúa un conjunto de reglas mediante la comparación con los datos y calcula una puntuación de la calidad de los datos. La puntuación representa el porcentaje de reglas de la calidad de los datos que se aprobaron correctamente.
Para ejecutar una tarea de calidad de datos
-
En la consola de AWS Glue, seleccione Tables (Tablas) en el panel de navegación. A continuación, elija la tabla para ejecutar una tarea de calidad de datos.
-
Abra la pestaña Data quality (Calidad de datos).
-
En Acciones de calidad de datos, elige si quieres publicar las métricas en Amazon CloudWatch. Cuando se selecciona, Calidad de datos de AWS Glue publica métricas que indican la cantidad de reglas que se aprobaron y la cantidad de reglas con errores. Puede usar estas métricas para tomar medidas, como configurar una CloudWatch alarma que envíe una notificación deAmazon Simple Notification Service (SNS) cuando se producen errores en una o más reglas de calidad de datos.
-
En la lista Rulesets (Conjuntos de reglas), elija el conjunto de reglas que quiere evaluar con respecto a la tabla. A continuación, seleccione Evaluate ruleset (Evaluar conjunto de reglas).
-
En Task properties (Propiedades de la tarea), seleccione su rol de IAM. Este rol debe tener permiso para acceder a los recursos que requieren diversos procesos de Calidad de datos de AWS Glue para ejecutarse en su nombre.
-
(Opcional) Establezca Advanced properties (Propiedades avanzadas):
-
Introduzca la cantidad solicitada de procesos de trabajo que quiere que AWS Glue asigne a su tarea de calidad de datos.
-
Para guardar los resultados de calidad de datos en Amazon S3, elija una ubicación de resultados de calidad de datos. El rol de IAM que seleccionó anteriormente para esta tarea debe tener acceso de escritura a la ubicación que elija.
-
-
Elija Evaluate ruleset (Evaluar conjunto de reglas). Debería ver la nueva tarea en la lista Data quality task runs (Ejecuciones de tareas de calidad de datos). Una vez finalizada la ejecución de la tarea, puede seleccionarla para mostrar un panel que muestre la puntuación de la calidad de los datos y otros detalles sobre la ejecución de la tarea.