Características del editor de trabajo - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Características del editor de trabajo

El editor de trabajos proporciona las siguientes características para crear y editar trabajos.

  • Diagrama visual de su trabajo, con un nodo para cada tarea de trabajo: nodos de origen de datos para leer los datos; nodos de transformación para modificar los datos; nodos de destino de datos para escribir los datos.

    Puede ver y configurar las propiedades de cada nodo en el diagrama de trabajo. También puede ver el esquema y los datos de ejemplo de cada nodo en el diagrama de trabajo. Estas características ayudan a comprobar que su trabajo está modificando y transformando los datos de la manera correcta, sin tener que ejecutar el trabajo.

  • Una pestaña Visualización y edición de scripts, donde puede modificar el código generado para su trabajo.

  • Una pestaña Detalles del trabajo, en la que puede configurar una variedad de opciones para personalizar el entorno en el que se ejecuta el trabajo de ETL de AWS Glue.

  • Una pestaña Ejecuciones, donde puede ver las ejecuciones actuales y anteriores del trabajo, ver el estado de la ejecución del trabajo y acceder a los registros de la ejecución del trabajo.

  • Una pestaña de calidad de datos, donde puede aplicar reglas de calidad de datos a su trabajo.

  • Una pestaña Programaciones, en la que puede configurar la hora de inicio del trabajo o configurar ejecuciones de trabajos recurrentes.

  • Una pestaña de Control de versiones, donde puede configurar un servicio de Git para usarlo en el trabajo.

Uso de previsualizaciones de esquema en el editor visual de trabajos

Mientras crea o edita su trabajo, puede usar la pestaña Esquema de salida para ver el esquema de sus datos.

Antes de ver el esquema, el editor de trabajos necesita permisos para acceder al origen de datos. Puede especificar un rol de IAM en la pestaña Detalles del trabajo del editor o en la pestaña Esquema de salida para un nodo. Si el rol de IAM tiene todos los permisos necesarios para acceder al origen de datos, puede ver el esquema en la pestaña Esquema de salida para un nodo.

Uso de previsualizaciones de datos en el editor visual de trabajos

Las previsualizaciones de datos ayudan a crear y probar su trabajo con una muestra de sus datos, sin tener que ejecutarlo varias veces. Al utilizar la vista previa de datos, puede:

  • Probar un rol de IAM para asegurarse de que tiene acceso a sus orígenes de datos o destinos de datos.

  • Comprobar que la transformación está modificando los datos de la forma deseada. Por ejemplo, si utiliza una transformación de filtro, puede asegurarse de que el filtro está seleccionando el subconjunto correcto de datos.

  • Comprobar sus datos. Si el conjunto de datos contiene columnas con valores de varios tipos, la previsualización de datos muestra una lista de tuplas para estas columnas. Cada tupla contiene el tipo de datos y su valor.

Mientras crea o edita el trabajo, puede usar la pestaña Previsualización de datos debajo del lienzo del trabajo para ver una muestra de sus datos. Se iniciará automáticamente una nueva sesión de vista previa de datos cuando el rol ya esté configurado en el trabajo o cuando se haya configurado un rol de IAM predeterminado en la cuenta. Si un rol no se ha configurado previamente, puede iniciar una sesión seleccionándolo.

La captura de pantalla muestra la pestaña Previsualización de datos de un nodo.
nota

El rol que elija para la sesión de vista previa de datos también se usará para el trabajo.

Para ver el estado y el progreso de la sesión, así como los detalles de la sesión, haga clic en el icono de información.

Cuando la sesión esté lista, AWS Glue Studio cargará los datos del nodo que seleccionó. Puede ver el porcentaje completado a medida que avanza.

La captura de pantalla muestra la pestaña Previsualización de datos de un nodo iniciado.

A medida que vaya creando su trabajo visual, AWS Glue Studio actualizará automáticamente el esquema del nodo seleccionado cuando active la opción Deducir el esquema de la sesión en la pestaña Esquema de salida.

La captura de pantalla muestra la pestaña Previsualización de datos de un nodo iniciado.

Para configurar sus preferencias de vista previa de datos:

Elija el ícono de configuración (un símbolo de engranaje) para configurar sus preferencias para las previsualizaciones de datos. Esta configuración se aplica a todos los nodos del diagrama de trabajo. Puede hacer lo siguiente:

  • Elija ajustar el texto de una línea a la siguiente. Esta opción está habilitada de forma predeterminada

  • Cambie el número de filas (200 por defecto)

  • Elija a un rol de IAM o cree un rol de IAM si es necesario

  • Elija iniciar automáticamente una nueva sesión al crear un trabajo. Esto aprovisiona una nueva sesión interactiva al crear trabajos. Esta configuración se aplica en el nivel de la cuenta. Una vez configurada, se aplicará a todos los usuarios de su cuenta al editar cualquier trabajo.

  • Elija la opción de inferir automáticamente el esquema. Se deducirán automáticamente los esquemas de salida para el nodo seleccionado

  • Elija importar bibliotecas de AWS Glue automáticamente. Esto resulta útil, ya que evitará que la vista previa de los datos reinicie nuevas sesiones al añadir nuevas transformaciones que requieran el reinicio de la sesión

La captura de pantalla muestra las preferencias que puede configurar para la característica de previsualización de datos.

Las funciones adicionales incluyen la capacidad de:

  • Elija el boton Previsualización de x de y campos para seleccionar las columnas (campos) que ds esea previsualizar. Al obtener una previsualización de los datos utilizando la configuración predeterminada, el editor de trabajos muestra las primeras cinco columnas del conjunto de datos. Puede cambiar esto para mostrar todos o ninguno (no recomendado).

  • Desplazarse por la ventana de previsualización de datos en forma horizontal como vertical.

  • Utilice el botón de maximizar para expandir la pestaña de Previsualización de datos y superponerla sobre el gráfico del trabajo para ver mejor los datos y las estructuras de datos. Del mismo modo, utilice el botón de minimizar para minimizar la pestaña de previsualización de datos. También puede agarrar el panel de control y arrastrarlo hacia arriba para expandir la pestaña de Previsualización de datos.

    La captura de pantalla muestra el panel de previsualización de datos con los botones de minimizar y maximizar resaltados, así como el panel de control que puede usar para extender el panel de vista previa de datos verticalmente.
  • Utilice Finalizar sesión para detener la vista previa de los datos. Al detener la sesión, puede elegir un nuevo rol de IAM y establecer ajustes adicionales (como activar o desactivar los ajustes para iniciar automáticamente una nueva sesión, deducir un esquema o importar bibliotecas AWS Glue e iniciar la sesión de nuevo).

Restricciones al usar previsualizaciones de datos

Si utiliza las previsualizaciones de datos, podría encontrarse con las siguientes restricciones o limitaciones.

  • La primera vez que elija la pestaña Previsualización de datos, deberá elegir un rol de IAM. Este rol debe tener los permisos correspondientes para acceder a los datos y otros recursos necesarios para crear las previsualizaciones de datos.

  • Después de proporcionar un rol de IAM, tarda un tiempo antes de que los datos estén disponibles para su visualización. Para conjuntos de datos con menos de 1 GB de datos, puede tardar hasta un minuto. Si tiene un conjunto de datos grande, debe usar particiones para mejorar el tiempo de carga. La carga de datos directamente desde Amazon S3 ofrece el mejor rendimiento.

  • Si tiene un conjunto de datos muy grande y tarda más de 15 minutos en consultar los datos para la previsualización de datos, se agotará el tiempo de espera de la solicitud. Las vistas previas de datos tienen un tiempo de espera de inactividad de 30 minutos. Para aliviar este problema, reduzca el tamaño del conjunto de datos que previsualizará.

  • De forma predeterminada, verá las primeras 50 columnas en la pestaña Previsualización de datos. Si las columnas no tienen valores de datos, recibirá un mensaje que indicará que no hay datos para mostrar. Puede aumentar el número de filas muestreadas o seleccionar columnas diferentes para ver los valores de los datos.

  • Actualmente, las previsualizaciones de datos no se soportan para orígenes de datos de streaming ni para orígenes de datos que utilizan conectores personalizados.

  • Los errores en un nodo afectan a todo el trabajo. Si un nodo tiene un error con las previsualizaciones de datos, el error aparecerá en todos los nodos hasta que lo corrija.

  • Si cambia un origen de datos para el trabajo, es posible que sea necesario actualizar los nodos secundarios de ese origen de datos para que coincidan con el nuevo esquema. Por ejemplo, si tiene un nodo ApplyMapping que modifica una columna y la columna no existe en el origen de datos de reemplazo, deberá actualizar el nodo de transformación ApplyMapping.

  • Si ve la pestaña Previsualización de datos de un nodo de transformación de consulta SQL y la consulta SQL utiliza un nombre de campo incorrecto, la pestaña Previsualización de datos muestra un error.

Generación de código de script

Cuando se utiliza el editor visual para crear un trabajo, el código ETL se genera de forma automática. AWS Glue Studio crea un script de trabajo funcional y completo y lo guarda en una ubicación de Amazon S3.

Hay dos formas de código generadas por AWS Glue Studio: la versión original o clásica y una versión más nueva y optimizada. De forma predeterminada, el nuevo generador de código se utiliza para crear el script de trabajo. Puede generar un script de trabajo mediante el generador de código clásico en la pestaña Script al seleccionar el botón de alternar Generar script clásico.

Algunas de las diferencias en la nueva versión del código generado incluyen:

  • Ya no se agregan bloques de comentarios grandes al script

  • Las estructuras de salida del código utilizan el nombre de nodo que especifica en el editor visual. En el script de clase, las estructuras de salida se denominan tan solo DataSource0, DataSource1, Transform0, Transform1, DataSink0, DataSink1 y así sucesivamente.

  • Los comandos largos se dividen en varias líneas para eliminar la necesidad de desplazarse por la página a fin de ver todo el comando.

Nuevas características en AWS Glue Studio requieren la nueva versión de generación de código y no funcionará con el script de código clásico. Se le pide que actualice estos trabajos cuando intente ejecutarlos.