Creación y ejecución de recetas de preparación de datos en un trabajo de AWS Glue de ETL visual
En este escenario, puede crear recetas de preparación de datos sin tener que crearlas primero en DataBrew. Antes de empezar a crear recetas, debe:
-
Tener una sesión de vista previa de datos activa en ejecución. Cuando la sesión de vista previa de datos esté LISTA, la opción Crear receta se activará y podrá empezar a crear o editar la receta.
-
Asegúrese de que la opción Importar automáticamente bibliotecas de Glue esté habilitada.
Para ello, seleccione el icono con forma de engranaje en el panel de vista previa de datos.
Creación de una receta de preparación de datos en AWS Glue Studio:
-
Agregue la transformación de la receta de preparación de datos a su lienzo de trabajo. La transformación debe estar conectada a un nodo principal del origen de datos. Al agregar el nodo de la receta de preparación de datos, el nodo se reiniciará con las bibliotecas adecuadas y verá que se está preparando el marco de datos.
-
Una vez que la sesión de vista previa de datos esté lista, los datos con los pasos aplicados anteriormente aparecerán en la parte inferior de la pantalla.
-
Elija Crear receta. Esto le permitirá empezar una nueva receta en AWS Glue Studio.
-
En el panel Transformar, situado a la derecha del lienzo de trabajo, ingrese un nombre para la receta de preparación de datos.
-
En el lado izquierdo, el lienzo se sustituirá por una vista de cuadrícula de los datos. A la derecha, el panel Transformar cambiará para mostrarle los pasos de la receta. Seleccione Agregar paso para agregar el primer paso a la receta.
-
En el panel Transformar, puede elegir ordenar, realizar una acción en la columna y filtrar los valores. Por ejemplo, elija Cambiar el nombre de la columna.
-
En el panel Transformar de la derecha, las opciones para cambiar el nombre de una columna permiten elegir la columna de origen a la que se va a cambiar el nombre e ingresar el nombre de la nueva columna. Una vez que lo haya hecho, elija Aplicar.
Puede previsualizar cada paso, deshacer un paso y reordenar los pasos, así como utilizar cualquiera de los iconos de acción, como Filtrar, Ordenar, Dividir, Combinar, etc. Al realizar acciones en la cuadrícula de datos, los pasos se agregan a la receta en el panel Transformar.
Si necesita hacer algún cambio, puede hacerlo en el panel de vista previa y así previsualizar el resultado de cada paso, deshacer un paso y reordenar los pasos. Por ejemplo:
-
Deshacer o rehacer un paso: para deshacer un paso, seleccione el icono de Deshacer. Puede repetir un paso seleccionando el icono de Rehacer.
-
Reordenar el paso: cuando reordene un paso, AWS Glue Studio validará cada paso y le avisará si el paso no es válido.
-
-
Cuando haya aplicado un paso, el panel Transformar le mostrará todos los pasos de la receta. Puede borrar todos los pasos para volver a empezar, agregar más pasos seleccionando el icono de agregar o elegir Finalizar la creación de la receta.
-
Seleccione Guardar en la parte superior derecha de la pantalla. Los pasos de la receta no se guardarán hasta que guarde el trabajo.