Nodos de transformación de datos administrados por AWS Glue

Transformación de datos con transformaciones administradas de AWS Glue

AWS Glue Studio ofrece dos tipos de transformaciones:

Transformaciones nativas de AWS Glue: disponibles para todos los usuarios y administradas por AWS Glue.
Transformaciones visuales personalizadas: le permiten cargar sus propias transformaciones para usarlas en AWS Glue Studio

Nodos de transformación de datos administrados por AWS Glue

AWS Glue Studio proporciona un conjunto de transformaciones integradas que puede utilizar para procesar los datos. Sus datos pasan de un nodo en el diagrama de trabajo a otro en una estructura de datos denominada DynamicFrame, que es una extensión de un DataFrame de Apache Spark SQL.

En el diagrama rellenado previamente para un trabajo, entre el origen de datos y los nodos de destino de datos se encuentra el nodo de transformación Cambiar esquema. Puede configurar este nodo de transformación para modificar los datos o puede utilizar transformaciones adicionales.

AWS Glue Studio dispone de las siguientes transformaciones integradas:

ChangeSchema: asigne claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos. Puede cambiar el nombre de las claves, modificar los tipos de datos de las claves y elegir las claves que desea descartar del conjunto de datos.
SelectFields (Seleccionar campos): elija las claves de propiedad de datos que desee conservar.
DropFields (Descartar campos): elija las claves de propiedad de datos que desee descartar.
RenameField (Renombrar campos): cambie el nombre de una sola clave de propiedad de datos.
Spigot: escriba muestras de los datos en un bucket de Amazon S3.
Join (Combinar): combine dos conjuntos de datos en uno mediante una frase de comparación en las claves de propiedad de datos especificadas. Puede utilizar combinaciones interna, externa, izquierda, derecha, semicombinación izquierda y anticombinación izquierda.
Unión: combine filas de más de un origen de datos que tengan el mismo esquema.
SplitFields (Dividir campos): divida claves de propiedad de datos en dos DynamicFrames. La salida es una recopilación de DynamicFrames: uno con las claves de propiedad de datos seleccionadas y el otro con las claves de propiedad de datos restantes.
SelectFromCollection (Seleccionar desde recopilación): elija un DynamicFrame de una recopilación de DynamicFrames. La salida es el DynamicFrame seleccionado.
FillMissingValues (Completar valores faltantes): para localizar registros en el conjunto de datos que tienen valores faltantes y agregar un nuevo campo con un valor sugerido determinado por imputación
Filter (Filtro): divida un conjunto de datos en dos, en función de una condición de filtro.
Eliminar campos nulos: elimina columnas del conjunto de datos si todos los valores de la columna son ‘nulos’.
Eliminar duplicados: elimina las filas del origen de datos. Para ello, elija hacer coincidir filas enteras o especificar claves.
SQL: ingrese el código SparkSQL en un campo de entrada de texto para utilizar una consulta SQL a fin de transformar los datos. La salida es un único DynamicFrame.
Agregación: realiza un cálculo (como el promedio, la suma, el mínimo o el máximo) en los campos y filas seleccionados y crea un nuevo campo con los valores calculados recientes.
Aplanar: extrae los campos dentro de las estructuras en los campos de nivel superior.
UUID: agrega una columna con un Identificador único universal (UUID) para cada fila.
Identificador: agrega una columna con un identificador numérico para cada fila.
Para agregar una marca temporal: convierta una columna al tipo de marca temporal.
Formato de marca temporal: convierte una columna de marca temporal en una cadena formateada.
Transformación de Enrutador condicional: aplique múltiples condiciones a los datos entrantes. Cada fila de los datos entrantes se evalúa mediante una condición de filtro de grupo y se procesa en su grupo correspondiente.
Transformación de concatenar columnas: cree una nueva columna de cadena. Para ello, utilice los valores de otras columnas con un espaciador opcional.
Transformación de cadena dividida: divida una cadena en una matriz de tokens. Para ello, utilice una expresión regular para definir cómo se realiza la división.
Transformación de matriz a columnas: extraiga algunos o todos los elementos de una columna de tipo matriz en nuevas columnas.
Agregar la transformación de marca de tiempo actual: marque las filas con la hora a la que se procesaron los datos. Esto resulta útil para fines de auditoría o para realizar un seguimiento de la latencia en la canalización de datos.
Transformación de filas dinámicas en columnas: agregue una columna numérica. Para ello, rote los valores únicos en las columnas seleccionadas para convertirlas en columnas nuevas. Si se seleccionan varias columnas, los valores se concatenan para dar nombre a las nuevas columnas.
Transformación de columnas a filas: convierta columnas en valores de nuevas columnas. Para ello, genere una fila para cada valor único.
Transformación de procesamiento de equilibrio automático: redistribuya mejor los datos entre los trabajadores. Esto es útil cuando los datos están desequilibrados o cuando provienen del origen y no permiten un procesamiento paralelo suficiente.
Transformación de columnas derivadas: defina una nueva columna basándose en una fórmula matemática o expresión SQL en la que pueda utilizar otras columnas de los datos, así como constantes y literales.
Transformación de búsqueda: agregue columnas de una tabla de catálogo definida cuando las claves coincidan con las columnas de búsqueda definidas en los datos.
Transformación de matriz o mapa en filas: extraiga valores de una estructura anidada en filas individuales que sean más fáciles de manipular.
Transformación de coincidencia de registros: invoque una transformación de clasificación de datos de machine learning de Record Matching existente.
Transformación de eliminar filas nulas: elimine del conjunto de datos las filas que tengan todas las columnas nulas o vacías.
Transformación de analizar columnas JSON: analice una columna de cadena que contenga datos de JSON y conviértala en una columna de estructura o matriz, en función de si el JSON es un objeto o una matriz, respectivamente.
Transformación de extraer la ruta JSON: extraiga nuevas columnas de una columna de cadena JSON.
Extraer fragmentos de cadenas de una expresión regular: extraiga fragmentos de cadenas mediante una expresión regular y cree una nueva columna a partir de ella o varias columnas si utiliza grupos de expresiones regulares.
Custom transform (Transformación personalizada): ingrese un código en un campo de entrada de texto para utilizar transformaciones personalizadas. La salida es una recopilación de DynamicFrames.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Características del editor de trabajo

Uso de una receta de preparación de datos en AWS Glue Studio