Built-In Transforms (Transformaciones integradas) - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Built-In Transforms (Transformaciones integradas)

AWS Glue proporciona un conjunto de transformaciones integradas que puede utilizar para procesar los datos. Puede llamar a estas transformaciones desde el script de ETL. Los datos pasan de transformación en transformación en una estructura de datos denominada DynamicFrame, que es una extensión de DataFrame de Apache Spark SQL. DynamicFrame contiene sus datos y usted hace referencia a su esquema para procesar los datos. Para obtener más información sobre estas transformaciones, consulte AWSReferencia de transformaciones de PySpark de Glue.

AWS Glue ofrece las siguientes transformaciones integradas:

ApplyMapping

Mapea las columnas de origen y los tipos de datos de un elemento DynamicFrame con las columnas de destino y los tipos de datos de un elemento DynamicFrame devuelto. Deberá especificar el argumento de mapeo, que es una lista de tuplas que contienen la columna de origen, el tipo de origen, la columna de destino y el tipo de destino.

DropFields

Elimina un campo de un elemento DynamicFrame. El valor DynamicFrame de salida contiene menos campos que la entrada. Solo debe especificar qué campos deben eliminarse utilizando el argumento paths. El argumento paths apunta a un campo de la estructura de árbol del esquema usando la notación de punto. Por ejemplo, para eliminar el campo B, que depende del campo A del árbol, escriba A.B para la ruta.

DropNullFields

Elimina los campos null de un elemento DynamicFrame. El elemento DynamicFrame de salida no contiene los campos de tipo nulo del esquema.

Filtro

Selecciona registros de un elemento DynamicFrame y devuelve un elemento DynamicFrame filtrado. Solo debe especificar una función, como, por ejemplo, una función Lambda, que determine si se emite un registro (la función devuelve true) o no (la función devuelve falso).

Join

Combinación de igualdad de dos DynamicFrames. Debe especificar los campos clave del esquema de cada trama para comparar su igualdad. El elemento DynamicFrame de salida contiene las filas en las que las claves coinciden.

Map

Aplica una función a los registros de un elemento DynamicFrame y devuelve un DynamicFrame transformado. La función suministrada se aplica a cada registro de entrada y lo transforma en un registro de salida. La transformación de mapeo puede agregar o eliminar campos y realizar búsquedas mediante una operación de API externa. Si se produce una excepción, el procesamiento continúa y el registro se marca como error.

MapToCollection

Aplica una transformación a cada DynamicFrame de un elemento DynamicFrameCollection.

Relationalize

Convierte un elemento DynamicFrame en un forma relacional (filas y columnas). Según el esquema de los datos, esta transformación aplana las estructuras anidadas y crea DynamicFrames a partir de estructuras de matrices. La salida es una recopilación de DynamicFrames que puede dar como resultado datos escritos en varias tablas.

RenameField

Cambia el nombre de un campo de un elemento DynamicFrame. La salida es un elemento DynamicFrame que incluye el campo especificado con un nuevo nombre. Debe proporcionar el nuevo nombre y la ruta en el esquema del campo cuyo nombre debe cambiarse.

ResolveChoice

Utilice ResolveChoice para especificar cómo debe controlarse una columna cuando esta contiene valores de varios tipos. Puede optar por convertir la columna en un único tipo de datos, descartar uno o varios tipos o conservar todos los tipos en columnas independientes o una estructura. Puede seleccionar una política de resolución diferente para cada columna o especificar una política global que se aplique a todas las columnas.

SelectFields

Selecciona qué campos de un elemento DynamicFrame conservar. La salida es un elemento DynamicFrame que solo contiene los campos seleccionados. Debe proporcionar las rutas en el esquema a los campos que desea conservar.

SelectFromCollection

Selecciona un DynamicFrame de una recopilación de DynamicFrames. La salida es el DynamicFrame seleccionado. Debe proporcionar un índice al elemento DynamicFrame que se seleccionará.

Spigot

Escribe datos de muestra a partir de un elemento DynamicFrame. La salida es un archivo JSON en Amazon S3. Solo debe especificar la ubicación de Amazon S3 y cómo muestrear laDynamicFrame. El muestreo puede ser un número especificado de registros del principio del archivo o un factor de probabilidad utilizado para elegir los registros que se escribirán.

SplitFields

Divide los campos en dos DynamicFrames. La salida es una colección de DynamicFrames: uno con los campos seleccionados y el otro con los campos restantes. Debe proporcionar las rutas en el esquema a los campos seleccionados.

SplitRows

Divide filas en un DynamicFrame en función de un predicado. La salida es una colección de dos DynamicFrames: uno con las filas seleccionadas y el otro con las filas restantes. Debe proporcionar la comparación en función de los campos del esquema. Por ejemplo, A > 4.

Unbox

Realiza la conversión unbox de un campo de cadena desde un elemento DynamicFrame. La salida es un elemento DynamicFrame que incluye el campo de la cadena seleccionada con el nuevo formato. El campo de cadena se puede analizar y sustituir por varios campos. Debe proporcionar una ruta en el esquema al campo de cadena cuyo formato se va a cambiar y su tipo de formato actual. Por ejemplo, puede tener un archivo CSV que tenga un campo que está en formato JSON {"a": 3, "b": "foo", "c": 1.2}. Esta transformación puede cambiar el formato de JSON en tres campos: int, string y double.

Para obtener ejemplos sobre el uso de estas transformaciones en un script de trabajo, consulte laAWSBlog deCreación de unAWS GlueCanalización ETL localmente sinAWSaccount.