Creación en AWS Glue Unidades de procesamiento de datos Uso del intérprete de comandos de Python Comparación de los tipos de trabajadores

AWS Glue ETL

AWS Glue ETL permite extraer datos de diversas fuentes, transformarlos para adaptarlos a las necesidades de su empresa y cargarlos en el destino que elija. Este servicio utiliza el motor Apache Spark para distribuir las cargas de trabajo de macrodatos entre los nodos de trabajo, lo que permite realizar transformaciones más rápidas con el procesamiento en memoria.

AWS Glue admite diversas fuentes de datos, incluidas Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB y Amazon Relational Database Service (Amazon RDS). Para obtener más información sobre las fuentes de datos compatibles, consulte Tipos y opciones de conexión para ETL en AWS Glue.

Creación en AWS Glue

AWS Glue proporciona varias formas de crear trabajos de ETL, según su experiencia y caso de uso:

Los trabajos del intérprete de comandos de Python están diseñados para ejecutar scripts ETL básicos escritos en Python. Estos trabajos se ejecutan en una sola máquina y son más adecuados para conjuntos de datos pequeños o medianos.
Los trabajos de Apache Spark se pueden escribir en Python o Scala. Estos trabajos utilizan Spark para escalar horizontalmente las cargas de trabajo en muchos nodos de trabajo, de modo que puedan gestionar grandes conjuntos de datos y transformaciones complejas.
AWS Glue streaming ETL utiliza el motor de streaming estructurado Apache Spark para transformar los datos de streaming en trabajos de microlotes utilizando una semántica de exactamente una sola vez. Puede crear trabajos AWS Glue de streaming en Python o Scala.
AWS Glue Studioes una interfaz de boxes-and-arrows estilo visual que permite que los desarrolladores que se inicien en la programación con Apache Spark puedan acceder al ETL basado en Spark.

Unidades de procesamiento de datos

AWS Glue usa unidades de procesamiento de datos (DPUs) para medir los recursos de cómputo asignados a un trabajo de ETL y calcular el costo. Cada DPU equivale a 4 V CPUs y 16 GB de memoria. DPUsdebe asignarse a su AWS Glue trabajo en función de su complejidad y volumen de datos. Asignar la cantidad adecuada le DPUs permitirá equilibrar las necesidades de rendimiento con las limitaciones de costos.

AWS Glue proporciona varios tipos de trabajadores que están optimizados para diversas cargas de trabajo:

G.1X o G.2X (para la mayoría de las transformaciones, uniones y consultas de datos)
G.4X o G.8X (para transformaciones, agregaciones, uniones y consultas de datos más exigentes)
G.025X (para flujos de datos esporádicos y de bajo volumen)
Estándar (para AWS Glue las versiones 1.0 o anteriores; no se recomienda para versiones posteriores de) AWS Glue

Uso del intérprete de comandos de Python

Para un trabajo del intérprete de comandos de Python, puede usar 1 DPU para usar 16 GB de memoria o 0.0625 DPU para usar 1 GB de memoria. El shell de Python está diseñado para trabajos ETL básicos con conjuntos de datos pequeños o medianos (hasta aproximadamente 10 GB).

Comparación de los tipos de trabajadores

La siguiente tabla muestra los diferentes tipos de AWS Glue trabajadores para las cargas de trabajo por lotes, de streaming y de AWS Glue Studio ETL que utilizan el entorno Apache Spark.

	G.1X	G.2X	G.4X	G.8X	G.025X	Estándar
vCPU	4	8	16	32	2	4
Memoria	16 GB	32 GB	64 GB	128 GB	4 GB	16 GB
Espacio en disco	64 GB	128 GB	256 GB	512 GB	64 GB	50 GB
Ejecutor por trabajo	1	1	1	1	1	2
DPU	1	2	4	8	0,25	1

No se recomienda el tipo de trabajador estándar para la AWS Glue versión 2.0 y posteriores. El tipo de trabajador G.025X solo está disponible para la transmisión de trabajos que utilicen la AWS Glue versión 3.0 o posterior.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Introducción

Data Catalog