AWS Glue ETL - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS Glue ETL

AWS Glue ETL permite extraer datos de varias fuentes, transformarlos para que se adapten a las necesidades de su empresa y cargarlos en el destino que elija. Este servicio utiliza el motor Apache Spark para distribuir las cargas de trabajo de macrodatos entre los nodos de trabajo, lo que permite realizar transformaciones más rápidas con el procesamiento en memoria.

AWS Glue admite diversas fuentes de datos, incluidas Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB y Amazon Relational Database Service (Amazon RDS). Para obtener más información sobre las fuentes de datos compatibles, consulte Tipos y opciones de conexión para ETL en AWS Glue.

Creación en AWS Glue

AWS Glue proporciona varias formas de crear trabajos de ETL, según su experiencia y caso de uso:

Unidades de procesamiento de datos

AWS Glue usa unidades de procesamiento de datos (DPUs) para medir los recursos de cómputo asignados a un trabajo de ETL y calcular el costo. Cada DPU equivale a 4 vCPU y 16 GB de memoria. Las DPU deben asignarse a su AWS Glue trabajo en función de su complejidad y volumen de datos. Asignar la cantidad adecuada de DPU le permitirá equilibrar las necesidades de rendimiento con las limitaciones de costos.

AWS Glue proporciona varios tipos de trabajadores que están optimizados para diversas cargas de trabajo:

  • G.1X o G.2X (para la mayoría de las transformaciones, uniones y consultas de datos)

  • G.4X o G.8X (para transformaciones, agregaciones, uniones y consultas de datos más exigentes)

  • G.025X (para flujos de datos esporádicos y de bajo volumen)

  • Estándar (para AWS Glue las versiones 1.0 o anteriores; no se recomienda para versiones posteriores de) AWS Glue

Uso del intérprete de comandos de Python

Para un trabajo del intérprete de comandos de Python, puede usar 1 DPU para usar 16 GB de memoria o 0.0625 DPU para usar 1 GB de memoria. El shell de Python está diseñado para trabajos ETL básicos con conjuntos de datos pequeños o medianos (hasta aproximadamente 10 GB).

Comparación de los tipos de trabajadores

La siguiente tabla muestra los diferentes tipos de AWS Glue trabajadores para las cargas de trabajo por lotes, de streaming y de AWS Glue Studio ETL que utilizan el entorno Apache Spark.

G.1X

G.2X

G.4X

G.8X

G.025X

Estándar

vCPU

4

8

16

32

2

4

Memoria

16 GB

32 GB

64 GB

128 GB

4 GB

16 GB

Espacio en disco

64 GB

128 GB

256 GB

512 GB

64 GB

50 GB

Ejecutor por trabajo

1

1

1

1

2

DPU

1

2

4

8

0,25

1

No se recomienda el tipo de trabajador estándar para la AWS Glue versión 2.0 y posteriores. El tipo de trabajador G.025X solo está disponible para la transmisión de trabajos que utilicen la AWS Glue versión 3.0 o posterior.