Versiones de AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Versiones de AWS Glue

Puede configurar el parámetro de versión de AWS Glue al agregar o actualizar un trabajo. La versión de AWS Glue determina las versiones de Apache Spark y Python que admite AWS Glue. La versión de Python indica la versión admitida para trabajos de tipo Spark. En la siguiente tabla se muestran las versiones de AWS Glue disponibles, las versiones de Spark y Python correspondientes y otros cambios en la funcionalidad.

Versiones de AWS Glue

Versión de AWS Glue Versiones de entorno de tiempo de ejecución compatibles Cambios en la funcionalidad
AWS Glue4,0 Versiones del entorno Spark
  • Spark 3.3.0

  • Python 3.10

AWS Glue 4.0 es la versión más reciente de AWS Glue. Hay varias optimizaciones y actualizaciones integradas en esta versión de AWS Glue, como las siguientes:

  • Muchas actualizaciones de funcionalidad de Spark, de Spark 3.1 a Spark 3.3:

    • Varias mejoras de funcionalidad cuando se combina con Pandas. Para obtener más información, consulte What's New in Spark 3.3 (Novedades de Spark 3.3).

    • Optimizaciones adicionales desarrolladas en Amazon EMR.

    • Actualización del sistema de archivos EMR (EMRFS) 2.53.

  • Migración a Log4j 2 desde Log4j 1.x

  • Varias actualizaciones de módulos de Python desde AWS Glue 3.0, como una versión actualizada de Boto.

  • Actualización de varios conectores, incluido el conector predeterminado de Amazon Redshift. Consulte Apéndice C: actualizaciones del conector.

  • Actualización de varios controladores JDBC. Consulte Apéndice B: actualizaciones de controladores JDBC.

  • Actualización con un nuevo conector de Amazon Redshift y un controlador JDBC.

  • Compatibilidad nativa con marcos de lagos de datos de código abierto con Apache Hudi, Delta Lake y Apache Iceberg.

  • Compatibilidad nativa con el complemento Cloud Shuffle Storage basado en Amazon S3 (un complemento de Apache Spark) a fin de usar Amazon S3 para la mezcla aleatoria y la capacidad de almacenamiento elástica.

Limitaciones

A continuación, se indican las limitaciones con AWS Glue 4.0:

  • Las transformaciones de información de identificación personal (PII) y machine learning de AWS Glue aún no están disponibles en AWS Glue 4.0.

Para obtener más información sobre cómo migrar a la versión 4.0 de AWS Glue, consulte Migración de trabajos de AWS Glue para Spark a la versión 4.0 de AWS Glue.

Versiones del entorno Ray
  • Ray 2.4.0

    Python 3.9

Cree y ejecute aplicaciones Python distribuidas con AWS Glue for Ray.

Limitaciones de los trabajos de Ray en la versión 4.0 AWS Glue

  • AWS Glue Las sesiones interactivas de Ray permanecen en la versión preliminar de esta versión.

  • AWS Glue la integración de for Ray con Amazon VPC no está disponible actualmente. No se AWS podrá acceder a los recursos de una VPC sin una ruta pública. Para obtener más información sobre el uso AWS Glue con Amazon VPC, consulte. AWS Glue y puntos de enlace de la VPC de interfaz (AWS PrivateLink)

  • AWS Glue for Ray está disponible en EE.UU. Este (Norte de Virginia), EE.UU. Este (Ohio), EE.UU. Oeste (Oregón), Asia-Pacífico (Tokio) y Europa (Irlanda).

AWS Glue3.0
  • Spark 3.1.1

  • Python 3.7

Además de la actualización del motor Spark a 3.0, esta versión de AWS Glue ofrece optimizaciones y actualizaciones integradas, como por ejemplo:

  • Construye la biblioteca de ETL de AWS Glue respecto de Spark 3.0, que es una mejora importante para Spark.

  • AWS Glue 3.0 soporta los trabajos de streaming.

  • Incluye nuevas optimizaciones de tiempo de ejecución de AWS Glue Spark para rendimiento y fiabilidad:

    • Procesamiento columnar en memoria más rápido basado en Apache Arrow para leer datos CSV.

    • Ejecución basada en SIMD para lecturas vectorizadas con datos CSV.

    • La actualización de Spark también incluye optimizaciones adicionales desarrolladas en Amazon EMR.

    • EMRFS actualizado de 2.38 a 2.46, lo que permite nuevas funciones y correcciones de errores para el acceso a Amazon S3.

  • Se actualizaron varias dependencias necesarias para la nueva versión de Spark. Consulte Apéndice A: actualizaciones de dependencias importantes.

  • Controladores JDBC actualizados para nuestros orígenes de datos soportados de forma nativa. Consulte Apéndice B: actualizaciones de controladores JDBC.

Limitaciones

A continuación se indican las limitaciones con AWS Glue 3.0:

  • Las transformaciones de machine learning de AWS Glue aún no están disponibles en AWS Glue 3.0.

  • Algunos conectores de Spark personalizados no funcionan con AWS Glue 3.0 si dependen de Spark 2.4 y no son compatibles con Spark 3.1.

Para obtener más información sobre cómo migrar a AWS Glue versión 3.0, consulte Migración de trabajos de AWS Glue para Spark a la versión 3.0 de AWS Glue.

AWS Glue2.0 (obsoleto, fin del soporte)
  • Spark 2.4.3

  • Python 3.7

Además de las características proporcionadas en la versión 1.0 de AWS Glue, la versión 2.0 de AWS Glue también ofrece lo siguiente:

  • Una infraestructura actualizada para ejecutar trabajos de ETL de Apache Spark en AWS Glue con tiempos de inicio reducidos.

  • El registro predeterminado es ahora en tiempo real, con flujos separados para controladores y ejecutores, y salidas y errores.

  • Soporte para especificar módulos de Python adicionales o diferentes versiones al nivel de trabajo.

nota

La versión 2.0 de AWS Glue difiere de la versión 1.0 de AWS Glue para algunas dependencias y versiones debido a cambios arquitectónicos subyacentes. Valide los trabajos de AWS Glue antes de migrar a versiones de AWS Glue posteriores.

Para obtener más información acerca de las características y limitaciones de la versión 2.0 de AWS Glue, consulte Ejecución de trabajos de ETL de Spark con tiempos de inicio reducidos.

AWS Glue 1.0 (obsoleto, fin del soporte)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

Puede mantener marcadores de trabajo para formatos Parquet y ORC en trabajos de ETL de AWS Glue (con AWS Glue versión 1.0). Anteriormente, solo podía marcar formatos de origen de Amazon S3 comunes, como JSON, CSV, Apache Avro y XML en trabajos de ETL de AWS Glue.

Si configura opciones de formato para las entradas y salidas de ETL, puede especificar que se utilice el formato del lector/escritor de Apache Avro 1.8 para poder leer y escribir tipos lógicos de Avro (con AWS Glue versión 1.0). Anteriormente, solo se admitía el formato del lector/escritor de la versión 1.7 de Avro.

El tipo de conexión de DynamoDB admite una opción de escritura (con la versión 1.0 de AWS Glue).

Limitaciones

A continuación, se indican las limitaciones con AWS Glue 1.0:

  • Las versiones 0.9 y 1.0 de AWS Glue no estarán disponibles en Asia Pacífico (Yakarta) (ap-southeast-3), Oriente Medio (EAU) (me-central-1) ni en otras regiones nuevas en el futuro.

AWS Glue 0.9 (obsoleto, fin del soporte)
  • Spark 2.2.1

  • Python 2.7

Los trabajos que se crearon sin especificar una versión de AWS Glue se han establecido de forma predeterminada en AWS Glue 0.9.

Limitaciones

A continuación, se indican las limitaciones con AWS Glue 0.9:

  • Las versiones 0.9 y 1.0 de AWS Glue no estarán disponibles en Asia Pacífico (Yakarta) (ap-southeast-3), Oriente Medio (EAU) (me-central-1) ni en otras regiones nuevas en el futuro.