Historial de documentación para AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Historial de documentación para AWS Glue

CambioDescripciónFecha

Integración de datos de Amazon Q en AWS Glue (versión preliminar)

La integración de datos de Amazon Q en AWS Glue es una nueva capacidad de IA generativa de AWS Glue que permite a los ingenieros de datos y a los desarrolladores de ETL crear trabajos de integración de datos usando un lenguaje natural. Los ingenieros y desarrolladores pueden pedir a Q que cree trabajos, solucione problemas y responda preguntas sobre AWS Glue y la integración de datos. Para obtener más información, consulte Integración de datos de Amazon Q en AWS Glue. Esta característica incluye una actualización de la política gestionada de AwsGlueSessionUserRestrictedNotebookPolicy AWS. Para obtener más información, consulte las actualizaciones de AWS Glue a las políticas administradas de AWS.

30 de enero de 2024

Actualización de la documentación para la transmisión de AWS Glue

Se agregó un nuevo capítulo con contenido nuevo y reorganizado para AWS Glue Streaming. Dicho contenido describe cómo funciona la transmisión con AWS Glue, las características del procesamiento de datos en tiempo real y cómo supervisar los trabajos de transmisión. Para obtener más información, consulte Transmisión de AWS Glue.

27 de diciembre de 2023

Soporte para el uso de una detección de datos confidenciales detallada

La transformación Detectar datos confidenciales ofrece la capacidad de detectar, enmascarar o eliminar entidades definidas por el usuario o predefinidas por AWS Glue. Las acciones detalladas permiten además aplicar una acción específica por entidad. Para obtener más información, consulte Uso de una detección de datos confidenciales detallada.

26 de noviembre de 2023

Soporte para la monitorización de trabajos con métricas de observabilidad de AWS Glue

Use las métricas de observabilidad de AWS Glue para obtener información sobre lo que ocurre dentro de sus trabajos de AWS Glue for Apache Spark y así mejorar la clasificación y el análisis de los problemas. Para obtener más información, consulte Monitoreo con las métricas de observabilidad de AWS Glue.

26 de noviembre de 2023

Soporte para la detección de anomalías en calidad de los datos de AWS Glue

La detección de anomalías en la calidad de los datos de AWS Glue aplica algoritmos de machine learning (ML) a las estadísticas de datos a lo largo del tiempo para detectar patrones anormales y problemas ocultos de calidad de los datos que son difíciles de detectar con reglas. Para obtener más información, consulte Detección de anomalías de calidad de datos de AWS Glue.

26 de noviembre de 2023

Actualización del comportamiento de registro predeterminado de la interfaz de usuario de Spark

Los trabajos de Spark que generen registros de la interfaz de usuario de Spark ahora se escribirán con un patrón de nombre de archivo diferente, a fin de que sean compatibles con la interfaz de usuario de Spark en la consola de AWS Glue. Esto no cambia el comportamiento del CloudWatch registro. Puede volver al comportamiento anterior si actualiza la configuración de su trabajo. Para obtener más información, consulte Monitorización de trabajos mediante la interfaz de usuario web de Apache Spark.

17 de noviembre de 2023

Soporte para nuevas fuentes de datos en AWS Glue para Spark

Las conexiones a Amazon OpenSearch Service, Azure SQL, Azure Cosmos for NoSQL, SAP HANA, Teradata Vantage y Vertica ahora se admiten de forma nativa desde dentro. AWS Glue Además, las conexiones a estos orígenes de datos, junto con MongoDB, ahora están disponibles para su uso en el editor visual de AWS Glue Studio. Para obtener más información, consulte Tipos y opciones de conexión para ETL en AWS Glue para Spark, para conocer más sobre el soporte para AWS Glue para Spark, y Añadir una conexión AWS Glue para conocer más sobre su uso en el editor visual de AWS Glue Studio.

17 de noviembre de 2023

Soporte para generar estadísticas de columnas

Puede calcular estadísticas a nivel de columna para tablas AWS Glue Data Catalog en formatos de datos como Parquet, ORC, JSON, ION, CSV y XML sin necesidad de configurar canalizaciones de datos adicionales. Para obtener más información, consulte Trabajar con las estadísticas de las columnas.

16 de noviembre de 2023

Soporte para la compactación de datos para tablas Iceberg

Para mejorar el rendimiento de lectura de los servicios de análisis de AWS, como Amazon Athena, Amazon EMR, y los trabajos de ETL de AWS Glue, el Catálogo de datos proporciona una compactación gestionada (un proceso que compacta objetos pequeños de Amazon S3 para convertirlos en objetos más grandes) para las tablas Iceberg del Catálogo de datos. Para obtener más información, consulte Optimización de las tablas de Iceberg.

13 de noviembre de 2023

Actualizar el comportamiento de espera al ejecutar un trabajo

Las ejecuciones de tareas de intérprete de comandos estándar de Spark y Python ahora pasarán a WAITING en determinadas situaciones, al contrario de pasar inmediatamente a FAILED. Para obtener más información, consulte Estados de ejecución de trabajos de AWS Glue.

8 de noviembre de 2023

Guía del usuario de AWS Glue Studio consolidada en la guía para desarrolladores de AWS Glue

La guía del usuario de AWS Glue Studio se ha trasladado a la guía para desarrolladores para crear una guía de usuario única y unificada para AWS Glue Studio, la consola de AWS Glue y el acceso de AWS Glue Studio mediante programación.

25 de octubre de 2023

Actualización de la política administrada AWSGlueServiceNotebookRole AWS

Se agregó información sobre una actualización menor de la política AWSGlueServiceNotebookRole AWS administrada. Para obtener más información, consulte Actualizaciones de AWS Glue a las políticas administradas de AWS

9 de octubre de 2023

AWS Glue Studio admite cinco nuevas transformaciones integradas

AWS Glue Studio admite las siguientes cinco transformaciones integradas nuevas: la coincidencia de registros, la eliminación de filas nulas, la columna Parse JSON, la ruta de extracción de JSON y el extractor de expresiones regulares. Para obtener más información, consulte Edición de nodos de transformación de datos administrados por AWS Glue.

11 de agosto de 2023

Actualización de la política AWSGlueServiceRole AWS gestionada

Se agregó información sobre una actualización menor de la política AWSGlueServiceRole AWS administrada. Para obtener más información, consulte Actualizaciones de AWS Glue a las políticas administradas de AWS

4 de agosto de 2023

Compatibilidad para el rastreo de tablas de Apache Hudi

Se agregó información sobre cómo usar AWS Glue para rastrear tablas en buckets de Amazon S3 y cómo registrar las tablas de Hudi en AWS Glue Data Catalog. Para obtener más información, consulte ¿Qué almacenes de datos puedo rastrear? y Propiedades del rastreador.

21 de julio de 2023

Actualización de la política AWSGlueConsoleFullAccess AWS gestionada

Se agregó información sobre una actualización menor de la política AWSGlueConsoleFullAccess AWS administrada. Para obtener más información, consulte Actualizaciones de AWS Glue a las políticas administradas de AWS

14 de julio de 2023

Compatibilidad para el rastreo de tablas de Apache Iceberg

Se agregó información sobre cómo usar AWS Glue para rastrear tablas de Iceberg en buckets de Amazon S3 y cómo registrar las tablas de Iceberg en AWS Glue Data Catalog. Para obtener más información, consulte ¿Qué almacenes de datos puedo rastrear? y Propiedades del rastreador.

7 de julio de 2023

Compatibilidad para AWS Glue para Ray

Se agregó información sobre AWS Glue para Ray, un nuevo motor que puede respaldar trabajos de AWS Glue. Se reorganizó el contenido existente de AWS Glue con Spark para eliminar la ambigüedad.

30 de mayo de 2023

Compatibilidad para Calidad de datos de AWS Glue (GA)

Calidad de datos de AWS Glue se encuentra disponible para el público en general. AWS Glue lo ayuda a evaluar y supervisar la calidad de los datos. Para obtener información sobre cómo utilizar Calidad de los datos de AWS Glue con el Catálogo de datos, consulte Calidad de datos de AWS Glue. Para obtener más información sobre Calidad de datos de AWS Glue para AWS Glue Studio, consulte Evaluación de la calidad de los datos con AWS Glue Studio.

24 de mayo de 2023

Compatibilidad para tipos de trabajos más grandes para trabajos de Apache Spark

Ya se encuentra disponible la asistencia para los tipos de trabajo de G.4X y G.8X para los trabajos de Apache Spark. Estos tipos de trabajos son adecuados para los trabajos cuyas cargas de trabajo contienen las transformaciones, agregaciones, combinaciones y consultas más exigentes. Para obtener más información, consulte Agregar trabajos en AWS Glue.

8 de mayo de 2023

Compatibilidad para crear índices de particiones cuando se rastrean tablas

Se agregó información sobre cómo los rastreadores admiten la creación de índices de partición para las tablas que detecta el rastreador. Para obtener más información, consulte Establecimiento de opciones de configuración de rastreadores.

24 de abril de 2023

Compatibilidad para métricas de uso de recursos

Se agregó información sobre la visualización del uso de recursos del servicio y la configuración de alarmas en Amazon CloudWatch. Para obtener más información, consulte AWS Glue resource monitoring.

7 de abril de 2023

Actualización de la política AWSGlueConsoleFullAccess AWS gestionada

Se agregó información sobre una actualización menor de la política AWSGlueConsoleFullAccess AWS administrada. Para obtener más información, consulte Actualizaciones de AWS Glue a las políticas administradas de AWS

28 de marzo de 2023

Se agregó una guía para utilizar AWS Glue con un SDK de AWS con ejemplos

La Guía para desarrolladores de AWS Glue incluye dos secciones nuevas que proporcionan información para utilizar AWS Glue con un SDK de AWS. Para obtener más información, consulte Uso de AWS Glue con un SDK de AWS y Ejemplos de código para AWS Glue con SDK de AWS.

23 de febrero de 2023

Actualización de la documentación para IAM con AWS Glue

Se reorganizó y se agregó información sobre el uso de IAM con AWS Glue. Para obtener más información, consulte Administración de identidad y acceso para AWS Glue.

15 de febrero de 2023

Soporte para la ejecución de trabajos de ETL de streaming en la versión 4.0 de AWS Glue

Se agregó información sobre la compatibilidad para ejecutar trabajos de ETL de streaming en la versión 4.0 de Glue y sobre las nuevas opciones para conectarse a un clúster de Kafka o a un clúster de Amazon Managed Streaming para Apache Kafka y Amazon Kinesis Data Streams. Para obtener más información, consulte Agregar trabajos de ETL de streaming en AWS Glue y Tipos de conexión y opciones para ETL en AWS Glue.

8 de febrero de 2023

Compatibilidad con el rastreo de orígenes de datos de MongoDB Atlas

Se agregó información sobre el uso de AWS Glue para rastrear los orígenes de datos de MongoDB Atlas. Para obtener más información, consulta ¿Qué almacenes de datos puedo rastrear? , propiedades de conexión de MongoDB y MongoDB Atlas y Uso de una conexión MongoDB o MongoDB Atlas.

6 de febrero de 2023

Compatibilidad con el rastreo de tablas de Delta Lake mediante un conector nativo de Delta Lake

Se agregó información sobre el uso de AWS Glue para rastrear tablas de Delta Lake mediante un conector nativo de Delta Lake. Esta característica permite usar motores de consulta de AWS para consultar directamente el registro de transacciones de Delta y usar características como viaje en el tiempo y garantías ACID, y sincronizar los metadatos de Delta Lake de los archivos de transacciones de Amazon S3 con el catálogo de datos para habilitar los permisos de columna en sus consultas en Lake Formation. Para obtener más información, consulte Cómo especificar opciones de configuración para un almacén de datos de Delta Lake y Consulta de tablas de Delta Lake.

15 de diciembre de 2022

Compatibilidad con Calidad de datos de AWS Glue (versión preliminar)

Ya está disponible la compatibilidad con Calidad de datos de AWS Glue (versión preliminar). AWS Glue Calidad de datos ayuda a evaluar y supervisar la calidad de los datos cuando utiliza la versión 3.0 de AWS Glue. Para obtener información sobre cómo utilizar Calidad de los datos de AWS Glue con el Catálogo de datos, consulte Calidad de los datos de AWS Glue (versión preliminar). Para obtener más información sobre Calidad de datos de AWS Glue para AWS Glue Studio, consulte Evaluación de la calidad de los datos con AWS Glue Studio.

30 de noviembre de 2022

Compatibilidad con un nuevo conector de Spark para Amazon Redshift con nuevas características y mejoras de rendimiento

Ya hay compatibilidad con un nuevo conector de Spark para Amazon Redshift con un nuevo controlador de JDBC que se puede utilizar con tareas de ETL de AWS Glue para crear aplicaciones de Apache Spark que lean datos desde Amazon Redshift y escriban en este como parte de las canalizaciones de ingesta y transformación de datos. Para más información, consulte Movimiento de datos desde y hacia Amazon Redshift.

29 de noviembre de 2022

Compatibilidad con la versión 4.0 de AWS Glue.

Se agregó información acerca de la compatibilidad con la versión 4.0 de AWS Glue. Las características incluyen la compatibilidad nativa para marcos de lagos de datos abiertos con Apache Hudi, Delta Lake y Apache Iceberg, y la compatibilidad nativa con el complemento Cloud Shuffle Storage basado en Amazon S3 (un complemento de Apache Spark) para utilizar Amazon S3 para una capacidad de almacenamiento aleatoria y elástica. Para obtener más información, consulte las Notas de la versión de AWS Glue y Migración de trabajos de AWS Glue a la versión 4.0 de AWS Glue.

28 de noviembre de 2022

AWS Glue Studio ahora ofrece transformaciones visuales personalizadas

Las transformaciones visuales personalizadas permiten a los clientes definir, reutilizar y compartir la lógica de ETL específica de la empresa entre sus equipos. Para obtener más información, consulte Custom visual transforms (Transformaciones visuales personalizadas).

28 de noviembre de 2022

Compatibilidad con el uso del rastreador de AWS Glue para publicar metadatos de los almacenes de datos de JDBC

Ya está disponible la compatibilidad con el uso del rastreador de AWS Glue para publicar metadatos, como comentarios y tipos sin procesar, en el catálogo de datos de los almacenes de datos de JDBC. Para obtener más información, consulte los parámetros establecidos en las tablas del catálogo de datos por rastreador, las propiedades del rastreador y JdbcTarget la estructura del rastreador.

18 de noviembre de 2022

Compatibilidad con el rastreo de almacenes de datos de Snowflake

Ahora hay compatibilidad con el uso de AWS Glue para rastrear tablas y vistas de Snowflake y publicar los metadatos en Catálogo de datos como una entrada de tabla. En el caso de las tablas externas de Snowflake en Amazon S3, el rastreador también rastrea la ubicación de Amazon S3 y el tipo de formato de archivo de la tabla externa y los rellena como parámetros de la tabla. Para más información, consulte ¿Qué almacenes de datos puedo rastrear?, Propiedades de las conexiones de AWS Glue y Parámetros establecidos en las tablas del Catálogo de datos por el rastreador.

18 de noviembre de 2022

Compatibilidad con la mejora de la gestión aleatoria de las aplicaciones de Spark

Ya está disponible la compatibilidad con un nuevo complemento de Cloud Shuffle Storage para Apache Spark. Para más información, consulte Complemento de mezclas aleatorias de Spark para AWS Glue con Amazon S3 y Complemento Cloud Shuffle Storage para Apache Spark.

15 de noviembre de 2022

Se agregó soporte para los objetivos del Catálogo de datos al acelerar las notificaciones de eventos de Amazon S3

Además del soporte existente para destinos de Amazon S3, ahora se ofrece soporte para acelerar los rastreos de los destinos del Catálogo de datos mediante notificaciones de eventos de Amazon S3. Para obtener más información, consulte Aceleración de los rastreos mediante las notificaciones de eventos de Amazon S3.

13 de octubre de 2022

Posibilidad de especificar el número máximo de tablas que puede crear un rastreador

Ahora es posible especificar el número máximo de tablas que el rastreador tiene permitido crear. Para obtener más información, consulte Cómo especificar el número máximo de tablas que el rastreador tiene permitido crear.

6 de septiembre de 2022

Compatibilidad con Python 3.9 de trabajos de intérprete de comandos de Python en AWS Glue

Ahora hay compatibilidad disponible para ejecutar scripts compatibles con Python 3.9 en trabajos de intérprete de comandos de Python en AWS Glue y por elegir el uso de conjuntos de bibliotecas preempaquetadas. Para obtener más información, consulte Trabajos de trabajos de intérprete de comandos de Python en AWS Glue.

11 de agosto de 2022

Compatibilidad para ejecutar trabajos no urgentes o no sensibles al tiempo de AWS Glue sobre capacidad adicional

Ahora hay compatibilidad disponible para la configuración de ejecuciones de trabajos flexibles para trabajos no urgentes, como trabajos de preproducción, pruebas y cargas de datos únicas. Para obtener más información, consulte Agregar trabajos en AWS Glue.

9 de agosto de 2022

Soporte para un nuevo tipo de proceso de trabajo para el streaming de trabajos

Ya se encuentra disponible el soporte para el tipo de proceso de trabajo G.025X para trabajos de streaming de bajo volumen. Para obtener más información, consulte Agregar trabajos en AWS Glue.

14 de julio de 2022

Soporte para el uso de Kafka SASL en conexiones AWS Glue

Ya se encuentra disponible el soporte para el uso de Kafka SASL en conexiones de AWS Glue. Para obtener más información, consulte Propiedades de conexión de AWS Glue Kafka para autenticación de clientes.

5 de julio de 2022

Compatibilidad con Apache Kafka Connector para esquemas Protobuf

La compatibilidad con Apache Kafka Connector ya está disponible para esquemas Protobuf. Para obtener más información, consulte Registro de esquemas de AWS Glue.

9 de junio de 2022

Compatibilidad con Auto Scaling para trabajos de AWS Glue (disponible de manera general)

Se ha agregado información sobre el uso de escalado automático para trabajos en AWS Glue versión 3.0 para escalar dinámicamente los recursos de computación. Para obtener más información, consulte Uso de Auto Scaling para AWS Glue.

14 de abril de 2022

Actualice la documentación de AWS Glue desarrollando y probando scripts de trabajo de AWS Glue

Información reorganizada y agregada sobre los métodos de desarrollo y pruebas disponibles para AWS Glue, incluidas instrucciones para desarrollar con Docker. Para obtener más información, consulte Desarrollo y pruebas de scripts de trabajo de AWS Glue.

14 de marzo de 2022

Agregado de búferes de protocolo (Protobuf) como formato de datos admitido para un AWS Glue Schema Registry

Se agregó información acerca de Protobuf como formato de datos admitido (además de AVRO y JSON). Para obtener más información, consulte Registro de esquemas de AWS Glue.

25 de febrero de 2022

Compatibilidad con tablas de rastreo de Delta Lake

Se agregó información sobre el uso de AWS Glue para rastrear tablas de Delta Lake. Para obtener más información, consulte Cómo especificar opciones de configuración para un almacén de datos de Delta Lake.

24 de febrero de 2022

Compatibilidad con Información de trabajos de AWS Glue

Información agregada acerca del uso de información de trabajos de AWS Glue para simplificar la depuración y la optimización de los trabajos de AWS Glue. Para obtener más información, consulte Monitorización con información de trabajos de AWS Glue.

8 de febrero de 2022

Compatibilidad para rastrear tablas del Catálogo de datos respaldadas por Amazon S3 mediante un punto de conexión de VPC

Además de los almacenes de datos de Amazon S3, puede configurar las tablas del Catálogo de datos respaldadas por Amazon S3 para acceder a ellas únicamente a través de un entorno de Amazon Virtual Private Cloud (Amazon VPC), con fines de seguridad, auditoría o control. Para obtener más información, consulte Rastreo de un almacén de datos de Amazon S3 o tablas del Catálogo de datos respaldadas por Amazon S3 mediante un punto de conexión de VPC.

3 de febrero de 2022

Compatibilidad con las tablas regidas por Lake Formation

Se ha agregado información acerca de la compatibilidad de AWS Glue con las tablas regidas por Lake Formation, que admiten transacciones ACID, compactación automática de datos y consultas de viaje en el tiempo. Para obtener más información, consulte la API de AWS Glue y la Guía para desarrolladores de AWS Lake Formation.

30 de noviembre de 2021

Nuevas políticas administradas de AWS agregadas para sesiones interactivas y cuadernos

Las nuevas políticas administradas para IAM han proporcionado seguridad mejorada para utilizar AWS Glue con sesiones interactivas y cuadernos. Para obtener más información, consulte Políticas administradas de AWS para AWS Glue.

30 de noviembre de 2021

Glue Schema Registry ahora es compatible con trabajos de streaming

Puede crear trabajos de streaming que tengan acceso a las tablas que forman parte de Glue Schema Registry. Para obtener más información, consulte AWS Glue Schema Registry y Agregado de trabajos de ETL de streaming en AWS Glue.

15 de noviembre de 2021

Compatibilidad con las nuevas características de machine learning

Se ha agregado información sobre las nuevas características de la transformación de machine learning de búsqueda de coincidencias, incluidas la coincidencia progresiva y la puntuación de coincidencias. Para obtener más información, consulte Búsqueda de coincidencias progresivas y Estimación de la calidad de las coincidencias mediante las puntuaciones de confianza de coincidencias.

31 de octubre de 2021

(Versión preliminar privada) Compatibilidad para trabajos flexibles de AWS Glue

Se agregó información sobre la configuración de trabajos Spark de AWS Glue con una clase de ejecución flexible, adecuada para trabajos insensibles al tiempo cuyos tiempos de inicio y finalización pueden variar. Para obtener más información, consulte Agregar trabajos en AWS Glue.

29 de octubre de 2021

Compatibilidad con la aceleración de los rastreos mediante las notificaciones de eventos de Amazon S3

Se ha agregado información acerca de cómo acelerar los rastreos mediante las notificaciones de eventos de Amazon S3. Para obtener más información, consulte Aceleración de los rastreos mediante las notificaciones de eventos de Amazon S3.

15 de octubre de 2021

Opciones de configuración de seguridad adicionales relacionadas con el control de acceso y las VPC

Se ha agregado información acerca de cómo configurar nuevos permisos de control de acceso en AWS Glue y la configuración de VPC. Para obtener más información, consulte Etiquetas de AWS en AWS Glue, Políticas con base en identidad (políticas de IAM) que controlan la configuración mediante claves de condición o claves de contexto y Configuración de todas las llamadas de AWS para pasar por su VPC.

13 de octubre de 2021

Compatibilidad con las políticas de punto de conexión de VPC

Se ha agregado información acerca de la compatibilidad con las políticas de punto de conexión de Virtual Private Cloud (VPC) en AWS Glue. Para obtener más información, consulte AWS Glue y puntos de conexión de VPC de tipo interfaz (AWS PrivateLink).

11 de octubre de 2021

Glue Studio está disponible en China

Ahora, AWS Glue Studio está disponible en las regiones de China (Pekín) y Ningxia.

11 de octubre de 2021

AWS Glue Studio ofrece creación de cuadernos para editar trabajos interactivos

Los cuadernos le ayudan a escribir y ejecutar código, visualizar los resultados y compartir información. Por lo general, los científicos de datos utilizan cuadernos para experimentos y tareas de exploración de datos. Para obtener más información, consulte Using Notebooks (Uso de cuadernos).

1 de octubre de 2021

Ahora, se encuentra disponible el acceso directo a orígenes de streaming

Al agregar orígenes de datos al trabajo ETL en el editor visual, puede proporcionar información para acceder a la secuencia de datos en lugar de tener que utilizar una base de datos y una tabla del Data Catalog.

30 de septiembre de 2021

Se ha documentado la política de compatibilidad de versiones de AWS Glue

Se ha agregado información acerca de la política de compatibilidad de versiones de AWS Glue y las fases de fin de vida útil para determinadas versiones de AWS Glue. Para obtener más información, consulte Política de compatibilidad de versiones de AWS Glue.

24 de septiembre de 2021

Los conectores personalizados ahora se pueden utilizar con vistas previas de datos

Al editar el nodo de origen de datos mediante un conector personalizado, puede obtener una vista previa del conjunto de datos al elegir la pestaña Vista previa de Dat. Para obtener más información, consulte Conectores personalizados.

24 de septiembre de 2021

Compatibilidad con sesiones interactivas de AWS Glue (versión preliminar privada)

(Versión preliminar privada). Se ha agregado información acerca de la utilización de sesiones interactivas de AWS Glue para ejecutar cargas de trabajo de Spark en la nube desde cualquier cuaderno de Jupyter. Las sesiones interactivas son el método preferido para desarrollar su código de servicio ETL (extracción, transformación y carga) de AWS Glue cuando utiliza AWS Glue 2.0 o posterior. Para obtener más información, consulte Configuración y ejecución de sesiones interactivas de AWS Glue para el cuaderno de Jupyter.

24 de agosto de 2021

Compatibilidad con la creación de flujos de trabajo a partir de esquemas (disponible de manera general)

Se agregó información acerca de la codificación de casos de uso comunes de extracción, transformación y carga (ETL) en proyectos y la creación de flujos de trabajo a partir de proyectos. Permite a los analistas de datos crear y ejecutar con facilidad procesos de ETL complejos. Para obtener más información, consulte Realización de actividades de ETL complejas mediante proyectos y flujos de trabajo en AWS Glue.

23 de agosto de 2021

Compatibilidad con la versión 3.0 de AWS Glue.

Se agregó información acerca del soporte de la versión 3.0 de AWS Glue que admite la actualización del motor Apache Spark 3.0 para ejecutar trabajos de ETL de Apache Spark, y otras optimizaciones y actualizaciones. Para obtener más información, consulte las Notas de la versión de AWS Glue y Migración de trabajos de AWS Glue a la versión 3.0 de AWS Glue. Otras características de esta versión incluyen el administrador de mezclas aleatorias de AWS Glue, un lector CSV vectorizado de SIMD y predicados de particiones de catálogo. Para obtener más información, consulte Administrador de mezclas aleatorias de AWS Glue Spark con Amazon S3, Opciones de formato para las entradas y salidas de ETL en AWS Glue, y Filtrado del lado del servidor mediante predicados de partición de catálogo.

18 de agosto de 2021

AWS GovCloud (US) Region

AWS Glue Studio ahora está disponible en AWS GovCloud (US) Region

18 de agosto de 2021

Creación de intérprete de comandos de Python disponible en AWS Glue Studio

Al crear un nuevo trabajo, ahora puede elegir crear un trabajo de intérprete de comandos de Python. Para obtener más información, consulte Iniciar el proceso de creación de trabajo y Edición de trabajos de intérprete de comandos de Python en AWS Glue Studio.

13 de agosto de 2021

Support para iniciar un flujo de trabajo con un EventBridge evento de Amazon

Se agregó información acerca de cómo AWS Glue puede ser un consumidor de eventos en una arquitectura basada en eventos. Para obtener más información, consulte Inicio de un AWS Glue flujo de trabajo con un EventBridge evento de Amazon y Visualización de los EventBridge eventos que iniciaron un flujo de trabajo.

14 de julio de 2021

Adición de JSON como formato de datos compatible para AWS Glue Schema Registry

Se agregó información acerca de JSON como formato de datos soportado (además de AVRO). Para obtener más información, consulte AWS Glue Schema Registry.

30 de junio de 2021

Crear trabajos de streaming de AWS Glue sin una tabla del Catálogo de datos

La función de Python create_data_frame_from_options o getSource para scripts de Scala soporta la creación de trabajos de ETL de streaming que hacen referencia a los flujos de datos directamente, en lugar de requerir una tabla del Catálogo de datos.

15 de junio de 2021

Las transformaciones de machine learning de AWS Glue () ahora son compatibles con las claves de AWS Key Management Service

Puede especificar una configuración de seguridad o clave AWS KMS cuando se configuran transformaciones de machine learning de AWS Glue con la consola, la CLI o las API de AWS Glue. Para obtener más información, consulte Uso de cifrado de datos con transformaciones de machine learning y API de machine learning de AWS Glue.

15 de junio de 2021

Actualización de la política AWSGlueConsoleFullAccess AWS gestionada

Se agregó información sobre una actualización menor de la política AWSGlueConsoleFullAccess AWS administrada. Para obtener más información, consulte Actualizaciones de AWS Glue a las políticas administradas de AWS.

10 de junio de 2021

Visualice el conjunto de datos del trabajo mientras crea y edita trabajos

Puede utilizar la nueva pestaña Previsualización de datos para un nodo en su diagrama de trabajo para ver una muestra de los datos procesados por ese nodo. Para obtener más información, consulte Utilizar previsualizaciones de datos en el editor visual de trabajos.

7 de junio de 2021

Compatibilidad con la especificación de un valor que indique la ubicación de la tabla para la salida del rastreador.

Se agregó información sobre cómo especificar un valor que indica la ubicación de la tabla al configurar la salida del rastreador. Para obtener más información, consulte Cómo especificar la ubicación de la tabla.

4 de junio de 2021

Compatibilidad con el rastreo de una muestra de archivos en un conjunto de datos al rastrear un almacén de datos de Simple Storage Service (Amazon S3)

Se agregó información sobre cómo rastrear una muestra de archivos al rastrear Amazon S3. Para obtener más información, consulte Propiedades del rastreador.

10 de mayo de 2021

Compatibilidad con el escritor de parquet optimizado de AWS Glue

Se agregó información sobre el uso del grabador de parqué AWS Glue optimizado DynamicFrames para crear o actualizar tablas con la parquet clasificación. Para obtener más información, consulte Creación de tablas, actualización de esquemas y agregado de nuevas particiones en el Catálogo de datos desde trabajos de ETL de AWS Glue y Opciones de formato para entradas y salidas de ETL en AWS Glue.

4 de mayo de 2021

Compatibilidad con contraseñas de autenticación de cliente de Kafka

Se agregó información acerca de cómo los trabajos de ETL de streaming en AWS Glue soportan la autenticación de certificados de cliente SSL con los productores de flujos de Apache Kafka. Ahora puede proporcionar un certificado personalizado al definir una conexión de AWS Glue a un clúster de Apache Kafka, que AWS Glue usará al autenticarse con él. Para obtener más información, consulte Propiedades de conexión de AWS Glue y API de conexión.

28 de abril de 2021

Compatibilidad con el consumo de datos de Amazon Kinesis Data Streams en otra cuenta en trabajos de ETL de streaming

Se agregó información sobre cómo crear un trabajo de ETL de streaming para consumir datos de Amazon Kinesis Data Streams en otra cuenta. Para obtener más información, consulte Agregado de trabajos de ETL de streaming en AWS Glue.

30 de marzo de 2021

Transformación SQL disponible

Puede usar un nodo de transformación SQL para escribir su propia transformación en forma de consulta SQL. Para obtener más información, consulte Uso de una consulta SQL para transformar datos.

23 de marzo de 2021

Compatibilidad con la creación de flujos de trabajo a partir de esquemas (versión preliminar pública)

(Previsualización pública) se agregó información acerca de la codificación de casos de uso comunes de extracción, transformación y carga (ETL) en proyectos y, a continuación, creación de flujos de trabajo a partir de proyectos. Permite a los analistas de datos crear y ejecutar con facilidad procesos de ETL complejos. Para obtener más información, consulte Realización de actividades de ETL complejas mediante proyectos y flujos de trabajo en AWS Glue ().

22 de marzo de 2021

Los conectores se pueden utilizar para destinos de datos

Ahora, se soporta el uso de un conector personalizado o AWS Marketplace para su destino de datos. Para obtener más información, consulte Creación de trabajos con conectores personalizados.

15 de marzo de 2021

Compatibilidad con las métricas de importancia de columna para transformaciones de machine learning de AWS Glue

Se agregó información sobre la visualización de métricas de importancia de columna cuando se trabaja con transformaciones de machine learning de AWS Glue. Para obtener más información, consulte Trabajar con transformaciones de machine learning en la consola de AWS Glue

5 de febrero de 2021

La programación de trabajos ya se encuentra disponible en AWS Glue Studio

Puede definir programaciones basadas en tiempo para las ejecuciones de trabajo en AWS Glue Studio. Puede utilizar la consola para crear una programación básica o definir una programación más compleja con la sintaxis cron de tipo Unix. Para obtener más información, consulte Programación de ejecuciones de trabajo.

21 de diciembre de 2020

Lanzamiento de conectores personalizados de AWS Glue

Los conectores personalizados de AWS Glue le permiten descubrir y suscribirse a conectores en AWS Marketplace. También introdujimos interfaces de tiempo de ejecución de AWS Glue Spark para conectar conectores creados para Apache Spark Datasource, consulta federada de Athena y API de JDBC. Para obtener más información, consulte Uso de conectores y conexiones con AWS Glue Studio.

21 de diciembre de 2020

Compatibilidad con la ejecución de trabajos de ETL de streaming en AWS Glue versión 2.0

Se agregó información sobre el soporte para la ejecución de trabajos de ETL de streaming en Glue versión 2.0. Para obtener más información, consulte Agregado de trabajos de ETL de streaming en AWS Glue.

18 de diciembre de 2020

Compatibilidad con particiones de cargas de trabajo con ejecución limitada

Se agregó información acerca de habilitar la partición de carga de trabajo para configurar los límites superiores en el tamaño del conjunto de datos o la cantidad de archivos procesados en ejecuciones de trabajos de ETL. Para obtener más información, consulte Partición de carga de trabajo con ejecución limitada.

23 de noviembre de 2020

Compatibilidad con la administración mejorada de particiones

Se agregó información acerca de cómo usar nuevas API para agregar o eliminar un índice de partición a/desde una tabla existente. Para obtener más información, consulte Trabajar con índices de partición.

23 de noviembre de 2020

Compatibilidad con AWS Glue Schema Registry

Se agregó información acerca del uso de AWS Glue Schema Registry para descubrir, controlar y evolucionar los esquemas de forma centralizada. Para obtener más información, consulte Registro de esquemas de AWS Glue.

19 de noviembre de 2020

Compatibilidad con el formato de entrada Grok en trabajos de ETL de streaming

Se agregó información sobre la aplicación de patrones Grok a orígenes de streaming, como archivos de registro. Para obtener más información, consulte Aplicación de patrones Grok a orígenes de streaming.

17 de noviembre de 2020

Compatibilidad con el agregado de etiquetas a flujos de trabajo en la consola de AWS Glue

Se agregó información acerca de cómo agregar etiquetas al crear un flujo de trabajo mediante la consola de AWS Glue. Para obtener más información, consulte Creación y desarrollo de un flujo de trabajo mediante la consola de AWS Glue.

27 de octubre de 2020

Compatibilidad con ejecuciones de rastreadores progresivas

Se agregó información sobre el soporte de ejecuciones de rastreadores progresivos, que rastrean sólo las carpetas de Amazon S3 agregadas desde la última ejecución. Para obtener más información, consulte Rastreos progresivos.

21 de octubre de 2020

Compatibilidad con la detección de esquemas para orígenes de datos de ETL de streaming. Compatibilidad con orígenes de datos de ETL de streaming de Avro y Kafka autoadministrado

Los trabajos de extracción, transformación y carga (ETL) de streaming en AWS Glue ahora pueden detectar automáticamente el esquema de los registros entrantes y controlar los cambios de esquema por registro. Ahora se soportan orígenes de datos Kafka autoadministrados. Los trabajos de ETL de streaming ahora admiten el formato Avro en los orígenes de datos. Para obtener más información, consulte ETL de streaming en AWS Glue, Definición de propiedades de trabajo para un trabajo de ETL de streaming y Notas y restricciones para orígenes de streaming de Avro.

7 de octubre de 2020

Compatibilidad con el rastreo de orígenes de datos de MongoDB y DocumentDB

Se agregó información acerca del soporte para rastrear orígenes de datos de MongoDB y Amazon DocumentDB (con compatibilidad con MongoDB). Para obtener más información, consulte Definición de rastreadores.

5 de octubre de 2020

Compatibilidad con la conformidad con FIPS

Se agregó información acerca de los puntos de enlace de FIPS para clientes que necesitan módulos criptográficos validados según FIPS 140-2 al acceder a los datos mediante AWS Glue. Para obtener más información, consulte Conformidad con FIPS.

23 de septiembre de 2020

AWS Glue Studio proporciona una interfaz visual fácil de usar para crear y monitorear trabajos

Ahora puede usar una interfaz sencilla basada en gráficos para componer trabajos que mueven y transforman datos, y ejecutarlos en AWS Glue. Puede utilizar el panel de ejecución de trabajos en AWS Glue Studio para monitorear la ejecución de ETL y asegurarse de que sus trabajos funcionen de la manera pretendida. Si quiere obtener más información, consulte la Guía del usuario de AWS Glue Studio.

23 de septiembre de 2020

Compatibilidad con la creación de índices de tabla para mejorar el rendimiento de las consultas

Se agregó información sobre la creación de índices de tabla para permitir la recuperación de un subconjunto de particiones de una tabla. Para obtener más información, consulte Trabajar con índices de partición.

9 de septiembre de 2020

Compatibilidad con tiempos de inicio reducidos al ejecutar trabajos de ETL de Apache Spark en AWS Glue versión 2.0.

Se agregó información acerca del soporte para AWS Glue, versión 2.0, que proporciona una infraestructura mejorada para ejecutar trabajos de ETL de Apache Spark con tiempos de inicio reducidos, cambios en el registro y soporte para especificar módulos adicionales de Python al nivel del trabajo. Para obtener más información, consulte Notas de la versión de AWS Glue y Ejecución de trabajos de ETL de Spark con tiempos de inicio reducidos.

10 de agosto de 2020

Compatibilidad con la limitación de la cantidad de ejecuciones concurrentes de un flujo de trabajo.

Se agregó información acerca de cómo limitar la cantidad de ejecuciones concurrentes del flujo de trabajo para un flujo de trabajo determinado. Para obtener más información, consulte Creación y desarrollo de un flujo de trabajo mediante la consola de AWS Glue.

10 de agosto de 2020

Compatibilidad con el rastreo de un almacén de datos de Simple Storage Service (Amazon S3) mediante un punto de conexión de VPC

Se agregó información acerca de la configuración de su almacén de datos de Amazon S3 para el acceso únicamente a través de un entorno de Amazon Virtual Private Cloud (Amazon VPC), con fines de seguridad, auditoría o control. Para obtener más información, consulte Rastreo de un almacén de datos de Amazon S3 mediante un punto de enlace de la VPC.

7 de agosto de 2020

Compatibilidad con la reanudación de ejecuciones de flujos de trabajo

Se agregó información acerca de cómo reanudar las ejecuciones de flujo de trabajo que solo se completaron en forma parcial porque uno o más nodos (trabajos o rastreadores) no se completaron correctamente. Para obtener más información, consulte Reparación y reanudación de una ejecución de flujo de trabajo.

27 de julio de 2020

Compatibilidad con la habilitación de certificados de CA privados en conexiones de Kafka en AWS Glue.

Se agregó información sobre las nuevas opciones de conexión que soportan la habilitación de certificados de CA privados para conexiones Kafka en AWS Glue. Para obtener más información, consulte Tipos y opciones de conexión para ETL en AWS Glue y Parámetros especiales usados por AWS Glue.

20 de julio de 2020

Compatibilidad con la lectura de datos de DynamoDB en otra cuenta

Se agregó información sobre el soporte de AWS Glue para leer datos de la tabla DynamoDB de otra cuenta de AWS. Para obtener más información, consulte Lectura de datos de DynamoDB en otra cuenta.

17 de julio de 2020

Compatibilidad con la conexión de escritura de DynamoDB en AWS Glue versión 1.0 o posterior

Se agregó información acerca del soporte para el escritor de DynamoDB y opciones de conexión nuevas o actualizadas para que DynamoDB lea o escriba. Para obtener más información, consulte Tipos y opciones de conexión para ETL en AWS Glue.

17 de julio de 2020

Compatibilidad con enlaces de recursos y con el control de acceso entre cuentas mediante AWS Glue y Lake Formation

Se agregó contenido sobre los nuevos objetos del Catálogo de datos denominados enlaces de recursos y sobre cómo administrar los recursos compartidos del Catálogo de datos entre cuentas con AWS Glue y AWS Lake Formation. Para obtener más información, consulte Concesión de acceso entre cuentas y Enlaces de recursos de tabla.

7 de julio de 2020

Compatibilidad con el muestreo de registros al rastrear almacenes de datos de DynamoDB

Se agregó información acerca de las nuevas propiedades que puede configurar al rastrear un almacén de datos de DynamoDB. Para obtener más información, consulte Propiedades del rastreador.

12 de junio de 2020

Compatibilidad con la detención de la ejecución de un flujo de trabajo.

Se agregó información sobre cómo detener una ejecución de flujo de trabajo para un flujo de trabajo determinado. Para obtener más información, consulte Detener ejecución de flujo de trabajo.

14 de mayo de 2020

Soporte para trabajos de ETL de Spark Streaming

Se agregó información sobre la creación de trabajos de extracción, transformación y carga (ETL) con origen de datos de streaming. Para obtener más información, consulte Agregado de trabajos de ETL de streaming en AWS Glue.

27 de abril de 2020

Compatibilidad con la creación de tablas, la actualización del esquema y la adición de nuevas particiones en el Catálogo de datos después de ejecutar un trabajo de ETL

Se agregó información acerca de cómo permitir la creación de tablas, la actualización del esquema y la incorporación de nuevas particiones para ver los resultados del trabajo de ETL en el Catálogo de datos. Para obtener más información, consulte Creación de tablas, actualización de esquemas y agregado de nuevas particiones en el Catálogo de datos desde trabajos de ETL de AWS Glue.

2 de abril de 2020

Compatibilidad con la especificación de una versión para el formato de datos de Apache Avro como entrada y salida de ETL en AWS Glue

Se agregó información acerca de cómo especificar una versión para el formato de datos de Apache Avro como una entrada y salida de ETL en AWS Glue. La versión predeterminada es 1.7. Puede utilizar la opción de formato version para especificar la versión 1.8 de Avro y habilitar la lectura/escritura lógica. Para obtener más información, consulte Opciones de formato para las entradas y salidas de ETL en AWS Glue.

31 de marzo de 2020

Compatibilidad con el confirmador optimizado para S3 de EMRFS para la escritura de datos de Parquet en Simple Storage Service (Amazon S3)

Se agregó información acerca de cómo establecer un nuevo indicador que habilite el confirmador optimizado para S3 de EMRFR de forma que puedan escribirse datos de Parquet en Amazon S3 al crear o actualizar un trabajo de AWS Glue. Para obtener más información, consulte Parámetros especiales utilizados por AWS Glue.

30 de marzo de 2020

Compatibilidad con las transformaciones de machine learning como recurso administrado por las etiquetas de recursos de AWS

Se agregó información sobre el uso de etiquetas de recursos de AWS para administrar y controlar el acceso a las transformaciones de machine learning en AWS Glue. Puede asignar etiquetas de recursos de AWS a trabajos, desencadenadores, puntos de enlace, rastreadores y transformaciones de machine learning en AWS Glue. Para obtener más información, consulte Etiquetas de AWS en AWS Glue.

2 de marzo de 2020

Compatibilidad con argumentos de trabajo que no se pueden invalidar

Se agregó información acerca del soporte de parámetros especiales de trabajos que no se pueden invalidar en desencadenadores o cuando se ejecuta el trabajo. Para obtener más información, consulte Agregado de trabajos en AWS Glue.

12 de febrero de 2020

Compatibilidad con nuevas transformaciones para trabajar con conjuntos de datos en Simple Storage Service (Amazon S3)

Se agregó información sobre nuevas transformaciones (Merge, Purge y Transition) y exclusiones de clases de almacenamiento de Amazon S3 en aplicaciones de Apache Spark para trabajar con conjuntos de datos de Amazon S3. Para obtener más información sobre la compatibilidad de estas transformaciones en Python, consulte mergeDynamicFrameTrabajar con conjuntos de datos en Amazon S3. Para obtener información sobre Scala, consulte las API mergeDynamicFramesde AWS GlueScala GlueContext .

16 de enero de 2020

Compatibilidad con la actualización del Catálogo de datos con información sobre nuevas particiones desde un trabajo de ETL

Se agregó información acerca de cómo codificar un script de extracción, transformación y carga (ETL) para actualizar AWS Glue Data Catalog con información sobre nuevas particiones. Con esta funcionalidad, ya no tendrá que volver a ejecutar el rastreador después de finalizar un trabajo para ver las nuevas particiones. Para obtener más información, consulte Actualización del Catálogo de datos con nuevas particiones.

15 de enero de 2020

Nuevo tutorial: Uso de un cuaderno SageMaker

Se agregó un tutorial que muestra cómo usar un SageMaker bloc de notas de Amazon para ayudar a desarrollar sus scripts de ETL y aprendizaje automático. Consulte el tutorial: Utilice Amazon SageMaker Notebook con su terminal de desarrollo.

3 de enero de 2020

Compatibilidad con la lectura desde MongoDB y Amazon DocumentDB (con compatibilidad con MongoDB)

Se agregó información sobre nuevos tipos de conexión y opciones de conexión para leer y escribir en MongoDB y Amazon DocumentDB (con compatibilidad con MongoDB). Para obtener más información, consulte Tipos y opciones de conexión para ETL en AWS Glue.

17 de diciembre de 2019

Diversas correcciones y aclaraciones

Se han agregado correcciones y aclaraciones en todo el documento. Se han eliminado entradas del capítulo de problemas conocidos. Se han agregado advertencias para indicar que AWS Glue solo soporta claves maestras de cliente (CMK) simétricas al crear configuraciones de seguridad y especificar la configuración de cifrado del Catálogo de datos. Se agregó una nota que indica que AWS Glue no permite escribir en Amazon DynamoDB.

9 de diciembre de 2019

Compatibilidad con controladores JDBC personalizados

Se agregó información sobre la conexión a orígenes de datos y destinos con controladores JDBC que AWS Glue no soporta de forma nativa, como MySQL versión 8 y Oracle Database versión 18. Para obtener más información, consulte Valores ConnectionType de JDBC.

25 de noviembre de 2019

Support para conectar SageMaker ordenadores portátiles a diferentes puntos finales de desarrollo

Se agregó información sobre cómo conectar un SageMaker portátil a diferentes puntos finales de desarrollo. Actualizaciones para describir la nueva acción de la consola al cambiar a un nuevo punto final de desarrollo y la nueva política de SageMaker IAM. Para obtener más información, consulte Trabajar con portátiles en la AWS Glue consola y Crear una política de IAM para Amazon SageMaker Notebooks.

21 de noviembre de 2019

Compatibilidad con la versión de AWS Glue en las transformaciones de machine learning

Se agregó información sobre la definición de la versión de AWS Glue en las transformaciones de machine learning para indicar la versión de AWS Glue con la que son compatibles estas transformaciones. Para obtener más información, consulte Trabajar con transformaciones de machine learning en la consola de AWS Glue.

21 de noviembre de 2019

Compatibilidad con el rebobinado de marcadores de trabajos

Se agregó información sobre el rebobinado de los marcadores de trabajo a cualquier ejecución de trabajo anterior reprocesando los datos solo desde la ejecución del trabajo marcado. Se describen dos nuevas subopciones para la opción job-bookmark-pause que le permiten ejecutar un trabajo entre dos marcadores. Para obtener más información, consulte, Seguimiento de los datos procesados mediante marcadores de trabajo y Parámetros especiales usados por AWS Glue.

22 de octubre de 2019

Compatibilidad con certificados JDBC personalizados para conectarse a un almacén de datos

Se agregó información sobre el soporte de AWS Glue con certificados JDBC personalizados para conexiones SSL que tienen orígenes o destinos de datos de AWS Glue. Para obtener más información, consulte Trabajar con conexiones en la consola de AWS Glue.

10 de octubre de 2019

Compatibilidad con archivos wheel de Python

Se agregó información sobre el soporte de AWS Glue con los archivos wheel (junto con los archivos egg) como dependencias para los trabajos de intérprete de comandos de Python. Para obtener más información, consulte Proporcionar su propia biblioteca de Python.

26 de septiembre de 2019

Compatibilidad con el control de versiones de puntos de conexión de desarrollo en AWS Glue

Se ha agregado información sobre la definición de Glue version en los puntos de enlace de desarrollo. Glue version determina las versiones de Apache Spark y Python compatibles con AWS Glue. Para obtener más información, consulte Añadir un punto de conexión de desarrollo.

19 de septiembre de 2019

Compatibilidad con la supervisión de AWS Glue mediante la interfaz de usuario de Spark

Se ha añadido información sobre el uso de la interfaz de usuario de Apache Spark para monitorizar y depurar trabajos ETL en AWS Glue que se ejecutan en el sistema de trabajos de AWS Glue, así como aplicaciones Spark en puntos de conexión de desarrollo de AWS Glue. Para obtener más información, consulte Monitoreo mediante la interfaz de usuario de AWS Glue Spark.

19 de septiembre de 2019

Se mejoró la compatibilidad con el desarrollo de scripts de ETL locales mediante la biblioteca pública de ETL de AWS Glue

Se ha actualizado el contenido de la biblioteca de ETL de AWS Glue para reflejar que ahora se soporta la versión 1.0 de AWS Glue. Para obtener más información, consulte Desarrollo y prueba de scripts de ETL localmente mediante la biblioteca de ETL de AWS Glue.

18 de septiembre de 2019

Compatibilidad con la exclusión de clases de almacenamiento de Simple Storage Service (Amazon S3) al ejecutar trabajos

Se agregó información sobre la exclusión de clases de almacenamiento de Amazon S3 al ejecutar trabajos de ETL de AWS Glue que leen archivos o particiones desde Amazon S3. Para obtener más información, consulte Exclusión de clases de almacenamiento de Amazon S3.

29 de agosto de 2019

Compatibilidad con el desarrollo de scripts de ETL locales mediante la biblioteca pública de ETL de AWS Glue

Se ha agregado información sobre cómo desarrollar y probar localmente scripts ETL de Python y Scala sin necesidad de una conexión de red. Para obtener más información, consulte Desarrollo y prueba de scripts de ETL localmente mediante la biblioteca de ETL de AWS Glue.

28 de agosto de 2019

Problemas conocidos

Se ha agregado información sobre problemas conocidos en AWS Glue. Para obtener más información, consulte Problemas conocidos de AWS Glue.

28 de agosto de 2019

Compatibilidad con transformaciones de machine learning en AWS Glue

Se ha agregado información sobre las capacidades de machine learning proporcionadas por AWS Glue para crear transformaciones personalizadas. Puede crear estas transformaciones cuando cree un trabajo. Para obtener más información, consulte Transformaciones de machine learning en AWS Glue.

8 de agosto de 2019

Compatibilidad con Amazon Virtual Private Cloud compartida

Se agregó información sobre el soporte de AWS Glue con Amazon Virtual Private Cloud compartida. Para obtener más información, consulte VPC de Amazon compartidas.

6 de agosto de 2019

Compatibilidad con el control de versiones en AWS Glue

Se agregó información sobre la definición de Glue version en las propiedades del trabajo. La versión de AWS Glue determina las versiones de Apache Spark y Python que soporta AWS Glue. Para obtener más información, consulte Agregar trabajos en AWS Glue.

24 de julio de 2019

Compatibilidad con opciones de configuración adicionales para puntos de conexión de desarrollo

Se ha agregado información sobre las opciones de configuración de los puntos de enlace de desarrollo que tienen cargas de trabajo con uso intensivo de memoria. Puede elegir entre dos nuevas configuraciones que ofrecen más memoria por ejecutor. Para obtener más información, consulte Trabajar con puntos de enlace de desarrollo en la consola de AWS Glue.

24 de julio de 2019

Compatibilidad con la realización de actividades de extracción, transferencia y carga (ETL) mediante flujos de trabajo

Se agregó información sobre el uso de un nuevo elemento denominado flujo de trabajo para diseñar una actividad compleja de extracción, transformación y carga (ETL) de varios trabajos que AWS Glue puede ejecutar como entidad única y realizar su seguimiento. Para obtener más información, consulte Realización de actividades de ETL complejas mediante flujos de trabajo en AWS Glue.

20 de junio de 2019

Compatibilidad con Python 3.6 de trabajos de intérprete de comandos de Python

Se ha añadido información sobre la compatibilidad con Python 3.6 en los trabajos de intérprete de comandos de Python. Puede especificar Python 2.7 o Python 3.6 como propiedad de trabajo. Para obtener más información, consulte Agregado de trabajos de intérprete de comandos de Python en AWS Glue.

5 de junio de 2019

Compatibilidad con puntos de conexión de nube virtual privada (VPC)

Se agregó información acerca de cómo conectarse directamente a AWS Glue a través de un punto de enlace de interfaz de la VPC. Cuando se utiliza un punto de enlace de interfaz de la VPC, la comunicación entre la VPC y AWS Glue se realiza en su totalidad y de manera segura dentro de la red de AWS. Para obtener más información, consulte Uso de AWS Glue con puntos de enlace de la VPC.

4 de junio de 2019

Compatibilidad con el registro continuo en tiempo real de los trabajos de AWS Glue.

Se agregó información sobre cómo habilitar y ver los registros de tareas de Apache Spark en tiempo real, CloudWatch incluidos los registros de los controladores, cada uno de los registros de los ejecutores y una barra de progreso de las tareas de Spark. Para obtener más información, consulte la sección Registro continuo de trabajos de AWS Glue.

28 de mayo de 2019

Compatibilidad con tablas existentes del Catálogo de datos como orígenes de rastreador

Se agregó información acerca de la especificación de una lista de tablas existentes del Catálogo de datos como orígenes del rastreador. Los rastreadores pueden detectar los cambios en los esquemas de tabla, actualizar las definiciones de la tabla y habilitar la opción de registrar nuevas particiones como datos nuevos. Para obtener más información, consulte Propiedades del rastreador.

10 de mayo de 2019

Compatibilidad con opciones de configuración adicionales para trabajos con uso intensivo de memoria

Se ha añadido información sobre las opciones de configuración para los trabajos de Apache Spark con cargas de trabajo con uso intensivo de memoria. Puede elegir entre dos nuevas configuraciones que ofrecen más memoria por ejecutor. Para obtener más información, consulte Agregar trabajos en AWS Glue.

5 de abril de 2019

Compatibilidad con clasificadores personalizados de CSV

Se ha añadido información sobre el uso de un clasificador personalizado de CSV para inferir el esquema de distintos tipos de datos CSV. Para obtener más información, consulte Escritura de clasificadores personalizados.

26 de marzo de 2019

Compatibilidad con las etiquetas de recursos de AWS

Se agregó información acerca del uso de etiquetas de recursos de AWS para facilitar la administración y el control de acceso a los recursos de AWS Glue. Puede asignar etiquetas de recursos de AWS a trabajos, desencadenadores, puntos de enlace y rastreadores de AWS Glue. Para obtener más información, consulte Etiquetas de AWS en AWS Glue.

20 de marzo de 2019

Compatibilidad con el Catálogo de datos para trabajos de Spark SQL

Se agregó información sobre la configuración de los trabajos y los puntos de enlace de desarrollo de AWS Glue para utilizar AWS Glue Data Catalog como un metaalmacén de Apache Hive externo. De este modo, los trabajos y los puntos de enlace de desarrollo pueden ejecutar directamente consultas de Apache Spark SQL en las tablas almacenadas en AWS Glue Data Catalog. Para obtener más información, consulte Soporte de AWS Glue Data Catalog para trabajos de Spark SQL.

14 de marzo de 2019

Compatibilidad con trabajos de intérprete de comandos de Python

Se ha añadido información sobre los trabajos de intérprete de comandos de Python y el nuevo campo Capacidad máxima. Para obtener más información, consulte Agregado de trabajos de intérprete de comandos de Python en AWS Glue.

18 de enero de 2019

Compatibilidad con notificaciones cuando se producen cambios en bases de datos y tablas

Se ha añadido información sobre los eventos que se generan para los cambios en las llamadas a la API de base de datos, tabla y partición. Puedes configurar acciones en CloudWatch Eventos para responder a estos eventos. Para obtener más información, consulte Automatizar AWS Glue con CloudWatch eventos.

16 de enero de 2019

Compatibilidad con el cifrado de contraseñas de conexión

Se ha añadido información sobre el cifrado de contraseñas usadas en los objetos de conexión. Para obtener más información, consulte Cifrado de contraseñas de conexión.

11 de diciembre de 2018

Compatibilidad con permisos de nivel de recursos y políticas basadas en recursos

Se ha agregado información sobre el uso de permisos de nivel de recursos y políticas basadas en recursos con AWS Glue. Para obtener más información, consulte los temas de Seguridad en AWS Glue.

15 de octubre de 2018

Support para SageMaker ordenadores portátiles

Se agregó información sobre el uso de SageMaker cuadernos con terminales de AWS Glue desarrollo. Para obtener más información, consulte Administración de cuadernos.

5 de octubre de 2018

Compatibilidad con cifrado

Información agregada acerca del uso del cifrado con AWS Glue. Para obtener más información, consulte Cifrado en reposo, Cifrado en tránsito y Configuración del cifrado en AWS Glue.

24 de agosto de 2018

Compatibilidad con métricas de trabajos de Apache Spark

Información agregada acerca del uso de las métricas de Apache Spark para lograr una mejor depuración de los trabajos de ETL y una mejor generación de perfiles en estos. Puede hacer fácilmente un seguimiento de métricas de tiempo de ejecución como, por ejemplo, los bytes leídos y escritos, el uso de la memoria y la carga de la CPU del controlador y los ejecutores, mientras que los datos se mezclan en forma aleatoria entre los ejecutores desde la consola de AWS Glue. Para obtener más información, consulte Supervisión AWS Glue mediante CloudWatch métricas, Supervisión y depuración de tareas y Trabajo con tareas en la AWS Glue consola.

13 de julio de 2018

Compatibilidad con DynamoDB como origen de datos

Se agregó información acerca de cómo rastrear y usar DynamoDB como origen de datos de los trabajos de ETL. Para obtener más información, consulte el artículo acerca de cómo catalogar tablas con un rastreador y Parámetros de conexión.

10 de julio de 2018

Actualizaciones para crear un procedimiento de servidor de cuadernos

Se ha incluido información actualizada acerca de cómo crear un servidor de cuadernos en una instancia de Amazon EC2 asociada a un punto de enlace de desarrollo. Para obtener más información, consulte Creación de un servidor de cuadernos asociado a un punto de enlace de desarrollo.

9 de julio de 2018

Actualizaciones ahora disponibles sobre RSS

Ahora puede suscribirse a una fuente RSS para recibir notificaciones sobre actualizaciones de la Guía para desarrolladores de AWS Glue.

25 de junio de 2018

Compatibilidad con notificaciones de retraso de trabajos

Se ha agregado información sobre la configuración de un umbral de retraso cuando se ejecuta un flujo de trabajo. Para obtener más información, consulte Agregar trabajos en AWS Glue.

25 de mayo de 2018

Configurar un rastreador para anexar nuevas columnas

Se agregó información sobre la nueva opción de configuración para los rastreadores,. MergeNewColumns Para obtener más información, consulte Configuración de un rastreador.

7 de mayo de 2018

Compatibilidad con el tiempo de espera de los trabajos

Información agregada sobre la configuración de un umbral de tiempo de espera cuando se ejecuta un flujo de trabajo. Para obtener más información, consulte Agregar trabajos en AWS Glue.

10 de abril de 2018

Compatibilidad con trabajos de desencadenador y script de ETL de Scala basados en estados de ejecución adicionales

Se ha agregado información sobre el uso de Scala como lenguaje de programación de ETL. Además, la API de disparador admite ahora la activación al cumplirse algunas de las condiciones (además de todas las condiciones). Además, los trabajos se pueden activar según una ejecución de flujo de trabajo "con error" o "detenida" (además de una ejecución de flujo de trabajo "de éxito").

12 de enero de 2018

Actualizaciones anteriores

En la siguiente tabla, se describen los cambios importantes que se han realizado en cada versión de la Guía para desarrolladores de AWS Glue anteriores a enero de 2018.

Cambio Descripción Fecha
Admita orígenes de datos XML y una nueva opción de configuración del rastreador Se ha agregado información acerca de la clasificación de los orígenes de datos XML y la nueva opción del rastreador para los cambios en la partición. 16 de noviembre de 2017
Nuevas transformaciones, soporte para motores de bases de datos de Amazon RDS adicionales y mejoras de punto de enlace de desarrollo Se agregó información acerca de las transformaciones de mapeo y filtrado, el soporte para Microsoft SQL Server de Amazon RDS y Oracle de Amazon RDS, y nuevas características de los puntos de enlace de desarrollo. 29 de septiembre de 2017
Versión inicial de AWS Glue Esta es la versión inicial de la Guía para desarrolladores de AWS Glue. 14 de agosto de 2017