Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Componentes de AWS Glue
AWS Glue proporciona una consola y operaciones de API para configurar y administrar su carga de flujo de trabajo de extracción, transformación y carga (ETL). Puede usar las operaciones de API a través de varios SDK específicos de lenguaje y la AWS Command Line Interface (AWS CLI). Para obtener información sobre el uso de AWS CLI, consulte Referencias de comandos de AWS CLI.
AWS Glue usa el AWS Glue Data Catalog para almacenar metadatos acerca de orígenes de datos, transformaciones y destinos. El Data Catalog es un reemplazo instantáneo para el Apache Hive Metastore. AWS Glue Jobs system proporciona una infraestructura administrada para definir, programar y ejecutar operaciones de ETL en sus datos. Para obtener más información sobre la API de AWS Glue, consulte API de AWS Glue.
Consola de AWS Glue
Use la consola de AWS Glue para definir y orquestar su flujo de flujo de trabajo de ETL. La consola llama a varias operaciones API en el AWS Glue Data Catalog y AWS Glue Jobs system para realizar las siguientes tareas:
-
Definir objetos de AWS Glue como trabajos, tablas, rastreadores y conexiones.
-
Programar cuándo se ejecutan los rastreadores.
-
Definir eventos o programaciones para los disparadores de trabajos.
-
Buscar y filtrar listas de objetos de AWS Glue.
-
Editar scripts de transformación.
AWS Glue Data Catalog
El AWS Glue Data Catalog es su almacén de metadatos técnicos persistente en la nube de AWS.
Cada cuenta de AWS tiene un AWS Glue Data Catalog por región de AWS. Cada catálogo de datos es una colección de tablas altamente escalable organizadas en bases de datos. Una tabla es la representación de metadatos de una colección de datos estructurados o semiestructurados almacenados en orígenes como Amazon RDS, Apache Hadoop Distributed File System, Amazon OpenSearch Service y otros. AWS Glue Data Catalog proporciona un repositorio uniforme donde sistemas dispares pueden almacenar y encontrar metadatos para hacer un seguimiento de los datos en silos de datos. A continuación, puede utilizar los metadatos para consultar y transformar esos datos de forma coherente en una amplia variedad de aplicaciones.
Utilice el catálogo de datos junto con políticas de AWS Identity and Access Management y Lake Formation para controlar el acceso a las tablas y bases de datos. Al hacer esto, permite a los diversos grupos de su empresa publicar datos de forma segura en toda la organización, al mismo tiempo que se protege la información confidencial de forma altamente granular.
El catálogo de datos, junto con CloudTrail Lake Formation, también proporciona capacidades de auditoría y gobernanza completas, con seguimiento de cambios de esquema y controles de acceso de datos. Esto ayuda a garantizar que los datos no se modificaron incorrectamente o no se compartieron sin querer.
Para obtener información sobre cómo proteger y auditar el AWS Glue Data Catalog, consulte:
-
AWS Lake Formation: para obtener más información, consulte ¿Qué es AWS Lake Formation? en la Guía para desarrolladores de AWS Lake Formation.
-
CloudTrail— Para obtener más información, consulte ¿Qué es CloudTrail? en la GuíaAWS CloudTrail del usuario.
Los siguientes son otros servicios y proyectos de código abierto de AWS que utilizan el AWS Glue Data Catalog:
-
Amazon Athena: para obtener más información, consulte Descripción de las tablas, bases de datos y el catálogo de datos en la Guía del usuario de Amazon Athena.
-
Amazon Redshift Spectrum: para obtener más información, consulte Using Amazon Redshift Spectrum to Query External Data (Uso de Amazon Redshift Spectrum para consultar datos externos) en la Guía para desarrolladores de bases de datos Amazon Redshift.
-
Amazon EMR: para obtener más información, consulte Resource-Based Policies for Amazon EMR Access to AWS Glue Data Catalog (Uso de políticas basadas en recursos para acceso de Amazon EMR al ) en la Guía de administración de Amazon EMR.
-
AWS Glue Data CatalogCliente de para el almacén de metadatos de Apache Hive: para obtener más información sobre este GitHub proyecto, consulte AWS Glue Data CatalogCliente de para el almacén de metadatos de Apache Hive
.
Rastreadores y clasificadores de AWS Glue
AWS Glue también le permite configurar rastreadores que pueden analizar datos en toda clase de repositorios, clasificarlos, extraer información de esquema de ellos y almacenar los metadatos de forma automática en el AWS Glue Data Catalog. El AWS Glue Data Catalog se puede usar para guiar las operaciones de ETL.
Para obtener información acerca de cómo configurar rastreadores y clasificadores, consulte Definición de rastreadores en AWS Glue. Para obtener información acerca de cómo programar rastreadores y clasificadores mediante la API de AWS Glue, consulte API de rastreadores y clasificadores.
Operaciones de ETL de AWS Glue
Al usar los metadatos en el Data Catalog,AWS Glue puede generar automáticamente scripts de Scala o PySpark (la API de Python para Apache Spark) conAWS Glue extensiones de que puede usar y modificar para realizar diversas operaciones de ETL. Por ejemplo, puede extraer, limpiar y transformar datos sin formato y, a continuación, almacenar el resultado en un repositorio distinto, donde se puede consultar y analizar. Dicho script puede convertir un archivo CSV en un formato relacional y guardarlo en Amazon Redshift.
Para obtener más información acerca de cómo usar capacidades de ETL de AWS Glue, consulte Programación de scripts de ETL.
ETL de streaming en AWS Glue
AWS Glue le permite realizar operaciones de ETL en datos de streaming mediante trabajos en ejecución continua. ETL de streaming de AWS Glue se basa en el motor Apache Spark Structured Streaming, y puede capturar flujos de Amazon Kinesis Data Streams, Apache Kafka y Amazon Managed Streaming for Apache Kafka (Amazon MSK). ETL de streaming puede limpiar y transformar los datos de streaming y cargarlos en almacenes de datos de Amazon S3 o JDBC. Utilice ETL de streaming en AWS Glue para procesar datos de eventos como transmisiones de IoT, transmisiones de clics y registros de red.
Si conoce el esquema del origen de datos de streaming, puede especificarlo en una tabla del Data Catalog. De lo contrario, puede habilitar la detección de esquemas en el trabajo de ETL de streaming. El trabajo determinará en forma automática el esquema a partir de los datos entrantes.
El script de ETL puede usar las transformaciones incorporadas de AWS Glue y las transformaciones nativas de Apache Spark Structured Streaming. Para obtener más información, consulte Operaciones en DataFrames DataFrames/conjuntos de datos de streaming
Para obtener más información, consulte Trabajos ETL de streaming en AWS Glue.
El sistema de trabajos de AWS Glue
AWS Glue Jobs system proporciona infraestructura administrada para orquestar su flujo de flujo de trabajo de ETL. Puede crear trabajos en AWS Glue que automaticen los scripts que usa para extraer, transformar y transferir datos a distintas ubicaciones. Los trabajos se pueden programar y encadenar, o bien eventos como la llegada de nuevos datos pueden activarlos.
Para obtener más información acerca del uso de AWS Glue Jobs system, consulte Monitorización de AWS Glue. Para obtener información acerca de la programación del uso de la API de AWS Glue Jobs system, consulte API de trabajos.