¿Qué es AWS Glue? - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

¿Qué es AWS Glue?

AWS Glue es un servicio completamente administrado de ETL (extracción, transformación y carga) que proporciona una forma más rentable y sencilla de categorizar los datos, limpiarlos, enriquecerlos y moverlos de manera fiable entre distintos almacenes de datos y transmisiones de datos. AWS Glue consta de un repositorio de metadatos central conocido como AWS Glue Data Catalog, un motor de ETL que genera automáticamente código Python o Scala y un programador flexible que se encarga de la resolución de dependencias, el monitoreo de los trabajos y la aplicación de reintentos. AWS Glue no usa servidor, por lo que no hay ninguna infraestructura que configurar ni administrar.

AWS Glue está diseñado para trabajar con datos semiestructurados. Presenta un componente llamado marco dinámico, que puede usar en sus scripts de ETL. Un marco dinámico es similar a un marco de datos Apache Spark, que es una abstracción de datos utilizada para organizar los datos en filas y columnas, excepto que cada registro se autodescribe, por lo que no se requiere ningún esquema inicialmente. Con los marcos dinámicos, obtiene flexibilidad de esquema y un conjunto de transformaciones avanzadas diseñadas específicamente para marcos dinámicos. Puede convertir entre marcos dinámicos y marcos de datos de Spark, de modo que pueda aprovechar las transformaciones de Spark y de AWS Glue para realizar los tipos de análisis que desee.

Puede usar la consola de AWS Glue para detectar datos, transformarlos y hacer que estén disponibles para búsquedas y consultas. La consola llama a los servicios subyacentes para orquestar el flujo de trabajo necesario para transformar sus datos. También puede usar las operaciones de la AWS Glue API interaccionar con servicios de AWS Glue. Edite, depure y pruebe su código ETL de Apache Spark de Python o Scala mediante un entorno de desarrollo que le resulte familiar.

Para obtener información acerca de los precios, consulte Precios de AWS Glue.

¿Cuándo debo usar AWS Glue?

Puede usarAWS Gluepara organizar, limpiar, validar y dar formato a los datos para su almacenamiento en un almacén de datos o lago de datos. Puede transformar y mover Nube de AWS a su almacén de datos. También puede cargar datos de orígenes de datos diferentes o de streaming en su almacenamiento de datos o en su lago de datos para realizar análisis y obtener informes de manera periódica. Al almacenarlos en un almacén de datos o un lago de datos, puede integrar información de diversas partes de su empresa y proporcionar un origen de datos común para la toma de decisiones.

AWS Glue simplifica muchas tareas cuando crea un almacén de datos o un lago de datos:

  • Descubre y cataloga metadatos acerca de sus almacenes de datos en un catálogo central. Puede procesar datos semiestructurados, como registros de procesos o secuencias de clics.

  • Rellena AWS Glue Data Catalog con definiciones de tabla desde programas del rastreador programados. Los rastreadores llaman a la lógica del clasificador para inferir el esquema, el formato y los tipos de datos de sus datos. Estos metadatos se almacenan como tablas en AWS Glue Data Catalog y se usan en el proceso de creación de sus trabajos de ETL.

  • Genera scripts ETL para transformar, acoplar y enriquecer sus datos del origen al destino.

  • Detecta cambios de esquema y se adapta según sus preferencias.

  • Activa sus trabajos de ETL según una programación o evento. Puede iniciar trabajos automáticamente para mover sus datos a su almacén de datos o a su lago de datos. Los disparadores se pueden usar para crear un flujo de dependencia entre los trabajos.

  • Recopila métricas en tiempo de ejecución para monitorear las actividades de su almacén de datos o su lago de datos.

  • Administra errores y reintentos de forma automática.

  • Escala recursos, según las necesidades, para ejecutar sus trabajos.

Puede usarAWS Glueal ejecutar consultas sin servidor en su lago de datos de Amazon S3. AWS GluePuede catalogar sus datos de Amazon Simple Storage Service (Amazon S3) y hacerlo disponible para su consulta con Amazon Athena y Amazon Redshift Spectrum. Con los rastreadores, sus metadatos permanecen sincronizados con los datos subyacentes. Athena y Redshift Spectrum pueden consultar directamente su lago de datos de Amazon S3 medianteAWS Glue Data Catalog. Con AWS Glue, puede obtener acceso a datos y analizarlos a través de una interfaz unificada sin cargarlos en varios silos de datos.

Puede crear canalizaciones ETL basadas en eventos conAWS Glue. Puede ejecutar sus trabajos de ETL tan pronto como los nuevos datos estén disponibles en Amazon S3 invocando suAWS GlueCreación de trabajos ETL desdeAWS Lambdafunción. Como parte de los trabajos de ETL, también puede registrar el nuevo conjunto de datos en AWS Glue Data Catalog.

Puede usarAWS Gluepara entender sus recursos de datos. Puede almacenar sus datos utilizando variosAWSy seguir manteniendo una perspectiva unificada de sus datos medianteAWS Glue Data Catalog. Vea el catálogo de datos para buscar y descubrir rápidamente los conjuntos de datos que posee y mantenga los metadatos relevantes en un repositorio central. también sirve como un reemplazo inmediato para su metaalmacén de Apache Hive externo.