¿Qué es AWS Glue? - AWS Glue

¿Qué es AWS Glue?

AWS Glue es un servicio completamente administrado de ETL (extracción, transformación y carga) que proporciona una forma más rentable y sencilla de categorizar los datos, limpiarlos, enriquecerlos y moverlos de manera fiable entre distintos almacenes de datos y transmisiones de datos. AWS Glue consta de un repositorio de metadatos central conocido como AWS Glue Data Catalog, un motor de ETL que genera automáticamente código Python o Scala y un programador flexible que se encarga de la resolución de dependencias, el monitoreo de los trabajos y la aplicación de reintentos. AWS Glue no usa servidor, por lo que no hay ninguna infraestructura que configurar ni administrar.

AWS Glue está diseñado para trabajar con datos semiestructurados. Presenta un componente llamado marco dinámico, que puede usar en sus scripts de ETL. Un marco dinámico es similar a un marco de datos Apache Spark, que es una abstracción de datos utilizada para organizar los datos en filas y columnas, excepto que cada registro se autodescribe, por lo que no se requiere ningún esquema inicialmente. Con los marcos dinámicos, obtiene flexibilidad de esquema y un conjunto de transformaciones avanzadas diseñadas específicamente para marcos dinámicos. Puede convertir entre marcos dinámicos y marcos de datos de Spark, de modo que pueda aprovechar las transformaciones de Spark y de AWS Glue para realizar los tipos de análisis que desee.

Puede usar la consola de AWS Glue para detectar datos, transformarlos y hacer que estén disponibles para búsquedas y consultas. La consola llama a los servicios subyacentes para orquestar el flujo de trabajo necesario para transformar sus datos. También puede usar las operaciones de la AWS Glue API interaccionar con servicios de AWS Glue. Edite, depure y pruebe su código ETL de Apache Spark de Python o Scala mediante un entorno de desarrollo que le resulte familiar.

Para obtener información acerca de los precios, consulte AWS Glue Pricing (Precios de Glue).

¿Cuándo debo usar AWS Glue?

Puede utilizar la AWS Glue para organizar, limpiar, validar y dar formato a los datos para su almacenamiento en un almacén de datos o lago de datos. Puede transformar y mover datos de Nube de AWS a su almacén de datos. También puede cargar datos de orígenes de datos diferentes o de streaming en su almacenamiento de datos o en su lago de datos para realizar análisis y obtener informes de manera periódica. Al almacenarlos en un almacén de datos o un lago de datos, puede integrar información de diversas partes de su empresa y proporcionar un origen de datos común para la toma de decisiones.

AWS Glue simplifica muchas tareas cuando crea un almacén de datos o un lago de datos:

  • Descubre y cataloga metadatos acerca de sus almacenes de datos en un catálogo central. Puede procesar datos semiestructurados, como registros de procesos o secuencias de clics.

  • Rellena AWS Glue Data Catalog con definiciones de tabla desde programas del rastreador programados. Los rastreadores llaman a la lógica del clasificador para inferir el esquema, el formato y los tipos de datos de sus datos. Estos metadatos se almacenan como tablas en AWS Glue Data Catalog y se usan en el proceso de creación de sus trabajos de ETL.

  • Genera scripts ETL para transformar, acoplar y enriquecer sus datos del origen al destino.

  • Detecta cambios de esquema y se adapta según sus preferencias.

  • Activa sus trabajos de ETL según una programación o evento. Puede iniciar trabajos automáticamente para mover sus datos a su almacén de datos o a su lago de datos. Los disparadores se pueden usar para crear un flujo de dependencia entre los trabajos.

  • Recopila métricas en tiempo de ejecución para monitorear las actividades de su almacén de datos o su lago de datos.

  • Administra errores y reintentos de forma automática.

  • Escala recursos, según las necesidades, para ejecutar sus trabajos.

Puede usar AWS Glue al ejecutar consultas sin servidor en su lago de datos de Amazon S3. AWS Glue puede catalogar sus datos de Amazon Simple Storage Service (Amazon S3) para que puedan consultarse con Amazon Athena y Amazon Redshift Spectrum. Con los rastreadores, sus metadatos permanecen sincronizados con los datos subyacentes. Athena y Redshift Spectrum pueden consultar directamente su lago de datos de Amazon S3 mediante el AWS Glue Data Catalog. Con AWS Glue, puede obtener acceso a datos y analizarlos a través de una interfaz unificada sin cargarlos en varios silos de datos.

Puede crear canalizaciones ETL basadas en eventos con AWS Glue. Puede ejecutar sus trabajos de ETL tan pronto como los nuevos datos estén disponibles en Amazon S3, al invocar sus trabajos de ETL de AWS Glue desde una función de AWS Lambda. Como parte de los trabajos de ETL, también puede registrar el nuevo conjunto de datos en AWS Glue Data Catalog.

Puede usar AWS Glue para entender sus recursos de datos. Puede almacenar sus datos mediante diversos servicios de AWS y seguir manteniendo una perspectiva unificada de sus datos mediante AWS Glue Data Catalog. Consulte el Data Catalog para buscar y descubrir rápidamente los conjuntos de datos que posee y mantenga los metadatos relevantes en un repositorio central. Data Catalog también funciona como un reemplazo instantáneo para su metaalmacén de Apache Hive externo.