¿Qué es AWS Glue? - AWS Glue

¿Qué es AWS Glue?

AWS Glue es un servicio de integración de datos sin servidor que facilita a los usuarios de análisis descubrir, preparar, migrar e integrar datos de varios orígenes. Puede utilizarlo para análisis, machine learning y desarrollo de aplicaciones. También incluye herramientas adicionales de productividad y operaciones de datos para la creación, la ejecución de trabajos y la implementación de flujos de trabajo empresariales.

Con AWS Glue, puede descubrir y conectarse a más de 70 orígenes de datos diversos y administrar sus datos en un catálogo de datos centralizado. Puede crear, ejecutar y supervisar visualmente canalizaciones de extracción, transformación y carga (ETL) para cargar datos en los lagos de datos. Además, puede buscar y consultar datos catalogados de forma inmediata mediante Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.

AWS Glue combina las principales capacidades de integración de datos en un solo servicio. Estas capacidades incluyen el descubrimiento de datos, el ETL moderno, la limpieza, la transformación y la catalogación centralizada. Además, es un servicio sin servidor, lo que significa que no hay infraestructura para administrar. Con compatibilidad flexible para todas las cargas de trabajo como ETL, ELT y streaming en un solo servicio, AWS Glue admite usuarios en varias cargas de trabajo y varios tipos de usuarios.

Además, AWS Glue facilita la integración de datos en toda la arquitectura. Se integra con los servicios de análisis de AWS y los lagos de datos de Amazon S3. AWS Glue tiene interfaces de integración y herramientas de creación de trabajo que son fáciles de utilizar para todos los usuarios, desde desarrolladores hasta usuarios empresariales, con soluciones personalizadas para diversos conjuntos de habilidades técnicas.

Gracias a la capacidad de escalar bajo demanda, AWS Glue ayuda a centrarse en actividades de gran valor que maximizan el valor de los datos. Escala para cualquier tamaño de datos y admite todos los tipos de datos y las variaciones de esquema. Para aumentar la agilidad y optimizar los costos, AWS Glue brinda alta disponibilidad integrada y facturación de pago por uso.

Para obtener información sobre los precios, consulte Precios de AWS Glue.

AWS Glue Studio

AWS Glue Studio es una interfaz gráfica que facilita la creación, la ejecución y la supervisión de trabajos de integración de datos en AWS Glue. Puede componer visualmente flujos de trabajo de transformación de datos y ejecutarlos sin problemas en el motor de ETL sin servidor basado en Apache Spark en AWS Glue. Para obtener más información, consulte ¿Qué es AWS Glue Studio?

Con AWS Glue Studio, puede crear y administrar trabajos que recopilan, transforman y limpian datos. También puede utilizar AWS Glue Studio para solucionar problemas y editar scripts de trabajo.

Características de AWS Glue

Las características de AWS Glue se dividen en tres categorías principales:

  • Descubrimiento y organización de datos

  • Transformación, preparación y limpieza de datos para análisis

  • Creación y supervisión de canalizaciones de datos

Descubrimiento y organización de datos

  • Unificación y búsqueda en varios almacenes de datos: almacene, indexe y busque en varios receptores y orígenes de datos mediante la catalogación de todos los datos en AWS.

  • Descubrimiento automático de datos: utilice rastreadores de AWS Glue para inferir de forma automática la información del esquema e integrarla en AWS Glue Data Catalog.

  • Administración de esquemas y permisos: valide y controle el acceso a las bases de datos y las tablas.

  • Conexión a una amplia variedad de orígenes de datos: acceda a varios orígenes de datos, tanto en las instalaciones como en AWS, mediante las conexiones de AWS Glue para crear su lago de datos.

Transformación, preparación y limpieza de datos para análisis

  • Transformaciones visuales de datos con una interfaz de arrastrar y soltar: defina el proceso de ETL en el editor de trabajos de arrastrar y soltar, y genere de forma automática el código para extraer, transformar y cargar los datos.

  • Creación de canalizaciones de ETL complejas con programación de trabajo sencilla: invoque trabajos de AWS Glue según un horario, bajo demanda o en función de un evento.

  • Limpieza y transformación de datos de streaming en tránsito: habilite el consumo continuo de datos, y límpielos y transfórmelos en tránsito. Esto hace que estén disponible para analizar en cuestión de segundos en el almacén de datos de destino.

  • Deduplicación y limpieza de datos con machine learning integrado: limpie y prepare los datos para analizar sin convertirse en un experto en machine learning mediante el uso de la característica FindMatches. Esta característica deduplica y busca registros que son coincidencias imperfectas entre sí.

  • Cuadernos de trabajo integrados: los cuadernos de trabajo de AWS Glue Studio brindan cuadernos sin servidor con una configuración mínima de AWS Glue Studio para que pueda comenzar a trabajar rápidamente.

  • Edición, depuración y prueba del código de ETL: con las sesiones interactivas de AWS Glue, puede explorar y preparar datos de forma interactiva. Puede explorar, experimentar y procesar datos de forma interactiva con el IDE o el cuaderno que elija.

  • Definición, detección y corrección de datos confidenciales: la detección de datos confidenciales de AWS Glue permite definir, identificar y procesar datos confidenciales en la canalización de datos y en el lago de datos.

Creación y supervisión de canalizaciones de datos

  • Escalado automático según la carga de trabajo: escale y reduzca verticalmente y de forma dinámica los recursos en función de la carga de trabajo. Esto asigna trabajo a los trabajadores solo cuando es necesario.

  • Automatización de trabajos con desencadenadores basados en eventos: inicie rastreadores o trabajos de AWS Glue con desencadenadores basados en eventos, y diseñe una cadena de trabajos y rastreadores dependientes.

  • Ejecución y supervisión de trabajos: ejecute los trabajos de AWS Glue y, luego, supervíselos con herramientas de supervisión automatizadas, la interfaz de usuario de Apache Spark, la información de ejecuciones de trabajos de AWS Glue y AWS CloudTrail.

  • Definición de flujos de trabajo para ETL y actividades de integración: defina los flujos de trabajo para ETL y las actividades de integración para varios rastreadores, trabajos y desencadenadores.

Introducción a AWS Glue

Le recomendamos que lea las siguientes secciones:

Acceso a AWS Glue

Puede crear, ver y administrar los trabajos de AWS Glue con cualquiera de las siguientes interfaces:

  • Consola de AWS Glue: brinda una interfaz web para que pueda crear, ver y administrar los trabajos de AWS Glue. Para obtener acceso a la consola, consulte Consola de AWS Glue.

  • AWS Glue Studio: brinda una interfaz gráfica para que pueda crear y editar visualmente los trabajos de AWS Glue. Para obtener más información, consulte ¿Qué es AWS Glue Studio?

  • Sección AWS Glue de la referencia de la AWS CLI: brinda comandos de la AWS CLI que se pueden utilizar con AWS Glue. Para obtener más información, consulte Referencia de la AWS CLI para AWS Glue.

  • API de AWS Glue: brinda una referencia de API completa para los desarrolladores. Para obtener más información, consulte API de AWS Glue.

Los usuarios de AWS Glue también utilizan lo siguiente:

  • AWS Lake Formation : un servicio que es una capa de autorización que brinda un control de acceso minucioso a los recursos en AWS Glue Data Catalog.

  • AWS Glue DataBrew : una herramienta de preparación de datos visual que se puede utilizar para limpiar y normalizar datos sin escribir ningún código.