AWS GlueConceptos de - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS GlueConceptos de

En el siguiente diagrama se muestra la arquitectura de un entorno de AWS Glue


            Los conceptos básicos que rellenan su Data Catalog y procesan el flujo de datos de ETL en AWS Glue.

Puede definir trabajos en AWS Glue para realizar el trabajo necesario para extraer, transformar y cargar datos (ETL) desde un origen de datos a un destino de datos. Normalmente, usted llevará a cabo las siguientes acciones:

  • Para orígenes de almacén de datos, debe definir un rastreador para rellenar su AWS Glue Data Catalog con definiciones de tabla de metadatos. Puede dirigir su rastreador a un almacén de datos y el rastreador crea definiciones de tabla en el Data Catalog. Para orígenes de streaming, se definen manualmente tablas de Data Catalog y se especifican las propiedades de transmisión de datos.

    Además de las definiciones de tabla, el AWS Glue Data Catalog contiene otros metadatos necesarios para definir los trabajos de ETL. Utilizará estos metadatos al definir un flujo de trabajo para transformar sus datos.

  • AWS Glue puede generar un script para transformar sus datos. O bien, puede proporcionar el script en la consola o API de AWS Glue

  • Puede ejecutar el flujo de trabajo bajo demanda o configurarlo para que se inicie cuando se produzca un disparador especificado. El disparador puede corresponder a una programación basada en tiempo o a un evento.

    Al ejecutarse su flujo de trabajo, un script extrae datos de su origen de datos, transforma los datos y los carga en su destino de datos. El script se ejecuta en un entorno Apache Spark en AWS Glue.

importante

Las tablas y las bases de datos de AWS Glue son objetos en el AWS Glue Data Catalog. Contienen metadatos; no datos de un almacén de datos.

Los datos basados en texto, como CSVs, deben estar codificados en UTF-8 para AWS Glue que los procese correctamente. Para obtener más información, consulte UTF-8 en Wikipedia.

AWS GlueTerminología de

AWS Glue se basa en la interacción de varios componentes para crear y administrar su flujo de trabajo de extracción, transferencia y carga (ETL).

AWS Glue Data Catalog

El almacén de metadatos persistentes en AWS Glue. Contiene definiciones de tablas, definiciones de trabajos y otra información de control para administrar su entorno de AWS Glue Cada cuenta de AWS tiene una AWS Glue Data Catalog por región.

Classifier

Determina el esquema de sus datos. AWS Glue proporciona clasificadores para tipos de archivos comunes, como CSV, JSON, AVRO, XML y otros. También proporciona clasificadores para sistemas de administración de bases de datos relacionales comunes mediante una conexión de JDBC. Puede escribir su propio clasificador mediante un patrón de grok o especificando una etiqueta de fila en un documento XML.

Connection

Un objeto de Data Catalog que contiene las propiedades necesarias para conectarse a un almacén de datos determinado.

Crawler

Un programa que se conecta a un almacén de datos (origen o destino), avanza por una lista de prioridades de clasificadores para determinar el esquema de sus datos y, a continuación, crea tablas de metadatos en el AWS Glue Data Catalog.

Database

Un conjunto de definiciones de tabla de Data Catalog asociadas organizadas en un grupo lógico.

Almacén de datos, origen de datos, destino de datos

Un almacén de datos es un repositorio para almacenar los datos de forma persistente. Entre los ejemplos se incluyen buckets de Amazon S3 y bases de datos relacionales. Un origen de datos es un almacén de datos que se utiliza como entrada para un proceso o transformación. Un destino de datos es un almacén de datos en el que escribe un proceso o una transformación.

Punto de enlace de desarrollo

Un entorno que puede utilizar para desarrollar y probar los scripts ETL de AWS Glue

Marco dinámico

Tabla distribuida que admite datos anidados como estructuras y matrices. Cada registro se autodescribe y está diseñado para flexibilidad de esquemas con datos semiestructurados. Cada registro contiene tanto los datos como el esquema que describe esos datos. Puede utilizar marcos dinámicos y Apache Spark DataFrames en sus scripts de ETL y realizar conversiones entre ellos. Las tramas dinámicas proporcionan un conjunto de transformaciones avanzadas para la limpieza de datos y ETL.

Job

La lógica de negocio que es necesaria para realizar el flujo de trabajo de ETL. Se compone de un script de transformación, orígenes de datos y destinos de datos. Las ejecuciones de trabajos pueden iniciarse a partir de disparadores programados o activados por eventos.

Servidor de blocs de notas

Un entorno basado en web que puede utilizar para ejecutar sus PySpark instrucciones. PySpark es un dialecto de Python para la programación de ETL. Para obtener más información, consulte Apache Zeppelin. Puede configurar un servidor de blocs de notas en un punto de enlace de desarrollo para ejecutar PySpark instrucciones con AWS Glue extensiones de .

Script

Código que extrae datos de orígenes, los transforma y los carga en destinos. AWS Glue genera scripts PySpark o Scala.

Table

La definición de metadatos que representa sus datos. Independientemente de si sus datos están en un archivo de Amazon Simple Storage Service (Amazon S3), una tabla de Amazon Relational Database Service (Amazon RDS) u otro conjunto de datos, las tablas definen el esquema de sus datos. Una tabla de AWS Glue Data Catalog está formada por los nombres de las columnas, las definiciones de tipos de datos, la información de partición y otros metadatos acerca de un conjunto de datos base. El esquema de sus datos viene representado en su definición de tabla de AWS Glue Los datos reales permanecen en su almacén de datos original, ya sea en un archivo o en una tabla de base de datos relacional. AWS Glue cataloga sus archivos y tablas de bases de datos relacionales en el AWS Glue Data Catalog. Estos se usan como orígenes y destinos al crear un flujo de trabajo de ETL.

Transform

La lógica de código que se usa para manipular sus datos en un formato diferente.

Trigger

Inicia un flujo de trabajo de ETL. Los disparadores se pueden definir según un momento programado o un evento.