Creación de tablas para los trabajos de ETL - Amazon Athena

Creación de tablas para los trabajos de ETL

Puede utilizar Athena para crear tablas que AWS Glue pueda utilizar para los trabajos de ETL. Los trabajos de AWS Glue realizan operaciones de ETL. Un trabajo de AWS Glue ejecuta un script que extrae datos de las fuentes, los transforma y los carga en los destinos. Para obtener más información, consulte la sección sobre creación de trabajos en GlueAWS en la Guía para desarrolladores de AWS Glue.

Creación de tablas en Athena para los trabajos de ETL de AWS Glue

Es necesario agregar a las tablas que cree en Athena una propiedad denominada classification, que identifica el formato de los datos. Esto permite a AWS Glue utilizar las tablas para trabajos de ETL. Los valores de clasificación pueden ser avro, csv, json, orc, parquet o xml. A continuación, se muestra un ejemplo de instrucción CREATE TABLE en Athena:

CREATE EXTERNAL TABLE sampleTable ( column1 INT, column2 INT ) STORED AS PARQUET TBLPROPERTIES ( 'classification'='parquet')

Si no se añadió la propiedad de classification al crear la tabla, puede hacerse ahora por medio de la consola de AWS Glue.

Para agregar la propiedad de clasificación con la consola de AWS Glue
  1. Inicie sesión en la AWS Management Console y abra la consola de AWS Glue en https://console.aws.amazon.com/glue/.

  2. En el panel de navegación de la consola, elija Tables (Tablas).

  3. Elija el enlace para la tabla que quiere editar y, a continuación, elija Actions (Acciones), Edit table details (Editar detalles de la tabla).

  4. Desplácese hacia abajo hasta la sección Table properties (Propiedades de la tabla).

  5. Elija Añadir.

  6. En Clave, escriba classification.

  7. En Value (Valor), especifique un tipo de datos (por ejemplo, json).

  8. Seleccione Guardar.

    En la sección Table details (Detalles de la tabla), el tipo de datos que ha especificado aparecerá en el campo Classification (Clasificación) de la tabla.

Para obtener más información, consulte Uso de tablas en la Guía para desarrolladores de AWS Glue.

Uso de los trabajos de ETL para optimizar el rendimiento de las consultas

Los trabajos de AWS Glue son útiles para transformar los datos a un formato que optimice el rendimiento de las consultas en Athena. Los formatos de datos tienen un gran impacto en el rendimiento y el costo de las consultas en Athena.

AWS Glue es compatible con la escritura en los formatos de datos Parquet y ORC. Se puede utilizar esta característica para transformar los datos y utilizarlos en Athena. Para obtener más información sobre el uso de Parquet y ORC, y otras formas de mejorar el rendimiento en Athena, consulte los 10 mejores consejos para ajustar el rendimiento de Amazon Athena.

nota

Para reducir la probabilidad de que Athena no pueda leer los tipos de datos SMALLINT y TINYINT generados por un trabajo de ETL de AWS Glue, convierta SMALLINT y TINYINT a INT cuando crea un trabajo de ETL que convierte los datos en ORC.

Automatización de trabajos de AWS Glue para ETL

Puede configurar los trabajos de ETL de AWS Glue para que se ejecuten automáticamente basándose en desencadenadores. Esta característica es ideal cuando se insertan datos del exterior de AWS en un bucket de Amazon S3, en un formato que es ineficiente para realizar consultas en Athena. Para obtener más información, consulte Desencadenar trabajos de AWS Glue en la Guía para desarrolladores de AWS Glue.