Formatos de datos y SerDes compatibles - Amazon Athena

Formatos de datos y SerDes compatibles

Athena permite crear tablas y consultar datos de archivos en formato CSV, TSV, con delimitación personalizada, y JSON; datos en formatos relacionaos con Hadoop: ORC, Apache Avro y Parquet; registros de Logstash, registros de AWS CloudTrail y registros de Apache WebServer.

nota

Athena utiliza los formatos que se indican en esta sección para leer los datos. Para obtener información sobre los formatos que utiliza Athena para escribir datos cuando ejecuta consultas CTAS, consulte Creación de una tabla a partir de los resultados de una consulta (CTAS).

Para crear tablas y consultar datos de archivos con estos formatos en Athena, especifique una clase de serializador-deserializador (SerDe) para que Athena sepa qué formato se utiliza y cómo analizar los datos.

Esta tabla enumera los formatos de datos compatibles con Athena y sus bibliotecas SerDe correspondientes.

Un SerDe es una biblioteca personalizada que indica al catálogo de datos que utiliza Athena cómo gestionar los datos. El tipo de SerDe se especifica indicándolo explícitamente en la parte ROW FORMAT de la instrucción CREATE TABLE en Athena. En algunos casos, puede omitir el nombre del SerDe, porque Athena utiliza algunos tipos de SerDe de forma predeterminada para ciertos tipos de formatos de datos.

Formatos de datos compatibles y SerDes
Formato de los datos Descripción Tipos de SerDe admitidos en Athena
Amazon Ion Amazon Ion es un formato de datos altamente codificado y autodescriptivo que constituye un superconjunto de JSON, de código abierto y desarrollado por Amazon. Utilice SerDe de Amazon Ion Hive.

Apache Avro

Formato de almacenamiento de datos en Hadoop que utiliza esquemas basados en JSON para registrar valores.

Utilice El SerDe de Avro.

Apache Parquet

Formato para almacenamiento de datos en columnas en Hadoop.

Utilice la compresión El SerDe de Parquet y SNAPPY.

Registros de Apache WebServer

Formato para almacenar registros de Apache WebServer.

Use El SerDe de Grok o SerDe de Regex.

Registros de CloudTrail

Formato para almacenar registros de CloudTrail.

CSV (valores separados por comas)

En los datos con formato CSV, cada línea representa un registro de datos y cada registro se compone de uno o varios campos separados por comas.

Delimitación personalizada

En los datos con este formato, cada línea representa un registro de datos y los registros están separados por un delimitadores de caracteres únicos personalizado.

Utilice LazySimpleSerDe para CSV, TSV y archivos con delimitación personalizada y especifique un delimitador personalizado de un solo carácter.

JSON (JavaScript Object Notation)

En los datos JSON, cada línea representa un registro de datos y cada registro se compone de pares y matrices atributo-valor separados por comas.

Registros de Logstash

Formato para almacenar registros de Logstash.

Utilice El SerDe de Grok.

ORC (Almacenamiento de filas en columnas optimizado)

Formato para almacenamiento en columnas optimizado de datos de Hive.

Utilice la compresión El SerDe de ORC y ZLIB.

TSV (valores separados por tabulaciones)

En los datos con formato TSV, cada línea representa un registro de datos y cada registro se compone de uno o varios campos separados por tabuladores.

Utilice LazySimpleSerDe para CSV, TSV y archivos con delimitación personalizada y especifique el carácter separador como FIELDS TERMINATED BY '\t'.