Formatos de compresión - Amazon Athena

Formatos de compresión

Los formatos de compresión que se muestran en esta sección se utilizan para las consultas CREATE TABLE. Para las consultas CTAS, Athena admite GZIP y SNAPPY (para los datos almacenados en Parquet y ORC). Si se omite el formato, se utiliza GZIP de forma predeterminada. Para obtener más información, consulte CREATE TABLE AS.

Athena es compatible con los siguientes formatos de compresión:

  • SNAPPY: el formato de compresión predeterminado para los archivos con el formato de almacenamiento de datos Parquet.

  • ZLIB: el formato de compresión predeterminado para los archivos con el formato de almacenamiento de datos ORC.

  • LZO: formato que utiliza el algoritmo Lempel—Ziv—Oberhumer.

  • GZIP: Athena puede consultar datos en este formato directamente si los archivos de datos tienen la extensión .gz. No se requiere ninguna directiva especial en la instrucción CREATE TABLE.

  • BZIP2: formato que utiliza el algoritmo Burrows-Wheeler.

    nota

    En casos poco comunes, un problema conocido en la versión 1 del motor Athena puede provocar que los registros se descarten silenciosamente cuando se utiliza el formato BZIP2. Por esta razón, no se recomienda el uso del formato BZIP2 en la versión 1 del motor Athena.

Especificar formatos de compresión

Para especificar un formato de compresión para El SerDe de Parquet o El SerDe de ORC en una instrucción CREATE TABLE, utilice la cláusula TBLPROPERTIES. Para especificar un formato de compresión para Parquet u ORC en una instrucción CTAS, utilice la cláusula WITH. Para obtener más información, consulte Propiedades de tabla CTAS y Example: Specifying Data Storage and Compression Formats.

Notas y recursos

  • Para datos en CSV, TSV y JSON, Athena determina el tipo de compresión a partir de la extensión de archivo. Si no hay ninguna extensión de archivo, Athena trata los datos como texto sin formato y sin comprimir. Si los datos están comprimidos, asegúrese de que el nombre de archivo incluye la extensión de compresión como, por ejemplo, gz.

  • No se admite el formato de archivo ZIP.

  • Para consultar registros de Amazon Kinesis Data Firehose desde Athena, los formatos admitidos incluyen la compresión GZIP o archivos ORC con compresión SNAPPY.

  • Para obtener más información sobre el uso de la compresión, consulte la sección 3 ("Compress and split files") de la entrada del blog de big data de AWS Top 10 Performance Tuning Tips for Amazon Athena.