Formatos de compresión - Amazon Athena

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Formatos de compresión

Los formatos de compresión que se muestran en esta sección se utilizan para las consultas CREATE TABLE. Para las consultas CTAS, Athena admite GZIP y SNAPPY (para los datos almacenados en Parquet y ORC). Si se omite el formato, se utiliza GZIP de forma predeterminada. Para obtener más información, consulte CREATE TABLE AS.

Athena es compatible con los siguientes formatos de compresión:

  • SNAPPY— el formato de compresión predeterminado para los archivos con el formato de almacenamiento de datos Parquet.

  • ZLIB— el formato de compresión predeterminado para los archivos con el formato de almacenamiento de datos ORC.

  • LZO— Formato que utiliza el algoritmo Lempel—Ziv—Oberhumer.

  • GZIP— Athena puede consultar datos en este formato directamente si los archivos de datos tienen el.gz. No se requiere ninguna directiva especial en elCREATE TABLEstatement.

  • BZIP2— Formato que utiliza el algoritmo Burrows-Wheeler.

    nota

    En casos raros, un problema conocido en la versión 1 del motor Athena puede provocar que los registros se descarten silenciosamente cuando elBZIP2se utiliza el formato. Por esta razón, el uso de laBZIP2en la versión 1 del motor Athena no se recomienda.

Especificación de formatos de compresión

Para especificar un formato de compresión para elEl SerDe de ParquetorEl SerDe de ORCen unCREATE TABLE, utilice la instrucciónTBLPROPERTIEScláusula. Para especificar un formato de compresión para Parquet u ORC en unCTAS, utilice la instrucciónWITHcláusula. Para obtener más información, consulte Propiedades de tabla CTAS y Example: Specifying Data Storage and Compression Formats.

Notas y recursos

  • Para datos en CSV, TSV y JSON, Athena determina el tipo de compresión a partir de la extensión de archivo. Si no hay ninguna extensión de archivo, Athena trata los datos como texto sin formato y sin comprimir. Si los datos están comprimidos, asegúrese de que el nombre de archivo incluye la extensión de compresión como, por ejemplo, gz.

  • No se admite el formato de archivo ZIP.

  • Para consultar registros de Amazon Kinesis Data Firehose desde Athena, los formatos admitidos incluyen la compresión GZIP o archivos ORC con compresión SNAPPY.

  • Para obtener más información sobre el uso de la compresión, consulte la sección 3 ("Compress and split files") de la entrada del blog de big data de AWS Top 10 Performance Tuning Tips for Amazon Athena.