圧縮形式 - Amazon Athena

圧縮形式

このセクションに記載されている圧縮形式は CREATE TABLE クエリで使用されます。CTAS クエリの場合、Athena では (Parquet および ORC に保存されているデータに対して) GZIP と SNAPPY がサポートされています。圧縮形式を省略すると、デフォルトで GZIP 形式が使用されます。詳細については、「CREATE TABLE AS」を参照してください。

Athena は以下の圧縮形式をサポートしています。

  • SNAPPY– これは Parquet データストレージ形式のファイルに対するデフォルトの圧縮形式です。

  • ZLIB– これは ORC データストレージ形式のファイルに対するデフォルトの圧縮形式です。

  • LZO

  • GZIP

  • BZIP2

注意事項とリソース

  • CSV、TSV、および JSON のデータについては、Athena がファイル拡張子から圧縮タイプを判断します。ファイル拡張子がない場合、Athena はデータを非圧縮プレーンテキストとして扱います。データが圧縮されている場合は、ファイル名に圧縮の拡張子 (gz など) が含まれていることを確認します。

  • ZIP ファイル形式はサポートされていません。

  • Athena から Amazon Kinesis Data Firehose ログをクエリする場合、サポートされる形式には GZIP 圧縮、または SNAPPY 圧縮を使用した ORC ファイルなどがあります。

  • 圧縮の使用の詳細については、AWS ビッグデータブログの「Amazon Athena のパフォーマンスチューニングのヒントトップ 10」のセクション 3 (「ファイルの圧縮と分割」)を参照してください。