圧縮形式 - Amazon Athena

圧縮形式

このセクションにリストされている圧縮形式は CREATE TABLE クエリで使用されます。CTAS クエリについては、GZIP と SNAPPY (Parquet および ORC 形式で保存されているデータ向け) が Athena でサポートされています。圧縮形式を省略すると、デフォルトで GZIP 形式が使用されます。詳細については、「CREATE TABLE AS」を参照してください。

Athena は以下の圧縮形式をサポートしています。

  • SNAPPY – Parquet データストレージ形式のファイル向けのデフォルト圧縮形式です。

  • ZLIB – ORC データストレージ形式のファイル向けのデフォルト圧縮形式です。

  • LZO – Lempel–Ziv–Oberhumer アルゴリズムを使用する形式です。

  • GZIP – Athena は、データファイルに .gz 拡張子がある場合、この形式のデータを直接クエリできます。CREATE TABLE ステートメントに特別なディレクティブは必要ありません。

  • BZIP2 – Burrows-Wheeler アルゴリズムを使用する形式です。

    注記

    まれに、Athena エンジンバージョン 1 の既知の問題が原因で、BZIP2 形式の使用時にレコードがサイレントにドロップされる場合があります。このため、Athena エンジンバージョン 1 での BZIP2 形式の使用は推奨されません。

圧縮形式の指定

CREATE TABLE ステートメントの Parquet SerDe または ORC SerDe に圧縮形式を指定するには、PROPERTIOS 句を使用します。CTAS ステートメントで Parquet または ORC の圧縮形式を指定するには、WITH 句を使用します。詳細については、「CTAS テーブルのプロパティ」および「Example: Specifying Data Storage and Compression Formats」を参照してください。

注意事項とリソース

  • CSV、TSV、および JSON のデータについては、Athena がファイル拡張子から圧縮タイプを判断します。ファイル拡張子がない場合、Athena はデータを非圧縮のプレーンテキストとして扱います。データが圧縮されている場合は、ファイル名に圧縮の拡張子 (gz など) が含まれていることを確認します。

  • ZIP ファイル形式はサポートされていません。

  • Athena からの Amazon Kinesis Data Firehose ログのクエリについては、サポートされる形式に GZIP 圧縮、または ORC ファイルでの SNAPPY 圧縮が含まれます。

  • 圧縮の使用の詳細については、AWS ビッグデータブログの「Amazon Athena のパフォーマンスチューニングのヒントトップ 10」のセクション 3 (「ファイルの圧縮と分割」)を参照してください。