圧縮形式 - Amazon Athena

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

圧縮形式

このセクションに記載されている圧縮形式は CREATE TABLE クエリで使用されます。CTAS クエリの場合、Athena は (Parquet および ORC に保存されているデータに対して) GZIP と SNAPPY をサポートしています。圧縮形式を省略すると、デフォルトで GZIP 形式が使用されます。詳細については、「CREATE TABLE AS」を参照してください。

Athena は以下の圧縮形式をサポートしています。

  • SNAPPY— Parquet データストレージ形式のファイルに対するデフォルトの圧縮形式です。

  • ZLIB— ORC データストレージ形式のファイルに対するデフォルトの圧縮形式です。

  • LZO— レンペル—Ziv—Oberhumer アルゴリズムを使用するフォーマット。

  • GZIP— Athena は、データファイルに.gz拡張機能。特別なディレクティブはCREATE TABLE表示されます。

  • BZIP2— Burrows-Wheeler アルゴリズムを使用するフォーマット。

    注記

    まれに、Athena エンジンバージョン 1 の既知の問題により、BZIP2形式が使用されます。このため、BZIP2フォーマットは、Athena エンジンバージョン 1 では推奨されません。

圧縮形式の指定

圧縮形式を指定するにはParquet SerDeまたはORC SerDeCREATE TABLEステートメントを使用する場合は、TBLPROPERTIES句 Parquet または ORC の圧縮形式をCTAS 句ステートメントを使用する場合は、WITH句 詳細については、「CTAS テーブルのプロパティ」および「Example: Specifying Data Storage and Compression Formats」を参照してください。

注意事項とリソース

  • CSV、TSV、および JSON のデータについては、Athena がファイル拡張子から圧縮タイプを判断します。ファイル拡張子がない場合、Athena はデータを非圧縮プレーンテキストとして扱います。データが圧縮されている場合は、ファイル名に圧縮の拡張子 (gz など) が含まれていることを確認します。

  • ZIP ファイル形式はサポートされていません。

  • Athena から Amazon Kinesis Data Firehose ログをクエリする場合、サポートされる形式には GZIP 圧縮、または SNAPPY 圧縮を使用した ORC ファイルなどがあります。

  • 圧縮の使用の詳細については、AWS ビッグデータブログのセクション 3 (「ファイルの圧縮と分割」) を参照してください。Amazon Athena のパフォーマンスチューニングに関するトップ 10 のヒント