Amazon Athena
ユーザーガイド

列指向ストレージ形式

Apache ParquetORC は、データを高速に取得できるように最適化された、AWS 分析アプリケーションで使用されている、列指向ストレージ形式です。

列指向ストレージ形式には以下の特性があるため、Athena での使用に適しています。

  • 列のデータ型に合わせて選択された圧縮アルゴリズムによる、列ごとの圧縮により、Amazon S3 ストレージ領域を節約でき、クエリ処理時のディスク容量と I/O を軽減できます。

  • Parquet および ORC での述語プッシュダウンにより、Athena クエリで必要なブロックだけを取得できるため、クエリのパフォーマンスが改善されます。Athena クエリでデータから特定の列値を取得する場合に、データブロック述語からの統計 (最大値や最小値など) を使用して、そのブロックを読み取るかスキップするかを判断できます。

  • Parquet および ORC でのデータの分割により、Athena がデータの読み取りを複数のリーダーに分割して、クエリ処理時の並列処理を向上させることができます。

既存の raw データを他のストレージ形式から Parquet または ORC に変換するには、Athena で CREATE TABLE AS SELECT (CTAS) クエリを実行し、データストレージ形式として Parquet または ORC を指定するか、または AWS Glue クローラを使用します。