コストベースオプティマイザーを使用する - Amazon Athena

コストベースオプティマイザーを使用する

Athena SQL のコストベースオプティマイザー (CBO) 機能を使用してクエリを最適化できます。オプションとして、Athena がテーブルを収集するようにリクエストするか、AWS Glue にあるいずれかのテーブルの列レベル統計を収集するようにリクエストできます。クエリのすべてのテーブルに統計がある場合、Athena はその統計を使用して最もパフォーマンスが高いと判断した実行プランを作成します。クエリオプティマイザーは、統計モデルに基づいて代替プランを計算し、クエリを最も速く実行できると思われるプランを選択します。

AWS Glue テーブルの統計は収集されて AWS Glue Data Catalog に保存され、Athena で利用可能になるため、クエリプランニングおよび実行が改善されます。これらの統計は、Parquet、ORC、JSON、ION、CSV、XML などのファイルタイプの、null 値、最大値、最小値といった個別の値の個数などの列レベル統計です。Amazon Athena は、クエリ処理のできるだけ早い段階で最も制限の厳しいフィルタを適用することにより、これらの統計を使用してクエリを最適化します。このフィルタリングにより、メモリ使用量、ならびにクエリ結果を配信するために読み取る必要のあるレコード数が制限されます。

CBO と併せて、Athena はルールベースオプティマイザー (RBO) と呼ばれる機能を使用します。RBO は、クエリのパフォーマンス向上が期待されるルールを自動的に適用します。RBO の変換はクエリプランの簡略化を目的としているため、一般的にメリットがあります。ただし、RBO はコスト計算やプラン比較を行わないため、クエリが複雑になると RBO が最適なプランを作成することが難しくなります。

このため、Athena は RBO および CBO の両方を使用してクエリを最適化します。Athena はクエリ実行を改善する機会を特定した後、最適なプランを作成します。実行プラン内容の詳細については、「SQL クエリの実行プランを表示する」を参照してください。CBO の仕組みについての詳しい内容については、AWS Big Data Blog 記事「Speed up queries with the cost-based optimizer in Amazon Athena」を参照してください。

AWS Glue Catalog テーブルの統計を生成するには、Athena コンソール、AWS Glue コンソール、AWS Glue API を使用できます。Athena は AWS Glue Catalog と統合されているため、Amazon Athena からクエリを実行すると、対応するクエリパフォーマンスが自動的に向上します。

考慮事項と制約事項

  • テーブルタイプ — 現在、Athena の CBO 機能は AWS Glue Data Catalog に含まれている Hive テーブルのみをサポートしています。

  • Athena for Spark — CBO 機能は Athena for Spark では利用できません。

  • 料金 — 料金の詳細については、「AWS Glue 料金表ページ」を参照してください。

Athena コンソールを使用してテーブル統計を生成する

このセクションでは、Athena コンソールを使用してテーブルまたは AWS Glue のテーブルに列レベル統計を生成する方法について説明します。AWS Glue を使用してテーブル統計を生成する詳細については、「AWS Glue デベロッパーガイド」の「列統計の使用」を参照してください。

Athena コンソールを使用してテーブルの統計を生成する方法
  1. https://console.aws.amazon.com/athena/ で Athena コンソールを開きます。

  2. Athena クエリエディタの [テーブル] リストで、目的のテーブルにある縦 3 つの点を選択し、[統計の生成] を選択します。

    Athena クエリエディタのテーブルのコンテキストメニュー。
  3. [統計の生成] ダイアログボックスで、[すべての列] を選択してテーブルにあるすべての列の統計を生成するか、[選択した列] を選択して特定の列を選択します。[全ての列] がデフォルト設定です。

    [統計の生成] ダイアログボックス。
  4. [AWS Glue サービスロール] については、既存のサービスロールを作成または選択し、AWS Glue が統計を生成する許可を付与します。AWS Glue サービスロールには、テーブルのデータを含む Amazon S3 バケットへの S3:GetObject 権限も必要です。

    AWS Glue サービスロールの選択。
  5. [統計の生成] を選択します。[table_name の統計を生成中] 通知バナーがタスクステータスを表示します。

    [統計生成中] 通知バナー。
  6. AWS Glue コンソールに詳細を表示するには、[Glue で表示] を選択します。

    AWS Glue コンソールで統計の表示に関する詳細については、「AWS Glue デベロッパーガイド」の「列の統計の表示」を参照してください。

  7. 統計が生成された後、次の画像のように、統計を含むテーブルと列には括弧内に [統計] という単語が表示されます。

    Athena クエリエディタに表示される統計アイコンを示すテーブル。

クエリを実行すると、Athena は統計が生成されたテーブルおよび列に対し、コストベースの最適化が実行されるようになりました。

追加リソース

その他の情報については、次のリソースを参照してください。

Enhance query performance using AWS Glue Data Catalog statistics (AWS YouTube channel)