Amazon Athena で Apache Spark を使用する - Amazon Athena

Amazon Athena で Apache Spark を使用する

Amazon Athena では、リソースの計画、設定、管理を必要とせずに、Apache Spark を使用してインタラクティブに簡単にデータ分析と探索を実行できます。Athena で Apache Spark アプリケーションを実行するということは、処理用 Spark コードを送信し、追加の設定をしなくても結果を直接受け取ることを意味します。Amazon Athena コンソールのシンプルなノートブックエクスペリエンスを使用すると、Python または Athena ノートブック API を使用して Apache Spark アプリケーションを開発できます。Amazon Athena の Apache Spark はサーバーレスであり、オンデマンドで自動的にスケーリングされるため、データ量や処理要件の変化に合わせて瞬時に処理できます。

Amazon Athena には次の特徴があります。

  • コンソールの使用 - Amazon Athena コンソールから Spark アプリケーションを送信します。

  • スクリプティング - Python で Apache Spark アプリケーションを迅速かつインタラクティブにビルドおよびデバッグできます。

  • 動的スケーリング - Amazon Athena は、ジョブの実行に必要なコンピューティングリソースとメモリリソースを自動的に決定し、それに応じてそれらのリソースを指定された最大値まで継続的にスケーリングします。この動的スケーリングは、速度に影響を与えずにコストを削減します。

  • ノートブックエクスペリエンス - Athena ノートブックエディタを使用すると、使い慣れたインターフェイスを使用して計算を作成、編集、実行できます。Athena ノートブックは Jupyter Notebook と互換性があり、計算として順番に実行されるセルのリストが含まれています。セルの内容には、コード、テキスト、マークダウン、数学、プロット、リッチメディアなどを含めることができます。

追加情報については、AWS Big Data Blog の「Run Spark SQL on Amazon Athena Spark」と「Explore your data lake using Amazon Athena for Apache Spark」を参照してください。