Athena の用途
Amazon Athena などのクエリサービス、Amazon Redshift などのデータウェアハウス、Amazon EMR などの高度なデータ処理フレームワークはすべて、それぞれが異なるニーズとユースケースに対応します。以下のガイダンスは、要件に基づいて 1 つ以上のサービスを選択する際に役に立ちます。
Amazon Athena
Athena は、Amazon S3 に保存された非構造化データ、半構造化データ、および構造化データの分析に役立ちます。たとえば、CSV 形式、JSON 形式、列データ形式 (Apache Parquet や Apache ORC など) に対応しています。Athena は ANSI SQL を使用したアドホッククエリの実行に利用でき、データを集約したり、データを Athena にロードしたりする必要はありません。
Athena は Amazon QuickSight と統合して、データを簡単に可視化できるようにします。Athena を使用して、JDBC や ODBC ドライバーで接続されたビジネスインテリジェンスツールや SQL クライアントでレポートを生成、またはデータを探索できます。詳細については、「Amazon QuickSight ユーザーガイド」の「Amazon QuickSight とは」、および「ODBC および JDBC ドライバーを使用して Amazon Athena に接続する」を参照してください。
Athena は、Amazon S3 内のデータに永続的なメタデータストアを提供する AWS Glue Data Catalog と統合します。これにより、Amazon Web Services アカウント全体で利用でき、AWS Glue の ETL およびデータ検出機能と統合された中央メタデータストアに基づいて、Athena でのテーブルの作成とデータのクエリを行うことが可能になります。詳細については、「AWS Glue を使用して Athena を Amazon S3 のデータに接続する」と、「AWS Glue デベロッパーガイド」の「AWS Glue とは」を参照してください。
Amazon Athena を使用すると、データをフォーマットしたり、インフラストラクチャを管理したりすることなく、Simple Storage Service (Amazon S3) 内のデータに対してインタラクティブなクエリを簡単に実行できます。たとえば、Athena は、Web ログでクイッククエリを素早く実行し、サイトのパフォーマンス上の問題をトラブルシューティングする場合に便利です。Athena では、データのテーブルを定義し、標準 SQL を使用してクエリを開始するだけで、すばやく開始できます。
インフラストラクチャやクラスターを管理することなく、Simple Storage Service (Amazon S3) のデータに対してインタラクティブなアドホック SQL クエリを実行する場合は、Amazon Athena を使用してください。Amazon Athena は、サーバーをセットアップしたり管理したりすることなく、Simple Storage Service (Amazon S3) のデータに対してアドホッククエリを実行できる、最も簡単な方法となります。
Athena で活用または統合できる AWS のサービス のリストについては、「AWS のサービス における Athena との統合」を参照してください。
Amazon EMR
Amazon EMR では、オンプレミスのデプロイと比較すると、Hadoop、Spark、Presto などの高度に分散された処理フレームワークをシンプルかつコスト効率よく実行できます。Amazon EMR は柔軟性があります。カスタムアプリケーションやコードを実行して、特定のコンピューティング、メモリ、ストレージ、およびアプリケーションパラメータを定義して、分析要件を最適化することができます。
SQL クエリを実行することに加えて、Amazon EMR では、機械学習、グラフ分析、データ変換、ストリーミングデータなど、コーディングできるほぼすべての用途に対して、さまざまなスケールアウトデータ処理タスクを実行できます。カスタムコードを使用して Spark、Hadoop、Presto、Hbase などの最新のビッグデータ処理フレームワークを使用した非常に膨大なデータセットを処理および分析する場合は、Amazon EMR を使用する必要があります。Amazon EMR では、クラスターとクラスターにインストールされているソフトウェアの設定を完全に制御できます。
Amazon Athena を使用すれば、Amazon EMR を使用して処理するデータをクエリすることができます。Amazon Athena は、Amazon EMR と同じデータ形式の多くをサポートしています。Athena のデータカタログは Hive メタストアとの互換性があります。EMR を使用しており、すでに Hive メタストアがある場合は、Amazon Athena で DDL ステートメントを実行して、Amazon EMR ジョブに影響を与えることなくすぐにデータをクエリできます。
Amazon Redshift
Amazon Redshift などのデータウェアハウスは、在庫システム、金融システム、小売販売システムなどのさまざまなソースからデータを共通の形式にまとめ、長期間保存する必要がある場合に最適です。履歴データから高度なビジネスレポートを作成する場合は、Amazon Redshift のようなデータウェアハウスが最適です。Amazon Redshift のクエリエンジンは、多数の非常に大きなデータベーステーブルを結合する複合型のクエリの実行時に、特にうまく機能するように最適化されています。非常に大きな多数のテーブルを使って、結合を多数実行する高度に構造化されたデータに対してクエリを実行する必要がある場合は、Amazon Redshift を選択してください。
Athena を使用する状況の詳細については、以下のリソースを参照してください。
-
「ご利用のためのリソースセンター」の「AWS 分析サービスの選択
」 -
「Amazon Athena のよくある質問」の「Athena と他のビッグデータサービスを比較する場合
」