我應該在何時使用 Athena? - Amazon Athena

我應該在何時使用 Athena?

Amazon Athena 之類的查詢服務、Amazon Redshift 之類的資料倉儲以及 Amazon EMR 之類的複雜資料處理架構都可以滿足不同的需要和使用案例。以下指導可協助您根據您的要求選擇一項或多項服務。

Amazon Athena

Athena 可協助您分析在 Amazon S3 中存放的非結構化、半結構化和結構化資料。範例包括 CSV、JSON 或單欄資料格式,例如 Apache Parquet 和 Apache ORC。您可以使用 Athena 以透過 ANSI SQL 執行臨機操作查詢,而不需要將資料彙總或載入到 Athena。

Athena 與 Amazon QuickSight 整合,讓資料視覺化更輕鬆。您可以使用 Athena 產生報告,或搭配商業智慧工具或透過 JDBC 或 ODBC 驅動程式連接的 SQL 用戶端來探索資料。如需詳細資訊,請參閱《Amazon QuickSight 使用者指南》和 使用 ODBC 和 JDBC 驅動程式連接到 Amazon Athena 中的什麼是 Amazon QuickSight

Athena 與 AWS Glue Data Catalog 整合,為您在 Amazon S3 中的資料提供持久性中繼資料存放區。這可讓您根據整個 Amazon Web Services 帳戶中可用的中央中繼資料存放區,並與 AWS Glue 的 ETL 和資料探索功能整合,在 Athena 中建立資料表和查詢資料。如需詳細資訊,請參閱《AWS Glue 開發人員指南》中的與 AWS Glue 整合以及什麼是 AWS Glue

Amazon Athena 讓您能直接在 Simple Storage Service (Amazon S3) 中輕鬆執行對資料的互動式查詢,而不需要格式化資料或管理基礎設施。例如,如果您想對 Web 日誌執行快速查詢以解決網站上的效能問題,Athena 非常有用。使用 Athena,您可以快速開始:只需要為資料定義一個資料表,即可使用標準 SQL 進行查詢開始進行查詢。

如果您想要對在 Simple Storage Service (Amazon S3) 上的資料執行互動式隨意 SQL 查詢,而不需要管理任何基礎設施或叢集,則應使用 Amazon Athena。Amazon Athena 為對在 Simple Storage Service (Amazon S3) 中的資料執行隨意查詢提供了最簡單的方法,而不需要設置或管理任何伺服器。

如需 Athena 所利用或整合的 AWS 服務 清單,請參閱使用 Athena 的 AWS 服務 整合

Amazon EMR

與內部部署的部署方式相比,Amazon EMR 讓執行諸如 Hadoop、Spark 和 Presto 等高分散式處理架構變得簡單又符合成本效益。Amazon EMR 非常靈活 – 您可以執行自訂的應用程式和代碼,並定義特定的運算、記憶體、儲存和應用程式參數,以優化您的分析需求。

除了執行 SQL 查詢之外,Amazon EMR 還可以為應用程式執行各種水平擴展資料處理任務,例如機器學習、圖形分析、資料轉換、串流資料以及幾乎任何您可以編寫代碼的內容。如果您使用自訂的代碼搭配諸如 Spark、Hadoop、Presto 或 Hbase 等最新的大數據處理架構來處理和分析超大資料集,則應使用 Amazon EMR。Amazon EMR 帶給您對叢集及安裝在叢集上之軟體的組態的完整控制。

您可以使用 Amazon Athena 來查詢您用 Amazon EMR 處理的資料。Amazon Athena 支援許多與 Amazon EMR 相同的資料格式。Athena 的資料目錄與 Hive 中繼存放區相容。如果您使用 EMR 並且已經擁有 Hive 中繼存放區,即能在 Amazon Athena 上執行 DDL 陳述式並立即查詢您的資料,而不會影響您的 Amazon EMR 任務。

Amazon Redshift

當您需要將來自許多不同來源的資料(例如庫存系統、財務系統和零售銷售系統)彙集成一個通用格式並長時間存放時,像 Amazon Redshift 這樣的資料倉儲是您的最佳選擇。如果您想根據歷史資料建置複雜的業務報告,那麼像 Amazon Redshift 這樣的資料倉儲是最佳選擇。Amazon Redshift 中的查詢引擎經過優化,在執行聯結大量非常龐大的資料庫資料表的複雜查詢時,表現尤佳。如果您需要對高度結構化且具有許多大量超大資料表聯結的資料執行查詢時,請選擇 Amazon Redshift。

如需有關何時使用 Athena 的詳細資訊,請參閱下列資源: