本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Athena 主控台
若要選擇、命名和部署資料來源連接器,請在整合程序中使用 Athena 和 Lambda 主控台。
部署資料來源連接器
前往 https://console.aws.amazon.com/athena/
開啟 Athena 主控台。 如果未顯示主控台的導覽窗格,請選擇左側的展開選單。
-
在導覽窗格中選擇 Data sources (資料來源)。
-
在 Data sources (資料來源) 頁面上,選擇 Create data source (建立資料來源)。
-
針對 Choose a data source (選擇資料來源),請參考下列指導方針,選擇您希望 Athena 查詢的資料來源:
-
選擇與您的資料來源對應的聯合查詢選項。使用 Athena 預先建置的資料來源連接器可以設定包括 MySQL、Amazon DocumentDB 和 PostgreSQL 在內的來源。
-
如果想要查詢 Simple Storage Service (Amazon S3) 中的資料,而且沒有使用 Apache Hive 中繼存放區或此頁面上的其他任何一個聯合查詢資料來源選項,請選擇 S3 - AWS Glue Data Catalog。Athena 使用 AWS Glue Data Catalog 以將資料來源的中繼資料和結構描述資訊存放在 Simple Storage Service (Amazon S3) 中。這是預設的 (非聯合) 選項。如需詳細資訊,請參閱 用於連接 AWS Glue 到 Amazon S3 中的資料來源。
-
選擇 S3 - Apache Hive metastore (S3 - Apache Hive 中繼存放區) 可查詢使用 Apache Hive 中繼存放區的 Simple Storage Service (Amazon S3) 資料集。如需有關此選項的詳細資訊,請參閱 將 Athena 連接到 Apache Hive 中繼存放區。
-
如果想要建立用於 Athena 的資料來源連接器,請選擇 Custom or shared connector (自訂或共用連接器)。如需寫入資料來源連接器的相關資訊,請參閱使用 Athena Query Federation SDK 開發資料來源連接器。
本教學會選擇 Amazon CloudWatch 日誌做為聯合資料來源。
-
-
選擇下一步。
-
在 Enter data source details (輸入資料來源詳細資訊) 頁面中,當您從 Athena 查詢資料來源 (例如
CloudWatchLogs
),請於 Data Source Name (資料來源名稱) 輸入要在 SQL 陳述式中使用的名稱。名稱最多可包含 127 個字元,且在您的帳戶中必須是唯一的。建立後便無法變更。有效字元包括 a-z、A-Z、0-9、_ (底線)、@ (at 符號) 和 - (連字號)。Athena 已保留名稱awsdatacatalog
、hive
、jmx
和system
,這些名稱不能用於資料來源名稱。 -
針對 Lambda function (Lambda 函數),選擇 Create Lambda function (建立 Lambda 函數)。您所選擇之連接器的功能頁會在 AWS Lambda 主控台中開啟。此頁面包含連接器的詳細資訊。
-
在 Application settings (應用程式設定) 下,仔細閱讀每個應用程式設定的說明,然後輸入符合您需求的數值。
您看到的應用程式設定會根據資料來源的連接器而有所不同。所需最低設定包括:
-
AthenaCatalogName— Lambda 函數的名稱,以小寫表示其定位的資料來源,例如
cloudwatchlogs
。 -
SpillBucket— 您帳戶中的 Amazon S3 儲存貯體,用於存放超過 Lambda 函數回應大小限制的資料。
注意
溢出的資料不會在後續執行中重複使用,並且可以在 12 小時後安全刪除。Athena 不會替您刪除此資料。若要管理這些物件,請考慮新增一個會刪除您 Simple Storage Service (Amazon S3) 溢出儲存貯體中的舊資料的物件生命週期政策。如需詳細資訊,請參閱 Simple Storage Service (Amazon S3) 使用者指南中的管理儲存生命週期。
-
-
選擇 I acknowledge that this app creates custom IAM roles and resource policies (我認可此應用程式建立自訂的 IAM 角色和資源政策)。如需詳細資訊,請選擇 Info (資訊) 連結。
-
選擇部署。部署完成後,Lambda 函數會出現在 Lambda 主控台的 Resources (資源) 區段中。
連接至資料來源
將資料來源連接器部署到您的帳戶之後,即可使 Athena 與其連接。
使用已部署至帳戶的連接器讓 Athena 與資料來源連接
-
返回 Athena 主控台的 Enter data source details (輸入資料來源) 頁面。
-
在 Connection details (連線詳細資訊) 區段中,選擇 Select or enter a Lambda function (選取或輸入 Lambda 函數) 搜尋方塊旁的重新整理圖示。
-
選擇您剛才在 Lambda 主控台中建立的函數名稱。隨即顯示 Lambda 函數的 ARN。
-
(選用) 在 Tags (標籤) 中,新增要與此資料來源相關聯的鍵值對。如需標籤的詳細資訊,請參閱標記 Athena 資源。
-
選擇下一步。
-
在 Review and create (檢閱並建立) 頁面上,檢閱資料來源詳細資訊,然後選擇 Create data source (建立資料來源)。
-
該頁面的 Data source details (資料來源詳細資訊) 區段顯示了有關新連接器的資訊。您現在可以在 Athena 查詢中使用此連接器。
如需有關在查詢中使用資料連接器的資訊,請參閱 執行聯合查詢。