處理資料匯出 - AWS 資料匯出

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

處理資料匯出

在以下各節中,您將找到有關處理資料匯出的資訊。

設定 Amazon Athena

與成本和用量報告 (CUR) 不同,資料匯出不提供 SQL 檔案來設定 Athena 來查詢匯出。您需要使用 CloudFormation 範本進行資料匯出 (請參閱選項 1) 或手動設定 Athena (請參閱選項 2)。

(選項 1) 使用 CloudFormation 範本:若要尋找 CloudFormation 範本和使用資料匯出設定 Athena 的說明,請參閱 Cloud Intelligence Dashboards Framework 中的資料匯出

(選項 2) 使用 AWS Glue 爬蟲程式來建置 Athena 的資料表和分割區:建立 Athena 的 CUR 時,我們建議使用 Apache Parquet 檔案格式;它提供更好的壓縮和資料欄導向儲存,有助於更小且價格較低的 Athena 查詢。覆寫交付偏好設定是必要的,因此每個每月分割區一律只包含每個檔案的一個副本,而且當您使用 Amazon Athena 執行查詢時,不會出現重複的明細項目。

我們也建議使用 AWS Glue 搭配 Glue 爬蟲程式,將您的資料載入 Athena。

使用 Glue 爬蟲程式建置 Athena AWS 的資料表和分割區
  1. 使用下列資料匯出交付選項建立 CUR 2.0 匯出:

    • 壓縮類型和檔案格式:Parquet - Parquet

    • 檔案版本控制:覆寫現有的資料匯出檔案

  2. 在 Athena 中,使用筆記本編輯器搭配 Trino SQL,然後選擇建立以建立具有「AWS Glue 爬蟲程式」的資料表。使用 Glue 爬蟲程式工作流程,指向要在 s3://<bucket-name>/<prefix>/<export-name>/data 資料夾上執行的 Glue 爬蟲程式,以自動載入指定匯出至 Athena 的所有已交付分割區。

  3. Glue 爬蟲程式完成後,您可以使用 Athena 在 Glue 爬蟲程式建立的資料表上寫入查詢。

設定 Amazon Redshift

Amazon Redshift 是雲端資料倉儲,可在佈建容量或無伺服器模型中存取。Amazon Redshift 提供快速查詢效能,可處理來自 Data Exports 的資料。

目前,Data Exports 不提供 SQL 檔案來設定 Redshift 來查詢匯出,就像成本和用量報告 (CUR) 一樣。不過,您仍然可以手動設定 Redshift 來查詢匯出。我們建議您使用 Redshift 的 gzip/csv 壓縮和檔案格式。

如需設定 Redshift 的資訊,請參閱 Amazon Redshift 入門指南

在將 CUR 2.0 匯出資料載入 Amazon Athena 或 Amazon Redshift 等資料分析工具之後,您可以處理它,以取得成本和用量洞察。 AWS Well-Architected Labs 提供 CUR 查詢程式庫,可用來處理 CUR。如需詳細資訊,請參閱 AWS CUR 查詢程式庫

請注意以下兩個有關 SQL 查詢的資訊:

  • Well-Architected Labs SQL 查詢無法在資料匯出查詢欄位中運作,因為資料匯出不支援彙總,以及這些查詢中使用的一些其他 SQL 語法。

  • Well-Architected Labs SQL 查詢只有在您尚未從預設名稱重新命名資料欄時才有效。視查詢而定,您可能需要使用點運算子將部分產品資料欄查詢為個別的資料欄。如需詳細資訊,請參閱資料查詢 - SQL 查詢和資料表組態