本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
處理資料匯出
在以下各節中,您將找到有關處理資料匯出的資訊。
設定 Amazon Athena
與成本和用量報告 (CUR) 不同,資料匯出不提供 SQL 檔案來設定 Athena 來查詢匯出。您需要使用 CloudFormation 範本進行資料匯出 (請參閱選項 1) 或手動設定 Athena (請參閱選項 2)。
(選項 1) 使用 CloudFormation 範本:若要尋找 CloudFormation 範本和使用資料匯出設定 Athena 的說明,請參閱 Cloud Intelligence Dashboards Framework 中的資料匯出
(選項 2) 使用 AWS Glue 爬蟲程式來建置 Athena 的資料表和分割區:建立 Athena 的 CUR 時,我們建議使用 Apache Parquet 檔案格式;它提供更好的壓縮和資料欄導向儲存,有助於更小且價格較低的 Athena 查詢。覆寫交付偏好設定是必要的,因此每個每月分割區一律只包含每個檔案的一個副本,而且當您使用 Amazon Athena 執行查詢時,不會出現重複的明細項目。
我們也建議使用 AWS Glue 搭配 Glue 爬蟲程式,將您的資料載入 Athena。
使用 Glue 爬蟲程式建置 Athena AWS 的資料表和分割區
-
使用下列資料匯出交付選項建立 CUR 2.0 匯出:
-
壓縮類型和檔案格式:Parquet - Parquet
-
檔案版本控制:覆寫現有的資料匯出檔案
-
-
在 Athena 中,使用筆記本編輯器搭配 Trino SQL,然後選擇建立以建立具有「AWS Glue 爬蟲程式」的資料表。使用 Glue 爬蟲程式工作流程,指向要在 s3://<bucket-name>/<prefix>/<export-name>/data 資料夾上執行的 Glue 爬蟲程式,以自動載入指定匯出至 Athena 的所有已交付分割區。
-
Glue 爬蟲程式完成後,您可以使用 Athena 在 Glue 爬蟲程式建立的資料表上寫入查詢。
設定 Amazon Redshift
Amazon Redshift 是雲端資料倉儲,可在佈建容量或無伺服器模型中存取。Amazon Redshift 提供快速查詢效能,可處理來自 Data Exports 的資料。
目前,Data Exports 不提供 SQL 檔案來設定 Redshift 來查詢匯出,就像成本和用量報告 (CUR) 一樣。不過,您仍然可以手動設定 Redshift 來查詢匯出。我們建議您使用 Redshift 的 gzip/csv 壓縮和檔案格式。
如需設定 Redshift 的資訊,請參閱 Amazon Redshift 入門指南。
處理 CUR 2.0 的建議 SQL 查詢
在將 CUR 2.0 匯出資料載入 Amazon Athena 或 Amazon Redshift 等資料分析工具之後,您可以處理它,以取得成本和用量洞察。 AWS Well-Architected Labs 提供 CUR 查詢程式庫,可用來處理 CUR。如需詳細資訊,請參閱 AWS CUR 查詢程式庫
請注意以下兩個有關 SQL 查詢的資訊:
-
Well-Architected Labs SQL 查詢無法在資料匯出查詢欄位中運作,因為資料匯出不支援彙總,以及這些查詢中使用的一些其他 SQL 語法。
-
Well-Architected Labs SQL 查詢只有在您尚未從預設名稱重新命名資料欄時才有效。視查詢而定,您可能需要使用點運算子將部分產品資料欄查詢為個別的資料欄。如需詳細資訊,請參閱資料查詢 - SQL 查詢和資料表組態。