產生資料欄統計資料 - AWS 連接詞

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

產生資料欄統計資料

請依照下列步驟,使用 AWS Glue 主控台或管理資料目錄中的統計資料產生 AWS CLI。

Console
使用主控台產生資料欄統計資料
  1. 請在以下位置登入 AWS Glue 主控台https://console.aws.amazon.com/glue/

  2. 選擇 Data Catalog 資料表。

  3. 從清單中選擇資料表。

  4. 選擇「業」功能表下欄位統計資料、視需求產生

    您也可選擇資料表頁面下半區段之資料欄統計資料索引標籤下的產生統計資料按鈕。

  5. 產生統計資料頁面中,指定下列選項:

    螢幕擷取畫面顯示可用來產生資料欄統計資料的選項。
    • 所有資料欄 — 選擇此選項可產生表格中所有資料欄的統計資料。

    • 選取的資料欄:選擇此選項可產生特定資料欄的統計資料。您可以從下拉式清單中選取資料欄。

    • 所有資料列:從資料表中選擇所有資料列,以產生準確的統計資料。

    • 範例資料列:僅從資料表中選擇特定的資料列百分比以產生統計資料。預設值為所有資料列。使用向上和向下箭頭以增加或減少百分比值。

      注意

      我們建議在資料表中包含所有資料列,以計算準確的統計資料。只有在接受近似值時,才使用範例資料列產生資料欄統計資料。

  6. 選擇 [建立具有必要權限原則的新IAM角色],以執行資料行統計資料產生工作。選擇 [檢視權限詳細資料] 以檢閱政策聲明。您也可以從清單中選取IAM角色。如需所需許可的詳細資訊,請參閱產生資料欄統計資料的先決條件

    AWS Glue 假設您指定用來產生統計資料之角色的權限。

    如需有關提供角色的詳細資訊 AWS Glue,請參閱的. AWS Glue

  7. (選用) 接著,選擇安全組態,針對日誌啟用靜態加密。

  8. 選擇產生統計資料以執行工作。

AWS CLI

在下列範例中,將 DatabaseNameTableNameColumnNameList 的值取代為實際的資料庫、資料表及資料欄名稱。將帳戶 ID 取代為有效的角色名稱 AWS 帳戶,並將角色名稱取代為您用來產生統計資料的IAM角色名稱。

aws glue start-column-statistics-task-run --input-cli-json file://input.json { "DatabaseName": "<test-db>", "TableName": "<test-table>", "ColumnNameList": [ "<column1>", "<column2>", ], "Role": "arn:aws:iam::<123456789012>:role/<Stats-Role>", "SampleSize": 10.0 }

您也可以呼叫作業來產生資料StartColumnStatisticsTaskRun行統計資料。