建立工作流程 - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立工作流程

開始之前,請確定您已將必要的資料權限和資料位置權限授與角色LakeFormationWorkflowRole。這樣,工作流程就可以在資料目錄中建立中繼資料表,並將資料寫入 Amazon S3 中的目標位置。如需詳細資訊,請參閱 (選擇性) 為工作流程建立 IAM 角色Lake Formation 許可權概述

注意

Lake Formation 使用GetTemplateInstanceGetTemplateInstances、和InstantiateTemplate作業從藍圖建立工作流程。這些操作不可公開使用,並且僅在內部用於代表您創建資源。您會收到建立工作流程的 CloudTrail 事件。

若要從藍圖建立工作流程
  1. 開啟主 AWS Lake Formation 控台,網址為 https://console.aws.amazon.com/lakeformation/。以資料湖管理員或具有資料工程師權限的使用者身分登入。如需詳細資訊,請參閱 Lake Formation 角色和 IAM 許可參考

  2. 在導覽窗格中,選擇 [圖],然後選擇 [使用藍圖]。

  3. 在 [使用藍圖] 頁面上,選擇動態磚以選取藍圖類型。

  4. 在「匯入來源」下,指定資料來源。

    如果您是從 JDBC 來源匯入,請指定下列項目:

    • 資料庫連線 — 從清單中選擇連線。使用AWS Glue主控台建立其他連線。連線中的 JDBC 使用者名稱和密碼可決定工作流程可存取的資料庫物件。

    • 來源資料路徑 — <database><schema><table><database><table>根據資料庫產品,輸入 //或/。Oracle 資料庫和 MySQL 不支援路徑中的結構描述。您可以用百分比 (%) 字元取代 <schema><table>。例如,對於具有系統 ID (SID) 的 Oracle 資料庫orcl,請輸入orcl/%以匯入連線中指名的使用者可存取的所有表格。

      重要

      此欄位區分大小寫。如果有任何元件的大小寫不相符,工作流程將會失敗。

      如果您指定了一個 MySQL 數據庫, AWS Glue ETL 默認情況下使用 Mysql5 JDBC 驅動程序,因此本地不支持 MySQL8。您可以編輯 ETL 工作命令檔,使用customJdbcDriverS3Path參數,如AWS Glue 開發人員指南中的 JDBC connectionType 值中所述,以使用支援 MySQL8 的不同 JDBC 驅動程式。

    如果您要從記錄檔匯入,請確定您為工作流程指定的角色 (「工作流程角色」) 具有存取資料來源所需的 IAM 許可。例如,若要匯入 AWS CloudTrail 日誌,使用者必須具有cloudtrail:DescribeTrailscloudtrail:LookupEvents許可,才能在建立工作流程時查看 CloudTrail 日誌清單,而且工作流程角色必須具有 Amazon S3 中該 CloudTrail 位置的許可。

  5. 執行以下任意一項:

    • 對於資料庫快照藍圖類型,選擇性地指定一或多個排除模式來識別要匯入的資料子集。這些排除模式是 Unix 風格glob的模式。它們會儲存為工作流程所建立之表格的屬性。

      如需可用排除模式的詳細資訊,請參閱AWS Glue 開發人員指南中的包含和排除模式

    • 對於增量資料庫藍圖類型,指定下列欄位。為要匯入的每個表格新增一列。

      資料表名稱

      要匯入的表格。必須全部為小寫。

      書籤鍵

      以逗號分隔的定義書籤索引鍵的欄名稱清單。如果為空白,則使用主鍵來確定新的數據。每個欄的大小寫必須符合資料來源中定義的大小寫。

      注意

      只有在順序增加或減少(沒有間隙)時,主鍵才有資格作為默認書籤鍵。如果您想要使用主索引鍵作為書籤索引鍵,且它有間隙,您必須將主索引鍵資料行命名為書籤索引鍵。

      書籤順序

      當您選擇「升序」時,值大於書籤值的列會被識別為新列。當您選擇「遞減」時,值小於書籤值的列會識別為新列。

      分割結構

      (選擇性) 以斜線 (/) 分隔的分割索引鍵資料欄清單。例如: year/month/day.

      控制台的增量數據部分包括以下字段:表名稱,書籤鍵,書籤順序,分區方案。您可以新增或移除列,其中每一列都是針對不同的表格。

      如需詳細資訊,請參閱AWS Glue 開發人員指南中的使用 Job 書籤追蹤已處理的資料

  6. 在「匯入目標」下,指定目標資料庫、目標 Amazon S3 位置和資料格式。

    確保工作流程角色在資料庫和 Amazon S3 目標位置具有必要的 Lake Formation 許可。

    注意

    目前,藍圖不支援在目標處加密資料。

  7. 選擇匯入頻率。

    您可以使用「自訂」選項指定cron表示式。

  8. 匯入選項之下:

    1. 輸入工作流程名稱。

    2. 對於角色,請選擇您在中建立的角LakeFormationWorkflowRole(選擇性) 為工作流程建立 IAM 角色

    3. (可選) 指定資料表字首。字首會附加在工作流程建立的「資料目錄」表格名稱之前。

  9. 選擇 [建立],然後等待主控台回報工作流程已成功建立。

    提示

    您是否收到下列錯誤訊息?

    User: arn:aws:iam::<account-id>:user/<username> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/<rolename>...

    如果是這樣,請檢查您是否已<account-id>在所有策略中使用有效的 AWS 帳號替換。