使用簡易規則類型建立規則型比對工作流程 - AWS Entity Resolution

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用簡易規則類型建立規則型比對工作流程

下列程序示範如何使用 AWS Entity Resolution 主控台或 CreateMatchingWorkflow API,使用簡易規則類型建立規則型比對工作流程。

Console
使用主控台建立具有簡單規則類型的規則型比對工作流程
  1. 登入 AWS Management Console ,並在 https://https://console.aws.amazon.com/entityresolution/ 開啟 AWS Entity Resolution 主控台。

  2. 在左側導覽窗格中的工作流程下,選擇相符

  3. 相符工作流程頁面的右上角,選擇建立相符工作流程

  4. 針對步驟 1:指定相符的工作流程詳細資訊,執行下列動作:

    1. 輸入相符工作流程名稱和選用的描述

    2. 對於資料輸入,從下拉式清單中選擇AWS Glue 資料庫,選取AWS Glue 資料表,然後選擇對應的結構描述映射

      您最多可以新增 19 個資料輸入。

    3. 預設會選取標準化資料選項,以便在比對之前標準化資料輸入。如果您不想標準化資料,請取消選取標準化資料選項。

      注意

      只有建立結構描述映射中的下列案例才支援標準化:

      • 如果將下列名稱子類型分組:名字中間名姓氏

      • 如果將下列地址子類型分組:街道地址 1街道地址 2街道地址 3城市國家/地區、郵遞區號

      • 如果將下列電話子類型分組:電話號碼電話號碼國家/地區代碼

    4. 若要指定服務存取許可,請選擇 選項並採取建議的動作。

      選項 建議的動作
      建立和使用新的服務角色
      • AWS Entity Resolution 會建立具有此資料表所需政策的服務角色。

      • 預設的服務角色名稱entityresolution-matching-workflow-<timestamp>

      • 您必須擁有建立角色和連接政策的許可。

      • 如果您的輸入資料已加密,您可以選擇使用此 KMS 金鑰選項加密此資料,然後輸入將用於解密您資料輸入的AWS KMS 金鑰

      使用現有的服務角色
      1. 從下拉式清單中選擇現有的服務角色名稱

        如果您具有列出角色的許可,則會顯示角色清單。

        如果您沒有列出角色的許可,您可以輸入要使用的角色的 Amazon Resource Name (ARN)。

        如果沒有現有的服務角色,則無法使用使用現有服務角色的選項。

      2. 選擇 IAM 外部連結中的檢視,以檢視服務角色。

        根據預設, AWS Entity Resolution 不會嘗試更新現有的角色政策來新增必要的許可。

    5. (選用) 若要為資源啟用標籤,請選擇新增標籤,然後輸入金鑰對。

    6. 選擇下一步

  5. 針對步驟 2:選擇相符的技術

    1. 針對比對方法,選擇規則型比對

    2. 針對規則類型,選擇簡單

      選擇比對技術畫面,並選取簡易規則型比對選項。
    3. 針對處理節奏,選取下列其中一個選項。

      • 選擇手動以隨需執行工作流程以進行大量更新

      • 選擇自動,在 S3 儲存貯體中有新資料時立即執行工作流程

      注意

      如果您選擇自動,請確定您的 S3 儲存貯體已開啟 Amazon EventBridge 通知。如需使用 S3 主控台啟用 Amazon EventBridge 的說明,請參閱《Amazon Amazon S3啟用 Amazon EventBridge

    4. (選用) 對於僅限 ID 映射的索引,您可以選擇開啟僅編製資料索引的功能,而不是產生 IDs。

      根據預設,比對工作流程會在資料編製索引後產生 IDs。

    5. 針對相符規則,輸入規則名稱,然後選擇該規則的相符索引鍵

      您最多可以建立 15 個規則,並且可以在規則中套用最多 15 個不同的相符金鑰來定義相符條件。

      比對規則界面與欄位,以輸入規則名稱並選取比對索引鍵。
    6. 針對比較類型,根據您的目標選擇下列其中一個選項。

      您的目標 建議選項
      尋找儲存在多個輸入欄位中資料之間的任何相符項目組合 多個輸入欄位
      限制與單一輸入欄位的比較 單一輸入欄位
      比較類型選項:多個輸入欄位用於尋找儲存在多個欄位中資料的相符項目,或單一輸入欄位用於限制一個欄位內的比較。
    7. 選擇下一步

  6. 針對步驟 3:指定資料輸出和格式

    1. 針對資料輸出目的地和格式,選擇資料輸出的 Amazon S3 位置,以及資料格式標準化資料還是原始資料

    2. 對於加密,如果您選擇自訂加密設定,請輸入AWS KMS 金鑰 ARN。

    3. 檢視系統產生的輸出

    4. 對於資料輸出,決定您要包含、隱藏或遮罩的欄位,然後根據您的目標採取建議的動作。

      您的目標 建議的動作
      包含欄位 將輸出狀態保留為已包含
      隱藏欄位 (從輸出中排除) 選擇輸出欄位,然後選擇隱藏
      遮罩欄位 選擇輸出欄位,然後選擇雜湊輸出
      重設先前的設定 選擇 Reset (重設)
    5. 選擇下一步

  7. 針對步驟 4:檢閱並建立

    1. 檢閱您針對先前步驟所做的選擇,並視需要編輯。

    2. 選擇 Create and run (建立並執行)

      訊息隨即出現,指出已建立相符的工作流程,且任務已開始。

  8. 在相符的工作流程詳細資訊頁面的指標索引標籤上,檢視最後一個任務指標下的下列項目:

    • 任務 ID

    • 相符工作流程任務的狀態已佇列進行中已完成失敗

    • 工作流程任務的完成時間

    • 處理的記錄數量。

    • 未處理的記錄數目。

    • 產生的唯一比對 IDs

    • 輸入記錄的數量。

    您也可以檢視先前已在任務歷史記錄下執行之相符工作流程任務的任務指標。

  9. 比對工作流程任務完成後 (狀態已完成),您可以前往資料輸出索引標籤,然後選取您的 Amazon S3 位置以檢視結果。

  10. (僅限手動處理類型) 如果您已使用手動處理類型建立規則型比對工作流程,您可以在比對工作流程詳細資訊頁面上選擇執行工作流程,隨時執行比對工作流程。

API
使用 API 建立具有簡易規則類型的規則型比對工作流程
注意

根據預設,工作流程會使用標準 (批次) 處理。若要使用增量 (自動處理,您必須明確設定。

  1. 開啟終端機或命令提示以提出 API 請求。

  2. 建立對下列端點的 POST 請求:

    /matchingworkflows
  3. 在請求標頭中,將 Content-type 設定為 application/json。

    注意

    如需支援程式設計語言的完整清單,請參閱 AWS Entity Resolution API 參考

  4. 針對請求內文,請提供下列必要的 JSON 參數:

    { "description": "string", "incrementalRunConfig": { "incrementalRunType": "string" }, "inputSourceConfig": [ { "applyNormalization": boolean, "inputSourceARN": "string", "schemaName": "string" } ], "outputSourceConfig": [ { "applyNormalization": boolean, "KMSArn": "string", "output": [ { "hashed": boolean, "name": "string" } ], "outputS3Path": "string" } ], "resolutionTechniques": { "providerProperties": { "intermediateSourceConfiguration": { "intermediateS3Path": "string" }, "providerConfiguration": JSON value, "providerServiceArn": "string" }, "resolutionType": "RULE_MATCHING", "ruleBasedProperties": { "attributeMatchingModel": "string", "matchPurpose": "string", "rules": [ { "matchingKeys": [ "string" ], "ruleName": "string" } ] }, "ruleConditionProperties": { "rules": [ { "condition": "string", "ruleName": "string" } ] } }, "roleArn": "string", "tags": { "string" : "string" }, "workflowName": "string" }

    其中:

    • workflowName (必要) – 必須唯一且介於 1–255 個字元之間的相符模式 【a-zA-Z_0-9-】*

    • inputSourceConfig (必要) – 1–20 個輸入來源組態的清單

    • outputSourceConfig (必要) – 確切有一個輸出來源組態

    • resolutionTechniques (必要) – 將規則型比對設為 "RULE_MATCHING"

    • roleArn (必要) – 工作流程執行的 IAM 角色 ARN

    • ruleConditionProperties (必要) – 規則條件清單和相符規則的名稱。

    選用參數包括:

    • description – 最多 255 個字元

    • incrementalRunConfig – 增量執行類型組態

    • tags – 最多 200 個鍵值對

  5. (選用) 若要使用增量處理而非預設標準 (批次) 處理,請將下列參數新增至請求內文:

    "incrementalRunConfig": { "incrementalRunType": "AUTOMATIC" }
  6. 傳送 請求。

  7. 如果成功,您會收到狀態碼為 200 的回應,以及包含下列項目的 JSON 內文:

    { "workflowArn": "string", "workflowName": "string", // Plus all configured workflow details }
  8. 如果呼叫失敗,您可能會收到下列其中一個錯誤:

    • 400 – 如果工作流程名稱已存在,則為 ConflictException

    • 400 – 如果輸入驗證失敗,則 ValidationException

    • 402 – 如果超過帳戶限制,則超出 ExceedsLimitException

    • 403 – 如果您沒有足夠的存取權,則為 AccessDeniedException

    • 429 – 如果請求已調節,則 ThrottlingException

    • 500 – 如果發生內部服務故障,則為 InternalServerException