Simple ルールタイプを使用したルールベースのマッチングワークフローの作成 - AWS Entity Resolution

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Simple ルールタイプを使用したルールベースのマッチングワークフローの作成

次の手順は、 AWS Entity Resolution コンソールまたは CreateMatchingWorkflow API を使用して Simple ルールタイプでルールベースのマッチングワークフローを作成する方法を示しています。

Console
コンソールを使用して Simple ルールタイプでルールベースのマッチングワークフローを作成するには
  1. にサインイン AWS Management Console し、https://console.aws.amazon.com/entityresolution/ で AWS Entity Resolution コンソールを開きます。

  2. 左側のナビゲーションペインのワークフローで、一致を選択します。

  3. 一致するワークフローページの右上隅で、一致するワークフローの作成を選択します。

  4. ステップ 1: 一致するワークフローの詳細を指定するには、以下を実行します。

    1. 一致するワークフロー名とオプションの 説明を入力します。

    2. データ入力で、ドロップダウンからAWS Glue データベースを選択し、AWS Glue テーブルを選択し、対応するスキーママッピングを選択します。

      最大 19 個のデータ入力を追加できます。

    3. データ正規化オプションはデフォルトで選択され、一致する前にデータ入力が正規化されます。データを正規化しない場合は、データの正規化オプションの選択を解除します。

      注記

      正規化は、スキーママッピングの作成で以下のシナリオでのみサポートされています。

      • 名前サブタイプがグループ化されている場合: ミドルネーム、

      • 住所サブタイプがグループ化されている場合: 住所 1住所 2住所 3区町村、郵便番号

      • 電話番号サブタイプがグループ化されている場合: 電話番号電話番号の国コード

    4. サービスアクセス許可を指定するには、 オプションを選択し、推奨アクションを実行します。

      オプション 推奨されるアクション
      新しいサービスロールを作成して使用
      • AWS Entity Resolution は、このテーブルに必要なポリシーを持つサービスロールを作成します。

      • デフォルトの [サービスロール名]entityresolution-matching-workflow-<timestamp> です。

      • ロールを作成してポリシーをアタッチするアクセス許可が必要です。

      • 入力データが暗号化されている場合、このデータは KMS キーオプションで暗号化され、データ入力の復号に使用される AWS KMS キーを入力できます。

      既存のサービスロールを使用
      1. ドロップダウンリストから [既存のサービスロール名] を選択します。

        ロールを一覧表示するアクセス許可がある場合は、ロールのリストが表示されます。

        ロールを一覧表示するアクセス許可がない場合は、使用するロールの Amazon リソースネーム (ARN) を入力できます。

        既存のサービスロールがない場合、[既存のサービスロールを使用] オプションは使用できません。

      2. [IAM で表示] 外部リンクを選択してサービスロールを表示します。

        デフォルトでは、 AWS Entity Resolution は既存のロールポリシーを更新して必要なアクセス許可を追加しようとしません。

    5. (オプション) リソースのタグを有効にするには、新しいタグを追加を選択し、キー値のペアを入力します。

    6. [次へ] を選択します。

  5. ステップ 2: 一致する手法を選択するには:

    1. マッチングメソッドで、ルールベースのマッチングを選択します。

    2. ルールタイプで、シンプル を選択します。

      Simple rule-based matching オプションを選択して、一致するテクニック画面を選択します。
    3. Processing cadence で、次のいずれかのオプションを選択します。

      • 手動を選択して、一括更新のワークフローをオンデマンドで実行する

      • 自動 を選択して、新しいデータが S3 バケットに保存されたらすぐにワークフローを実行します。

      注記

      自動 を選択した場合は、S3 バケットに対して Amazon EventBridge 通知が有効になっていることを確認します。S3 コンソールを使用して Amazon EventBridge を有効にする手順については、「Amazon S3 ユーザーガイド」の「Amazon EventBridge の有効化」を参照してください。 Amazon S3

    4. (オプション) ID マッピングのインデックスのみの場合、データのインデックス作成のみを有効にし、IDsを生成しないことを選択できます。

      デフォルトでは、一致するワークフローは、データのインデックス作成後に IDs を生成します。

    5. 一致ルールには、ルール名を入力し、そのルールの一致キーを選択します。

      最大 15 個のルールを作成し、ルール全体に最大 15 個の異なる一致キーを適用して、一致基準を定義できます。

      一致するルールは、ルール名を入力し、一致キーを選択するためのフィールドと連動します。
    6. 比較タイプでは、目標に基づいて次のいずれかのオプションを選択します。

      目標 推奨されるオプション
      複数の入力フィールドに保存されているデータ間で一致の任意の組み合わせを検索する 複数の入力フィールド
      比較を 1 つの入力フィールドに制限する 単一入力フィールド
      比較タイプオプション: 複数のフィールドに保存されているデータ間の一致を検索する複数の入力フィールド、または 1 つのフィールド内の比較を制限する単一入力フィールド。
    7. [次へ] を選択します。

  6. ステップ 3: データ出力と形式を指定するには:

    1. データ出力の送信先と形式については、データ出力の Amazon S3 の場所と、データ形式正規化データまたは元のデータのどちらにするかを選択します。

    2. 暗号化 で、暗号化設定をカスタマイズする場合は、AWS KMS キー ARN を入力します。

    3. システム生成出力を表示します。

    4. データ出力では、含める、非表示にする、またはマスクするフィールドを決定し、目標に基づいて推奨アクションを実行します。

      目標 推奨されるアクション
      フィールドを含める 出力状態をインクルードのままにします。
      フィールドを非表示 (出力から除外) Output フィールドを選択し、Hide を選択します。
      マスクフィールド 出力フィールドを選択し、ハッシュ出力を選択します。
      以前の設定をリセットする [リセット] を選択します。
    5. [次へ] を選択します。

  7. ステップ 4: 確認して作成する

    1. 前のステップで行った選択内容を確認し、必要に応じて編集します。

    2. Create and run を選択します。

      一致するワークフローが作成され、ジョブが開始されたことを示すメッセージが表示されます。

  8. 一致するワークフローの詳細ページのメトリクスタブで、「最後のジョブメトリクス」で以下を表示します。

    • ジョブ ID

    • 一致するワークフロージョブのステータス: QueuedIn progressCompletedFailed

    • ワークフロージョブの完了時刻

    • 処理されたレコードの数。

    • 処理されていないレコードの数。

    • 生成された一意の一致 IDs

    • 入力レコードの数。

    ジョブ履歴で以前に実行された一致するワークフロージョブのジョブメトリクスを表示することもできます。

  9. 一致するワークフロージョブが完了したら (ステータスが完了)、データ出力タブに移動し、Amazon S3 の場所を選択して結果を表示できます。

  10. 手動処理タイプのみ) 手動処理タイプを使用してルールベースのマッチングワークフローを作成した場合は、一致するワークフローの詳細ページでワークフローの実行を選択して、一致するワークフローをいつでも実行できます。

API
API を使用して Simple ルールタイプでルールベースのマッチングワークフローを作成するには
注記

デフォルトでは、ワークフローは標準 (バッチ) 処理を使用します。増分 (自動処理) を使用するには、明示的に設定する必要があります。

  1. ターミナルまたはコマンドプロンプトを開いて API リクエストを行います。

  2. 次のエンドポイントへの POST リクエストを作成します。

    /matchingworkflows
  3. リクエストヘッダーで、Content-type を application/json に設定します。

    注記

    サポートされているプログラミング言語の完全なリストについては、 AWS Entity Resolution API リファレンスを参照してください。

  4. リクエスト本文には、次の必須 JSON パラメータを指定します。

    { "description": "string", "incrementalRunConfig": { "incrementalRunType": "string" }, "inputSourceConfig": [ { "applyNormalization": boolean, "inputSourceARN": "string", "schemaName": "string" } ], "outputSourceConfig": [ { "applyNormalization": boolean, "KMSArn": "string", "output": [ { "hashed": boolean, "name": "string" } ], "outputS3Path": "string" } ], "resolutionTechniques": { "providerProperties": { "intermediateSourceConfiguration": { "intermediateS3Path": "string" }, "providerConfiguration": JSON value, "providerServiceArn": "string" }, "resolutionType": "RULE_MATCHING", "ruleBasedProperties": { "attributeMatchingModel": "string", "matchPurpose": "string", "rules": [ { "matchingKeys": [ "string" ], "ruleName": "string" } ] }, "ruleConditionProperties": { "rules": [ { "condition": "string", "ruleName": "string" } ] } }, "roleArn": "string", "tags": { "string" : "string" }, "workflowName": "string" }

    コードの説明は以下のとおりです。

    • workflowName (必須) – 一意で、パターン [a-zA-Z_0-9-] に一致する 1~255 文字である必要があります*

    • inputSourceConfig (必須) – 1~20 個の入力ソース設定のリスト

    • outputSourceConfig (必須) – 正確に 1 つの出力ソース設定

    • resolutionTechniques (必須) – ルールベースのマッチングでは「RULE_MATCHING」に設定します

    • roleArn (必須) – ワークフロー実行用の IAM ロール ARN

    • ruleConditionProperties (必須) – ルール条件のリストと、一致するルールの名前。

    オプションパラメータは次のとおりです。

    • description – 最大 255 文字

    • incrementalRunConfig – 増分実行タイプ設定

    • tags — 最大 200 個のキーと値のペア

  5. (オプション) デフォルトの標準 (バッチ) 処理の代わりに増分処理を使用するには、リクエスト本文に次のパラメータを追加します。

    "incrementalRunConfig": { "incrementalRunType": "AUTOMATIC" }
  6. リクエストを送信します。

  7. 成功すると、ステータスコード 200 と以下を含む JSON 本文を含むレスポンスを受け取ります。

    { "workflowArn": "string", "workflowName": "string", // Plus all configured workflow details }
  8. 呼び出しが失敗すると、次のいずれかのエラーが表示されることがあります。

    • 400 – ワークフロー名が既に存在する場合の ConflictException

    • 400 – 入力が検証に失敗した場合の ValidationException

    • 402 – ExceedsLimitException

    • 403 – 十分なアクセスがない場合の AccessDeniedException

    • 429 – リクエストがスロットリングされた場合の ThrottlingException

    • 500 – 内部サービスに障害が発生した場合の InternalServerException