翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Simple ルールタイプを使用したルールベースのマッチングワークフローの作成
次の手順は、 AWS Entity Resolution コンソールまたは CreateMatchingWorkflow
API を使用して Simple ルールタイプでルールベースのマッチングワークフローを作成する方法を示しています。
- Console
-
コンソールを使用して Simple ルールタイプでルールベースのマッチングワークフローを作成するには
-
にサインイン AWS Management Console し、https://console.aws.amazon.com/entityresolution/
で AWS Entity Resolution コンソールを開きます。 -
左側のナビゲーションペインのワークフローで、一致を選択します。
-
一致するワークフローページの右上隅で、一致するワークフローの作成を選択します。
-
ステップ 1: 一致するワークフローの詳細を指定するには、以下を実行します。
-
一致するワークフロー名とオプションの 説明を入力します。
-
データ入力で、ドロップダウンからAWS Glue データベースを選択し、AWS Glue テーブルを選択し、対応するスキーママッピングを選択します。
最大 19 個のデータ入力を追加できます。
-
データ正規化オプションはデフォルトで選択され、一致する前にデータ入力が正規化されます。データを正規化しない場合は、データの正規化オプションの選択を解除します。
注記
正規化は、スキーママッピングの作成で以下のシナリオでのみサポートされています。
-
名前サブタイプがグループ化されている場合: 名、ミドルネーム、姓。
-
住所サブタイプがグループ化されている場合: 住所 1、住所 2、住所 3、市区町村、州、国、郵便番号。
-
電話番号サブタイプがグループ化されている場合: 電話番号、電話番号の国コード。
-
-
サービスアクセス許可を指定するには、 オプションを選択し、推奨アクションを実行します。
オプション 推奨されるアクション 新しいサービスロールを作成して使用 -
AWS Entity Resolution は、このテーブルに必要なポリシーを持つサービスロールを作成します。
-
デフォルトの [サービスロール名] は
entityresolution-matching-workflow-<timestamp>
です。 -
ロールを作成してポリシーをアタッチするアクセス許可が必要です。
-
入力データが暗号化されている場合、このデータは KMS キーオプションで暗号化され、データ入力の復号に使用される AWS KMS キーを入力できます。
既存のサービスロールを使用 -
ドロップダウンリストから [既存のサービスロール名] を選択します。
ロールを一覧表示するアクセス許可がある場合は、ロールのリストが表示されます。
ロールを一覧表示するアクセス許可がない場合は、使用するロールの Amazon リソースネーム (ARN) を入力できます。
既存のサービスロールがない場合、[既存のサービスロールを使用] オプションは使用できません。
-
[IAM で表示] 外部リンクを選択してサービスロールを表示します。
デフォルトでは、 AWS Entity Resolution は既存のロールポリシーを更新して必要なアクセス許可を追加しようとしません。
-
-
(オプション) リソースのタグを有効にするには、新しいタグを追加を選択し、キーと値のペアを入力します。
-
[次へ] を選択します。
-
-
ステップ 2: 一致する手法を選択するには:
-
マッチングメソッドで、ルールベースのマッチングを選択します。
-
ルールタイプで、シンプル を選択します。
-
Processing cadence で、次のいずれかのオプションを選択します。
-
手動を選択して、一括更新のワークフローをオンデマンドで実行する
-
自動 を選択して、新しいデータが S3 バケットに保存されたらすぐにワークフローを実行します。
注記
自動 を選択した場合は、S3 バケットに対して Amazon EventBridge 通知が有効になっていることを確認します。S3 コンソールを使用して Amazon EventBridge を有効にする手順については、「Amazon S3 ユーザーガイド」の「Amazon EventBridge の有効化」を参照してください。 Amazon S3
-
-
(オプション) ID マッピングのインデックスのみの場合、データのインデックス作成のみを有効にし、IDsを生成しないことを選択できます。
デフォルトでは、一致するワークフローは、データのインデックス作成後に IDs を生成します。
-
一致ルールには、ルール名を入力し、そのルールの一致キーを選択します。
最大 15 個のルールを作成し、ルール全体に最大 15 個の異なる一致キーを適用して、一致基準を定義できます。
-
比較タイプでは、目標に基づいて次のいずれかのオプションを選択します。
目標 推奨されるオプション 複数の入力フィールドに保存されているデータ間で一致の任意の組み合わせを検索する 複数の入力フィールド 比較を 1 つの入力フィールドに制限する 単一入力フィールド -
[次へ] を選択します。
-
-
ステップ 3: データ出力と形式を指定するには:
-
データ出力の送信先と形式については、データ出力の Amazon S3 の場所と、データ形式を正規化データまたは元のデータのどちらにするかを選択します。
-
暗号化 で、暗号化設定をカスタマイズする場合は、AWS KMS キー ARN を入力します。
-
システム生成出力を表示します。
-
データ出力では、含める、非表示にする、またはマスクするフィールドを決定し、目標に基づいて推奨アクションを実行します。
目標 推奨されるアクション フィールドを含める 出力状態をインクルードのままにします。 フィールドを非表示 (出力から除外) Output フィールドを選択し、Hide を選択します。 マスクフィールド 出力フィールドを選択し、ハッシュ出力を選択します。 以前の設定をリセットする [リセット] を選択します。 -
[次へ] を選択します。
-
-
ステップ 4: 確認して作成する:
-
前のステップで行った選択内容を確認し、必要に応じて編集します。
-
Create and run を選択します。
一致するワークフローが作成され、ジョブが開始されたことを示すメッセージが表示されます。
-
-
一致するワークフローの詳細ページのメトリクスタブで、「最後のジョブメトリクス」で以下を表示します。
-
ジョブ ID。
-
一致するワークフロージョブのステータス: Queued、In progress、Completed、Failed
-
ワークフロージョブの完了時刻。
-
処理されたレコードの数。
-
処理されていないレコードの数。
-
生成された一意の一致 IDs。
-
入力レコードの数。
ジョブ履歴で以前に実行された一致するワークフロージョブのジョブメトリクスを表示することもできます。
-
-
一致するワークフロージョブが完了したら (ステータスが完了)、データ出力タブに移動し、Amazon S3 の場所を選択して結果を表示できます。
-
(手動処理タイプのみ) 手動処理タイプを使用してルールベースのマッチングワークフローを作成した場合は、一致するワークフローの詳細ページでワークフローの実行を選択して、一致するワークフローをいつでも実行できます。
-
- API
-
API を使用して Simple ルールタイプでルールベースのマッチングワークフローを作成するには
注記
デフォルトでは、ワークフローは標準 (バッチ) 処理を使用します。増分 (自動処理) を使用するには、明示的に設定する必要があります。
-
ターミナルまたはコマンドプロンプトを開いて API リクエストを行います。
-
次のエンドポイントへの POST リクエストを作成します。
/matchingworkflows
-
リクエストヘッダーで、Content-type を application/json に設定します。
注記
サポートされているプログラミング言語の完全なリストについては、 AWS Entity Resolution API リファレンスを参照してください。
-
リクエスト本文には、次の必須 JSON パラメータを指定します。
{ "description": "
string
", "incrementalRunConfig": { "incrementalRunType": "string
" }, "inputSourceConfig": [ { "applyNormalization":boolean
, "inputSourceARN": "string
", "schemaName": "string
" } ], "outputSourceConfig": [ { "applyNormalization":boolean
, "KMSArn": "string
", "output": [ { "hashed": boolean, "name": "string
" } ], "outputS3Path": "string
" } ], "resolutionTechniques": { "providerProperties": { "intermediateSourceConfiguration": { "intermediateS3Path": "string
" }, "providerConfiguration":JSON value
, "providerServiceArn": "string
" }, "resolutionType": "RULE_MATCHING", "ruleBasedProperties": { "attributeMatchingModel": "string
", "matchPurpose": "string
", "rules": [ { "matchingKeys": [ "string
" ], "ruleName": "string
" } ] }, "ruleConditionProperties": { "rules": [ { "condition": "string
", "ruleName": "string
" } ] } }, "roleArn": "string
", "tags": { "string" : "string
" }, "workflowName": "
" }string
コードの説明は以下のとおりです。
-
workflowName
(必須) – 一意で、パターン [a-zA-Z_0-9-] に一致する 1~255 文字である必要があります* -
inputSourceConfig
(必須) – 1~20 個の入力ソース設定のリスト -
outputSourceConfig
(必須) – 正確に 1 つの出力ソース設定 -
resolutionTechniques
(必須) – ルールベースのマッチングでは「RULE_MATCHING」に設定します -
roleArn
(必須) – ワークフロー実行用の IAM ロール ARN -
ruleConditionProperties
(必須) – ルール条件のリストと、一致するルールの名前。
オプションパラメータは次のとおりです。
-
description
– 最大 255 文字 -
incrementalRunConfig
– 増分実行タイプ設定 -
tags
— 最大 200 個のキーと値のペア
-
-
(オプション) デフォルトの標準 (バッチ) 処理の代わりに増分処理を使用するには、リクエスト本文に次のパラメータを追加します。
"incrementalRunConfig": { "incrementalRunType": "AUTOMATIC" }
-
リクエストを送信します。
-
成功すると、ステータスコード 200 と以下を含む JSON 本文を含むレスポンスを受け取ります。
{ "workflowArn": "string", "workflowName": "string", // Plus all configured workflow details }
-
呼び出しが失敗すると、次のいずれかのエラーが表示されることがあります。
-
400 – ワークフロー名が既に存在する場合の ConflictException
-
400 – 入力が検証に失敗した場合の ValidationException
-
402 – ExceedsLimitException
-
403 – 十分なアクセスがない場合の AccessDeniedException
-
429 – リクエストがスロットリングされた場合の ThrottlingException
-
500 – 内部サービスに障害が発生した場合の InternalServerException
-
-