AWS Entity Resolution 用語集 - AWS Entity Resolution

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Entity Resolution 用語集

Amazon リソースネーム (ARN)

AWS リソースの一意の識別子。ARNs は、 AWS Entity Resolution ポリシー、Amazon Relational Database Service (Amazon RDS) タグ AWS Entity Resolution、 API呼び出しなど、すべての でリソースを明確に指定する必要がある場合に必要です。

自動処理

一致するワークフロージョブの処理頻度オプション。データ入力が変更されたときに自動的に で実行できるようにします。

このオプションは、ルールベースのマッチングでのみ使用できます。

デフォルトでは、一致するワークフロージョブの処理頻度は手動に設定され、オンデマンドで実行できます。データ入力が変更されると、一致するワークフロージョブを自動的に実行するように自動処理を設定できます。これにより、一致するワークフロー出力が維持されます up-to-date。

AWS KMS key ARN

これは、保管時の暗号化用の AWS KMS Amazon リソースネーム (ARN) です。指定しない場合、システムは AWS Entity Resolution マネージドKMSキーを使用します。

クリアテキスト

暗号化で保護されていないデータ。

信頼度 (ConfidenceLevel)

ML マッチングの場合、ML が一致レコードセットを識別する AWS Entity Resolution ときに によって適用される信頼レベルです。これは、出力に含まれる一致するワークフローメタデータの一部です。

復号

暗号化されたデータを元の形式に戻すプロセスです。復号化は、シークレットキーにアクセスできる場合にのみ実行できます。

暗号化

キーと呼ばれる秘密の値を使用して、データをランダムに見える形式にエンコードするプロセスです。キーにアクセスしない限り、元のプレーンテキストを特定することはできません。

グループ名

グループ名は入力フィールドのグループ全体を参照し、解析されたデータをグループ化して照合するのに役立ちます。

例えば、、first_name、 の 3 つの入力フィールドがある場合last_name、グループ名に一致と出力full_namemiddle_nameと入力することで、それらをグループ化できます。

ハッシュ

ハッシュとは、固定サイズの不可逆的で一意の文字列を生成する暗号化アルゴリズムを適用することを意味します。これは hash. AWS Entity Resolution uses Secure Hash Algorithm 256 ビット (SHA256) ハッシュプロトコルと呼ばれ、32 バイトの文字列を出力します。では AWS Entity Resolution、出力でデータ値をハッシュするかどうかを選択できます。

ハッシュプロトコル (HashingProtocol)

AWS Entity Resolution は、Secure Hash Algorithm 256 ビット (SHA256) ハッシュプロトコルを使用し、32 バイトの文字列を出力します。これは、出力に含まれる一致するワークフローメタデータの一部です。

ID マッピング方法

ID マッピングの実行方法。

ID マッピングには 2 つの方法があります。

  • ルールベース – 一致するルールを使用して、ID マッピングワークフローでソースからターゲットにファーストパーティデータを変換する方法。

  • プロバイダーサービス — プロバイダーサービスを使用して、ID マッピングワークフローでサードパーティーでエンコードされたデータをソースからターゲットに変換する方法。

    AWS Entity Resolution は現在、プロバイダーのサービスベースの ID マッピング方法 LiveRamp として をサポートしています。この方法 AWS Data Exchange を使用するには、 LiveRamp から へのサブスクリプションが必要です。詳細については、「ステップ 1: でプロバイダーサービスをサブスクライブする AWS Data Exchange」を参照してください。

ID マッピングワークフロー

指定された ID マッピング方法に基づいて、入力データソースから入力データターゲットにデータをマッピングするデータ処理ジョブ。ID マッピングテーブルを生成します。このワークフローでは、ID マッピング方法と、ソースからターゲットに変換する入力データを指定する必要があります。

ID マッピングワークフローは、独自の または 2 つの AWS アカウント で実行するように設定できます AWS アカウント。

ID 名前空間

複数の AWS アカウント にまた AWS Entity Resolution がるデータセットを説明するメタデータと、ID マッピングワークフロー でこれらのデータセットを使用する方法を含む のリソース。

ID 名前空間には、 SOURCEと の 2 種類がありますTARGET。には、ID マッピングワークフローで処理されるソースデータの設定SOURCEが含まれています。には、すべてのソースが解決されるターゲットデータの設定TARGETが含まれています。2 つの で解決する入力データを定義するには AWS アカウント、ID 名前空間ソースと ID 名前空間ターゲットを作成して、データを 1 つのセット (SOURCE) から別のセット () に変換しますTARGET

自分と別のメンバーが ID 名前空間を作成して ID マッピングワークフローを実行したら、 でコラボレーションに参加 AWS Clean Rooms して ID マッピングテーブルでマルチテーブル結合を実行し、データを分析できます。

詳細については、AWS Clean Rooms ユーザーガイドをご参照ください。

入力フィールド

入力フィールドは、 AWS Glue 入力データテーブルの列名に対応します。

入力ソース ARN (InputSourceARN)

AWS Glue テーブル入力用に生成された Amazon リソースネーム (ARN)。これは、出力に含まれるワークフローメタデータのマッチングの一部です。

入力タイプ

入力データのタイプ。これは、名前、住所、電話番号、E メールアドレスなどの事前設定された値リストから選択します。入力タイプは AWS Entity Resolution 、提示するデータの種類を指示し、適切に分類および正規化できるようにします。

機械学習ベースのマッチング

機械学習ベースのマッチング (ML マッチング) は、データ全体で、不完全であるか、まったく同じように見えない可能性のある一致を検索します。ML マッチングは、入力するすべてのデータのレコードを照合しようとするプリセットプロセスです。ML マッチングは、一致したデータセットごとに一致 ID信頼度を返します。

手動処理

オンデマンドで実行できるようにする、一致するワークフロージョブの処理頻度オプション。

このオプションはデフォルトで設定され、ルールベースのマッチング機械学習ベースのマッチングの両方で使用できます。

多対多マッチング

M any-to-many マッチングは、類似データの複数のインスタンスを比較します。同じ一致キーが割り当てられた入力フィールドの値は、同じ入力フィールドにあるか異なる入力フィールドにあるかに関係なく、互いに照合されます。

例えば、「Phone」という同じ一致キーhome_phoneを持つ mobile_phoneや などの複数の電話番号入力フィールドがあるとします。 many-to-many マッチングを使用して、mobile_phone入力フィールドのデータとmobile_phone入力フィールドのデータおよびhome_phone入力フィールドのデータを比較します。

一致ルールは、 (または) オペレーションで同じ一致キーを持つ複数の入力フィールドのデータを評価し、 one-to-many 一致は複数の入力フィールドの値を比較します。つまり、2 つのレコード間で mobile_phoneまたは のいずれかの組み合わせhome_phoneが一致した場合、「電話」一致キーは一致を返します。一致を見つけるための一致キー「電話」の場合は、 Record One mobile_phone = Record Two mobile_phone OR Record One mobile_phone = Record Two home_phone OR Record One home_phone = Record Two home_phone OR ですRecord One home_phone = Record Two mobile_phone

一致 ID (MatchID )

ルールベースのマッチングと ML マッチングの場合、これは によって生成 AWS Entity Resolution され、一致した各レコードセットに適用される ID です。これは、出力に含まれる一致するワークフローメタデータの一部です。

一致キー (MatchKey)

一致キーは、 AWS Entity Resolution どの入力フィールドを類似データと見なし、どの入力フィールドを異なるデータと見なすかを指示します。これにより、ルールベースのマッチングルール AWS Entity Resolution を自動的に設定し、さまざまな入力フィールドに保存されている同様のデータを比較できます。

入力フィールドやmobile_phone入力home_phoneフィールドなど、比較するデータに複数のタイプの電話番号情報がある場合は、両方の一致キーを「Phone」にすることができます。その後、ルールベースのマッチングは、すべての入力フィールドの「または」ステートメントと「電話」一致キーを使用してデータを比較するように設定できます (「ワークフローの一致」セクションの「1 対 1 のマッチングと多対多のマッチングの定義」を参照してください)。

ルールベースのマッチングで異なるタイプの電話番号情報を個別に考慮する場合は、「Mobile_Phone」や「Home_Phone」などのより具体的なマッチキーを作成できます。次に、マッチングワークフローを設定するときに、各電話一致キーをルールベースのマッチングで使用する方法を指定できます。

特定の入力フィールドに MatchKey が指定されていない場合、マッチングには使用できませんが、マッチングワークフロープロセスを通じて実行でき、必要に応じて出力できます。

一致キー名

一致キー に割り当てられた名前。

一致ルール (MatchRule)

ルールベースのマッチングの場合、これは、一致したレコードセットを生成するために適用されたルール番号です。これは、出力に含まれる一致するワークフローメタデータの一部です。

一致

さまざまな入力フィールド、テーブル、またはデータベースのデータを組み合わせて比較し、特定の一致基準を満たすことに基づいて (例えば、一致するルールやモデルを通じて)、どちらが類似しているか、または「一致する」を判断するプロセス。

マッチングワークフロー

一致する入力データとマッチングの実行方法を指定するように設定したプロセス。

一致するワークフローの説明

入力することを選択できる、一致するワークフローのオプションの説明。説明は、複数のワークフローを作成する場合、一致するワークフローを区別するのに役立ちます。

一致するワークフロー名

指定した一致するワークフローの名前。

注記

一致するワークフロー名は一意である必要があります。同じ名前にすることはできません。そうしないと、エラーが返されます。

ワークフローメタデータの一致

一致するワークフロージョブ AWS Entity Resolution 中に によって生成および出力される情報。この情報は出力時に必要です。

正規化 (ApplyNormalization)

スキーマで定義されているように入力データを正規化するかどうかを選択します。正規化は、余分なスペースや特殊文字を削除し、小文字形式に標準化することで、データを標準化します。

例えば、入力フィールドの入力タイプが でPHONE_NUMBER、入力テーブルの値が としてフォーマットされている場合(123) 456-7890、 は値を に AWS Entity Resolution 正規化します1234567890

以下のセクションでは、正規化ルールについて説明します。

名前

  • TRIM = 先頭と末尾の空白を切り捨てる

  • LOWERCASE = すべての英字を小文字にします

  • CONVERT_ACCENT = アクセント文字を通常の文字に隠す

  • REMOVE_ALLNON_ALPHA = 英数字以外の文字をすべて削除します [a-zA-Z]

Email(メール)

  • TRIM = 先頭と末尾の空白を切り捨てる

  • LOWERCASE = すべての英字を小文字にします

  • CONVERT_ACCENT = アクセント文字を通常の文字に隠す

  • REMOVE_ALLNON_EMAIL_CHARS = すべての non-alpha-numeric 文字 [a-zA-Z0-9] と [.@-] を削除します

電話

  • TRIM = 先頭と末尾の空白をトリミングする

  • REMOVE_ALLNON_NUMERIC_ = 数値以外の文字をすべて削除します [0~9]

  • REMOVE_ALL_LEADING_ZEROES = 先頭のゼロをすべて削除します

Address

ADDRESS_RENAME_WORD_MAP

これらは、アドレス文字列を正規化するときに名前が変更される単語です。

"avenue": "ave", "bouled": "blvd", "circle": "cir", "circles": "cirs", "court": "ct", "centre": "ctr", "center": "ctr", "drive": "dr", "freeway": "fwy", "frwy": "fwy", "highway": "hwy", "lane": "ln", "parks": "park", "parkways": "pkwy", "pky": "pkwy", "pkway": "pkwy", "pkwys": "pkwy", "parkway": "pkwy", "parkwy": "pkwy", "place": "pl", "plaza": "plz", "plza": "plz", "road": "rd", "square": "sq", "squ": "sq", "sqr": "sq", "street": "st", "str": "st", "str.": "strasse"

ADDRESS_RENAME_DELIMITER_MAP

これらは、アドレス文字列を正規化するときに名前が変更される区切り文字です。

",": " ", ".": " ", "[": " ", "]": " ", "/": " ", "-": " ", "#": " number "

ADDRESS_RENAME_DIRECTION_MAP

これらは、アドレス文字列を正規化するときに名前が変更される方向識別子です。

"east": "e", "north": "n", "south": "s", "west": "w", "northeast": "ne", "northwest": "nw", "southeast": "se", "southwest": "sw"

ADDRESS_RENAME_NUMBER_MAP

これらは、アドレス文字列を正規化するときに名前が変更される数値文字列です。

"número": "number", "numero": "number", "no": "number", "núm": "number", "num": "number"

ADDRESS_RENAME_SPECIAL_CHAR_MAP

これらは、アドレス文字列を正規化するときに名前が変更される特殊文字文字列です。

"ß": "ss", "ä": "ae", "ö": "oe", "ü": "ue", "ø": "o", "æ": "ae"

ハッシュ

  • TRIM = 先頭と末尾の空白を切り捨てる

Source_ID

  • TRIM = 先頭と末尾の空白を切り捨てる

1 対 1 のマッチング

O ne-to-one マッチングは、類似データの単一インスタンスを比較します。同じ入力フィールド内の同じ一致キーと値を持つ入力フィールドは、互いに照合されます。

例えば、「Phone」という同じ一致キーhome_phoneを持つ mobile_phoneや などの複数の電話番号入力フィールドがあるとします。 one-to-one マッチングを使用して、mobile_phone入力フィールドのデータとmobile_phone入力フィールドのデータを比較し、home_phone入力フィールドのデータとhome_phone入力フィールドのデータを比較します。mobile_phone 入力フィールドのデータは、home_phone入力フィールドのデータと比較されません。

一致ルールは、 (または) オペレーションで同じ一致キーを持つ複数の入力フィールドのデータを評価し、 one-to-many 一致は 1 つの入力フィールド内の値を比較します。つまり、2 つのレコード間で mobile_phoneまたは home_phoneが一致すると、「電話」一致キーは一致を返します。一致を見つけるための一致キー「電話」の場合は、 Record One mobile_phone = Record Two mobile_phone または ですRecord One home_phone = Record Two home_phone

一致ルールは、 (および) オペレーションで異なる一致キーを持つ入力フィールドのデータを評価します。ルールベースのマッチングで異なるタイプの電話番号情報を個別に考慮する場合は、「mobile_phone」や「home_phone」などのより具体的なマッチキーを作成できます。ルールで両方の一致キーを使用して一致を検索する場合は、Record One mobile_phone = Record Two mobile_phoneAND。 Record One home_phone = Record Two home_phone

出力

オブジェクトのリスト。各OutputAttributeオブジェクトには、名前ハッシュされた のフィールドがあります。これらの各オブジェクトは、 AWS Glue 出力テーブルに含める列と、列内の値をハッシュするかどうかを表します。

OutputS3Path

AWS Entity Resolution が出力テーブルを書き込む S3 の送信先。

OutputSourceConfig

オブジェクトのリスト。各 OutputSource オブジェクトには OutputS3Path、、ApplyNormalizationおよび Output フィールドがあります。

プロバイダーのサービスベースのマッチング

プロバイダーのサービスベースのマッチングは、レコードを優先データサービスプロバイダーやライセンスデータセットと照合、リンク、強化するプロセスです。このマッチング手法を使用するには、プロバイダーサービス AWS Data Exchange で を通じてサブスクリプションが必要です。

AWS Entity Resolution は現在、以下のデータサービスプロバイダーと統合されています。

  • LiveRamp

  • TransUnion

  • UID 2.0

ルールベースのマッチング

ルールベースのマッチングは、完全一致を見つけるように設計されたプロセスです。ルールベースのマッチングは、入力したデータに基づいて によって提案され AWS Entity Resolution、ユーザーが完全に設定できるウォーターフォールマッチングルールの階層セットです。ルール条件内で提供されるすべての一致キーは、比較データを一致として宣言し、関連するメタデータを出力するために正確に一致する必要があります。ルールベースの一致は、一致したデータセットごとに一致 ID とルール番号を返します。

エンティティを一意に識別できるルールを定義することをお勧めします。ルールを順序付けして、より正確な一致を最初に見つけます。

例えば、ルール 1 とルール 2 の 2 つのルールがあるとします。

これらのルールには、次の一致キーがあります。

  • ルール 1 にはフルネームと住所が含まれます

  • ルール 2 にはフルネーム、住所、電話番号が含まれます

ルール 1 が最初に実行されるため、ルール 1 によってすべて見つかったはずであるため、ルール 2 では一致は見つかりません。

電話によって区別される一致を検索するには、次のようにルールの順序を変更します。

  • ルール 2 にはフルネーム、住所、電話番号が含まれます

  • ルール 1 にはフルネームと住所が含まれます

Schema

一連のデータの編成と接続方法を定義する構造またはレイアウトに使用される用語。

スキーマの説明

入力できるスキーマのオプションの記述。説明は、複数のスキーマを作成する場合にスキーママッピングを区別するのに役立ちます。

スキーマ名

スキーマの名前。

注記

スキーマ名は一意である必要があります。同じ名前にすることはできません。そうしないと、エラーが返されます。

スキーママッピング

のスキーママッピング AWS Entity Resolution は、マッチングのためにデータを解釈 AWS Entity Resolution する方法を指示するプロセスです。一致するワークフローに AWS Entity Resolution 読み込む入力データテーブルのスキーマを定義します。

スキーママッピング ARN

スキーママッピング 用に生成された Amazon リソースネーム (ARN)。

一意の ID

指定した一意の識別子で、 が AWS Entity Resolution 読み取る入力データの各行に割り当てる必要があります。

たとえば、Primary_keyRow_ID、または Record_ID などです。

一意の ID 列は必須です。

一意の ID は、1 つのテーブル内の一意の識別子である必要があります。

異なるテーブル間で、一意の ID に重複する値を含めることができます。

一致するワークフローが実行されると、一意の ID が の場合、レコードは拒否されます。

  • が指定されていない

  • 同じテーブル内で一意ではない

  • は、ソース間で属性名の点で重複しています。

  • が 38 文字を超えている (ルールベースのマッチングワークフローのみ)