本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Entity Resolution 詞彙表
Amazon Resource Name (ARN)
AWS 資源的唯一識別符。當您需要在所有 中明確指定資源時 AWS Entity Resolution,例如 AWS Entity Resolution 政策、Amazon Relational Database Service (Amazon RDS) 標籤和 API 呼叫,則需要 ARNs。
屬性類型
輸入欄位的 屬性類型。當您建立結構描述映射時,請從預先設定的值清單中選擇屬性類型,例如名稱、地址、電話號碼或電子郵件地址。屬性類型會告訴您要呈現 AWS Entity Resolution 哪些類型的資料,以便正確分類和標準化資料。
自動處理
比對工作流程任務的處理節奏選項,可在資料輸入變更時自動在 上執行。
此選項僅適用於規則型比對。
根據預設,相符工作流程任務的處理節奏會設定為手動,使其可隨需執行。您可以設定自動處理,以便在資料輸入變更時自動執行相符的工作流程任務。這可讓相符的工作流程輸出保持在up-to-date。
AWS KMS key ARN
這是用於靜態加密的 AWS KMS Amazon Resource Name (ARN)。如果未提供,系統將使用 AWS Entity Resolution 受管 KMS 金鑰。
純文字
未受到密碼編譯保護的資料。
可信度層級 ConfidenceLevel)
對於 ML 比對,這是當 ML 識別相符的記錄集 AWS Entity Resolution 時, 套用的可信度等級。這是將包含在輸出中的相符工作流程中繼資料的一部分。
解密
將加密資料轉換回原始格式的程序。只有在您可以存取私密金鑰時,才能執行解密。
加密
將資料編碼成使用稱為金鑰之秘密值隨機顯示的形式的程序。無法在無法存取金鑰的情況下判斷原始純文字。
Group name (群組名稱)
群組名稱會參考整個輸入欄位群組,並可協助您將剖析的資料分組在一起以進行比對。
例如,如果有三個輸入欄位:first_name
、 middle_name
和 last_name
,您可以透過將群組名稱輸入為 來將它們分組在一起full_name
,以進行比對和輸出。
雜湊
雜湊表示套用密碼編譯演算法,該演算法會產生固定大小的不可復原且唯一的字元字串,稱為 hash. AWS Entity Resolution uses Secure Hash Algorithm 256 位元 (SHA256) 雜湊通訊協定,並輸出 32 位元組字元字串。在 中 AWS Entity Resolution,您可以選擇是否要在輸出中雜湊資料值。
雜湊通訊協定 HashingProtocol)
AWS Entity Resolution 使用安全雜湊演算法 256 位元 (SHA256) 雜湊通訊協定,並將輸出 32 位元組字元字串。這是將包含在輸出中的相符工作流程中繼資料的一部分。
ID 映射方法
您希望 ID 映射如何執行。
有兩種 ID 映射方法:
-
規則型 – 使用相符規則將來源的第一方資料轉譯為 ID 映射工作流程中目標的方法。
-
提供者服務 – 您使用提供者服務將第三方編碼資料從來源轉譯到 ID 映射工作流程中目標的方法。
AWS Entity Resolution 目前支援 LiveRamp 做為提供者服務型 ID 映射方法。您必須透過 訂閱 LiveRamp, AWS Data Exchange 才能使用此方法。如需詳細資訊,請參閱步驟 1:在 上訂閱提供者服務 AWS Data Exchange。
ID 映射工作流程
根據指定的 ID 映射方法,將資料從輸入資料來源映射到輸入資料目標的資料處理任務。它會產生 ID 映射表。此工作流程需要您指定 ID 映射方法,以及您要從來源轉譯到目標的輸入資料。
您可以設定 ID 映射工作流程,在您自己的 中 AWS 帳戶 或跨兩個 執行 AWS 帳戶。
ID 命名空間
中的資源 AWS Entity Resolution ,其中包含說明多個 AWS 帳戶 資料集的中繼資料,以及如何在 ID 映射工作流程中使用這些資料集。
ID 命名空間有兩種類型: SOURCE
和 TARGET
。SOURCE
包含將在 ID 映射工作流程中處理的來源資料的組態。TARGET
包含所有來源將解析的目標資料的組態。若要定義要跨兩個 解析的輸入資料 AWS 帳戶,請建立 ID 命名空間來源和 ID 命名空間目標,將您的資料從一組 (SOURCE
) 轉譯為另一組 ()TARGET
。
在您和另一個成員建立 ID 命名空間並執行 ID 映射工作流程之後,您可以在 中加入協同合作 AWS Clean Rooms ,以在 ID 映射資料表上執行多資料表聯結,並分析資料。
如需詳細資訊,請參閱「AWS Clean Rooms 使用者指南」。
輸入欄位
輸入欄位對應至 AWS Glue 輸入資料表中的資料欄名稱。
輸入來源 ARN (InputSourceARN)
為 AWS Glue 資料表輸入產生的 Amazon Resource Name (ARN)。這是將包含在輸出中的相符工作流程中繼資料的一部分。
機器學習型比對
機器學習型比對 (ML 比對) 會在您的資料中找到可能不完整或看起來不完全相同的比對。ML 比對是一種預設程序,會嘗試比對您輸入所有資料的記錄。ML 比對會傳回每組相符資料的比對 ID 和可信度。
手動處理
比對工作流程任務的處理節奏選項,可隨需執行。
Many-to-Many比對
Many-to-many比對會比較類似資料的多個執行個體。已指派相同相符索引鍵的輸入欄位中的值會彼此比對,無論它們位於相同的輸入欄位或不同的輸入欄位。
例如,您可能有多個電話號碼輸入欄位,例如 mobile_phone
和 home_phone
,具有相同的相符索引鍵「Phone」。使用many-to-many比對,將mobile_phone
輸入欄位中的資料與mobile_phone
輸入欄位中的資料和home_phone
輸入欄位中的資料進行比較。
比對規則會使用與 (或) 操作相同的比對索引鍵評估多個輸入欄位中的資料,而one-to-many比對則會比較多個輸入欄位的值。這表示如果兩個記錄之間有任何 mobile_phone
或 的組合home_phone
相符,「電話」相符金鑰將傳回相符項目。針對配對金鑰「電話」尋找配對,Record One mobile_phone = Record Two mobile_phone
或 Record One mobile_phone = Record Two home_phone
OR Record One home_phone = Record Two home_phone
或 Record One home_phone = Record Two mobile_phone
。
比對 ID (MatchID)
對於規則型比對和 ML 比對,這是由 產生 AWS Entity Resolution 並套用至每個比對記錄集的 ID。這是將包含在輸出中的相符工作流程中繼資料的一部分。
比對金鑰 (MatchKey)
比對索引鍵會指示要將 AWS Entity Resolution 哪些輸入欄位視為類似資料,以及要將哪些輸入欄位視為不同資料。這有助於 AWS Entity Resolution 自動設定規則型比對規則,並比較儲存在不同輸入欄位中的類似資料。
如果資料中有多個電話號碼資訊類型,例如mobile_phone
輸入欄位和您想要比較在一起的home_phone
輸入欄位,您可以為他們提供配對金鑰「Phone」。然後,您可以將規則型比對設定為使用「或」陳述式,在所有輸入欄位中將資料與「電話」比對金鑰進行比較 (請參閱配對工作流程中的One-to-One比對和Many-to-Many比對定義一節)。
如果您希望規則型比對完全分開考慮不同類型的電話號碼資訊,您可以建立更具體的比對金鑰,例如「Mobile_Phone」和「Home_Phone」。然後,設定相符的工作流程時,您可以指定每個電話比對金鑰在規則型比對中的使用方式。
如果沒有為特定輸入欄位指定 MatchKey,則無法用於比對,但可以透過比對工作流程程序進行,並且可以視需要輸出。
比對金鑰名稱
指派給相符金鑰的名稱。
比對規則 (MatchRule)
對於規則型比對,這是產生相符記錄集的套用規則編號。這是將包含在輸出中的相符工作流程中繼資料的一部分。
相符
結合和比較來自不同輸入欄位、資料表或資料庫的資料,並根據滿足特定相符條件 (例如,透過相符規則或模型) 來判斷哪些資料相似或「相符」的程序。
比對工作流程
您設定以指定要比對的輸入資料,以及如何執行比對的程序。
比對工作流程描述
您可以選擇輸入的相符工作流程的選用描述。如果您建立多個工作流程,描述可協助您區分相符的工作流程。
相符的工作流程名稱
您指定的相符工作流程的名稱。
注意
相符的工作流程名稱必須是唯一的。它們不能有相同的名稱,否則將會傳回錯誤。
比對工作流程中繼資料
在相符工作流程任務 AWS Entity Resolution 期間由 產生和輸出的資訊。輸出時需要此資訊。
標準化 (ApplyNormalization)
選擇是否要標準化結構描述中定義的輸入資料。標準化透過移除額外的空格和特殊字元來標準化資料,並將 標準化為小寫格式。
例如,如果輸入欄位的屬性類型為完整電話,且輸入資料表中的值格式化為 (123) 456-7890
,則 AWS Entity Resolution 會將值標準化為 1234567890
。
下列各節說明我們的標準標準化規則。
如需 ML 型比對的詳細資訊,請參閱 標準化 (ApplyNormalization) – 僅限 ML。
名稱
注意
只有名稱群組類型支援標準化。
名稱群組類型會在主控台中顯示為全名,並在 API NAME
中顯示為 。
如果您想要標準化名稱群組類型的子類型:
-
在 主控台中,將下列子類型指派給全名群組:名字、中間名和姓氏。
-
在 CreateSchemaMapping API 中,將下列類型指派給
NAME
groupName:NAME_FIRST
、NAME_MIDDLE
和NAME_LAST
。
-
TRIM = 修剪前後空格
-
LOWERCASE = 小寫所有字母字元
-
CONVERT_ACCENT = 將重音字母轉換為一般字母
-
REMOVE_ALL_NON_ALPHA = 移除所有非字母字元 【a-zA-Z】
電子郵件
注意
電子郵件群組類型支援標準化。
電子郵件群組類型會在主控台中顯示為電子郵件地址,並在 API EMAIL_ADDRESS
中顯示為 。
-
TRIM = 修剪前後空格
-
LOWERCASE = 小寫所有字母字元
-
CONVERT_ACCENT = 將重音字母轉換為一般字母
-
EMAIL_ADDRESS_UTIL_NORM = 從使用者名稱中移除任何點 (.)、移除使用者名稱中加號 (+) 之後的任何內容,並標準化常見的網域變化
-
REMOVE_ALL_NON_EMAIL_CHARS = 移除所有non-alpha-numeric【a-zA-Z0-9】 和 【.@-】
Phone
注意
僅支援電話群組類型的標準化。
電話群組類型會在主控台中顯示為完整電話,並在 API PHONE
中顯示為 。
如果您想要標準化電話群組類型的子類型:
-
在 主控台中,將下列子類型指派給完整電話群組:電話號碼和電話國家/地區代碼。
-
在 CreateSchemaMapping API 中,將下列類型指派給
PHONE
groupName:PHONE_NUMBER
和PHONE_COUNTRYCODE
。
-
TRIM = 修剪前後空格
-
REMOVE_ALL_NON_NUMERIC = 移除所有非數字字元 【0-9】
-
REMOVE_ALL_LEADING_ZEROES = 移除所有前導零
-
ENsure_PREFIX_WITH_MAP, "phonePrefixMap" = 檢查每個電話號碼,並嘗試比對其與 phonePrefixMap 中的模式。如果找到相符項目,規則會新增或修改電話號碼的字首,以確保符合地圖中指定的標準化格式。
Address
注意
只有地址群組類型才支援標準化。
地址群組類型會在主控台中顯示為完整地址,並在 API ADDRESS
中顯示為 。
如果您想要標準化地址群組類型的子類型:
-
在 主控台中,將下列子類型指派給完整地址群組:街道地址 1、街道地址 2:街道地址 3 名稱、城市名稱、州、國家/地區和郵遞區號 t
-
在 CreateSchemaMapping API 中,將下列類型指派給
ADDRESS
groupName:ADDRESS_STREET1
、ADDRESS_STREET2
、ADDRESS_STREET3
、ADDRESS_CITY
ADDRESS_STATE
、、ADDRESS_COUNTRY
和ADDRESS_POSTALCODE
。
-
TRIM = 修剪前後空格
-
LOWERCASE = 小寫所有字母字元
-
CONVERT_ACCENT = 將重音字母轉換為一般字母
-
REMOVE_ALL_NON_ALPHA = 移除所有非字母字元 【a-zA-Z】
-
使用 ADDRESS_RENAME_WORD_MAP 的 RENAME_WORDS = 使用來自 ADDRESS_RENAME_WORD_MAP 的單字取代地址字串中的單字
-
使用 ADDRESS_RENAME_DELIMITER_MAP 的 RENAME_DELIMITERS = 使用來自 ADDRESS_RENAME_DELIMITER_MAP 的字串取代地址字串中的分隔符號
-
使用 ADDRESS_RENAME_DIRECTION_MAP= 的 RENAME_DIRECTIONS 將地址字串中的分隔符號取代為來自 ADDRESS_RENAME_DIRECTION_MAP 的字串
-
使用 ADDRESS_RENAME_NUMBER_MAP 的 RENAME_NUMBERS = 使用來自 ADDRESS_RENAME_NUMBER_MAP 的字串取代地址字串中的數字
-
使用 ADDRESS_RENAME_SPECIAL_CHAR_MAP 的 RENAME_SPECIAL_CHARS = 使用來自 ADDRESS_RENAME_SPECIAL_CHAR_MAP 的字串取代地址字串中的特殊字元
ADDRESS_RENAME_WORD_MAP
這些是標準化地址字串時將重新命名的字詞。
"avenue": "ave", "bouled": "blvd", "circle": "cir", "circles": "cirs", "court": "ct", "centre": "ctr", "center": "ctr", "drive": "dr", "freeway": "fwy", "frwy": "fwy", "highway": "hwy", "lane": "ln", "parks": "park", "parkways": "pkwy", "pky": "pkwy", "pkway": "pkwy", "pkwys": "pkwy", "parkway": "pkwy", "parkwy": "pkwy", "place": "pl", "plaza": "plz", "plza": "plz", "road": "rd", "square": "sq", "squ": "sq", "sqr": "sq", "street": "st", "str": "st", "str.": "strasse"
ADDRESS_RENAME_DELIMITER_MAP
這些是標準化地址字串時將重新命名的分隔符號。
",": " ", ".": " ", "[": " ", "]": " ", "/": " ", "-": " ", "#": " number "
ADDRESS_RENAME_DIRECTION_MAP
這些是在標準化地址字串時將重新命名的方向識別符。
"east": "e", "north": "n", "south": "s", "west": "w", "northeast": "ne", "northwest": "nw", "southeast": "se", "southwest": "sw"
ADDRESS_RENAME_NUMBER_MAP
這些是在標準化地址字串時將重新命名的數字字串。
"número": "number", "numero": "number", "no": "number", "núm": "number", "num": "number"
ADDRESS_RENAME_SPECIAL_CHAR_MAP
這些是特殊字元字串,會在標準化地址字串時重新命名。
"ß": "ss", "ä": "ae", "ö": "oe", "ü": "ue", "ø": "o", "æ": "ae"
雜湊
-
TRIM = 修剪前後空格
Source_ID
-
TRIM = 修剪前後空格
標準化 (ApplyNormalization) – 僅限 ML
選擇是否要標準化結構描述中定義的輸入資料。標準化透過移除額外的空格和特殊字元來標準化資料,並將 標準化為小寫格式。
例如,如果輸入欄位的屬性類型為 NAME
,且輸入資料表中的值格式為 Johns Smith
,則 AWS Entity Resolution 會將值標準化為 john smith
。
下列各節說明機器學習型比對工作流程的標準化規則。
名稱
-
TRIM = 修剪前後空格
-
LOWERCASE = 小寫所有字母字元
電子郵件
-
LOWERCASE = 小寫所有字母字元
-
僅以 @ 符號取代 (區分大小寫)
-
移除值中的任何位置的所有空格
-
"<
>"
如果存在,則移除在第一個 之外的所有項目
Phone
-
TRIM = 修剪前後空格
-
REMOVE_ALL_NON_NUMERIC = 移除所有非數字字元 【0-9】
-
REMOVE_ALL_LEADING_ZEROES = 移除所有前導零
-
ENsure_PREFIX_WITH_MAP, "phonePrefixMap" = 檢查每個電話號碼,並嘗試比對其與 phonePrefixMap 中的模式。如果找到相符項目,規則會新增或修改電話號碼的字首,以確保符合地圖中指定的標準化格式。
One-to-One比對
One-to-one比對會比較類似資料的單一執行個體。相同輸入欄位中具有相同相符索引鍵和值的輸入欄位將彼此相符。
例如,您可能有多個電話號碼輸入欄位home_phone
,例如 mobile_phone
和具有相同相符索引鍵「Phone」。使用one-to-one比對來比較mobile_phone
輸入欄位中的資料與mobile_phone
輸入欄位中的資料,以及比較home_phone
輸入欄位中的資料與home_phone
輸入欄位中的資料。mobile_phone
輸入欄位中的資料不會與home_phone
輸入欄位中的資料進行比較。
比對規則會使用與 (或) 操作相同的比對索引鍵評估多個輸入欄位中的資料,而one-to-many比對則會比較單一輸入欄位中的值。這表示如果兩個記錄之間有 mobile_phone
或 home_phone
相符,則「電話」相符金鑰會傳回相符項目。對於配對金鑰「電話」來尋找配對,Record One mobile_phone = Record Two mobile_phone
或 Record One home_phone = Record Two home_phone
。
比對規則會使用 (和) 操作評估具有不同比對索引鍵的輸入欄位中的資料。如果您希望規則型比對完全分開考慮不同類型的電話號碼資訊,您可以建立更具體的比對金鑰,例如「mobile_phone」和「home_phone」。如果您想要在規則中使用兩個相符索引鍵來尋找相符項目, Record One mobile_phone = Record Two mobile_phone
AND Record One home_phone = Record Two home_phone
。
輸出
OutputAttribute 物件的清單,每個物件都有欄位名稱和雜湊。這些物件都代表要包含在 AWS Glue 輸出資料表中的資料欄,以及是否要雜湊資料欄中的值。
OutputS3Path
AWS Entity Resolution 將寫入輸出資料表的 S3 目的地。
OutputSourceConfig
OutputSource 物件的清單,每個物件都有 OutputS3Path、ApplyNormalization 和 Output 欄位。
供應商服務型比對
提供者服務型比對是一種程序,旨在搭配、連結和增強您的記錄,搭配偏好的資料服務提供者和授權的資料集。您必須透過 AWS Data Exchange 與提供者服務進行訂閱,才能使用此相符技術。
AWS Entity Resolution 目前與下列資料服務提供者整合:
-
LiveRamp
-
TransUnion
-
UID 2.0
規則型比對
規則型比對是旨在尋找完全比對的程序。規則型比對是一套階層式的瀑布比對規則,由 根據您輸入的資料建議 AWS Entity Resolution,並完全由您設定。規則條件內提供的所有相符索引鍵都必須完全相符,才能宣告相符的比較資料,以及輸出相關聯的中繼資料。規則型比對會傳回相符 ID 和每個相符資料集的規則編號。
我們建議定義可唯一識別實體的規則。排序您的規則,先尋找更精確的相符項目。
例如,假設您有兩個規則:規則 1 和規則 2。
這些規則具有下列相符金鑰:
-
規則 1 包含全名和地址
-
規則 2 包含全名、地址和電話
由於規則 1 會先執行,因此規則 2 找不到相符項目,因為規則 1 會找到所有相符項目。
若要尋找以電話區分的相符項目,請重新排序規則,如下所示:
-
規則 2 包含全名、地址和電話
-
規則 1 包含全名和地址
結構描述
用於定義資料集如何組織和連線的結構或配置的術語。
結構描述描述
您可以選擇輸入的結構描述的選用描述。如果您建立多個結構描述映射,描述可協助您區分。
結構描述名稱
結構描述的名稱。
注意
結構描述名稱必須是唯一的。它們不能有相同的名稱,否則將會傳回錯誤。
結構描述映射
中的結構描述映射 AWS Entity Resolution 是您告知 AWS Entity Resolution 如何解譯資料以進行比對的程序。您可以定義 AWS Entity Resolution 要讀取至相符工作流程的輸入資料表結構描述。
結構描述映射 ARN
為結構描述映射產生的 Amazon Resource Name (ARN)。
唯一 ID
您指定且必須指派給讀取之每一列輸入資料的唯一識別符 AWS Entity Resolution 。
例如,Primary_key
、Row_ID
或 Record_ID
。
唯一 ID 欄為必要欄位。
唯一 ID 必須是單一資料表內的唯一識別符。
唯一 ID 必須滿足此模式: [a-zA-Z0-9_-]
在不同資料表中,唯一 ID 可以有重複的值。
相符工作流程的唯一 ID 長度上限為 38
的最大唯一 ID 長度為 257 個字元 ID 映射工作流程
執行相符的工作流程時,如果唯一 ID:
-
未指定
-
在相同資料表中不是唯一的
-
跨來源屬性名稱重疊
-
超過 38 個字元 (僅限規則型相符工作流程)