本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
机器学习身份解析的工作原理
本主题介绍身份解析如何执行自动资料匹配,以及如果已设置身份解析,则它如何自动合并相似资料。
自动资料匹配
为了识别相似的资料,身份解析使用机器学习来查看每个资料中的以下个人身份信息 (PII) 属性:
-
姓名:审查所有姓名的相似度,包括名字、中间名和姓氏。
-
电子邮件:审查所有电子邮件地址的相似度,包括个人电子邮件和企业电子邮件。它们不区分大小写。
-
电话号码:审查所有电话号码和格式的相似度,包括家庭电话、移动电话和企业电话。
-
地址:审查所有地址类型和格式的相似度,包括企业地址、邮寄地址、配送地址和账单地址。
-
出生日期:审查所有出生日期和格式的相似度。
它使用此信息来创建相似资料的匹配组。
匹配组
匹配组由代表客户的所有相似资料组成。每个匹配组均包含以下信息:
-
匹配 ID,用于唯一标识代表联系人的两个或更多相似资料的组
-
匹配组中资料 ID 的数量
-
与匹配组关联的置信度分数
置信度分数
自动匹配过程运行后,您可以查询 S3 存储桶或使用 GetMatchesAPI 根据置信度分数筛选结果。例如,您可以筛选出高置信度匹配项以进行进一步审查。
置信度分数是一个介于 0 和 1 之间的数字,它表示将资料分配给匹配组的置信级别。分数为 1 可能表示完全匹配。
自动合并相似的资料
匹配资料后,身份解析作业可以选择根据您的标准合并相似的资料。如果您删除或更新标准,则更新的标准将在下次运行中应用于相似的资料。
重要
您无法撤消合并过程。我们强烈建议在运行 Identity Resolution Job 之前,使用 GetAutoMergingPreviewAPI 对自动合并过程进行试运行。
自动合并过程的工作原理
-
合并标准中的所有选定属性都与
AND
标准相关联,并在合并之前进行精确值比较。-
例如,当在标准中指定了多个属性(如
email address
和phone number
)时,将合并匹配组中具有完全相同的email address
和phone number
值的所有相似资料。 -
如果匹配组中的一个或多个相似资料对标准中的一个或多个属性具有不同的值或缺失值,将合并相似资料。
例如,一个匹配组可能是五个相似的资料,其中三个资料合并在一起,因为这三个资料符合相应标准。其他两个资料未合并,因为它们不符合相应标准。
-
-
从标准 1 开始,按优先级顺序评估多个标准。
-
应用合并标准的顺序。它从作为最高优先级的标准 1 开始,到作为最低优先级的标准 10 结束。
-
在身份解析作业应用一个标准后,它会将下一个标准应用于合并的资料和匹配组中其余的相似资料。
-
最多可有 10 个合并标准。
-
-
每个标准均独立运行,并与其他条件一起作为
OR
运行。-
如果您有多个标准,则在身份解析作业进入下一个标准之前,将按优先级顺序分别应用每个标准。
-
所有标准均按您列出的顺序应用。合并匹配组中的一个或多个相似资料是失败还是成功,都无关紧要。
-
-
默认情况下,资料冲突按新近性进行管理。
-
当匹配组中两个或更多相似的资料满足合并标准时,将通过比较构成相似资料的资料属性的每个值来创建所生成的合并资料。
-
每个属性的值可能完全匹配。在这种情况下,可以为该属性选择任何值。
-
如果两个或更多构成相似资料的值之间存在冲突,则选择最近更新的属性。
例如,如果 Jane Doe 在构成相似资料的
Address
属性中有三个不同的值,则身份解析会选择最新的地址来创建统一的资料。 -
默认情况下,使用上次更新的时间戳来确定最近更新的记录。
-
-
资料冲突按源对象类型和新近性进行管理。
-
您还可以更改冲突解决的默认行为,以选择来自特定源的相似构成资料作为事实来源,从而为冲突解决提供信息。
-
如果要指定用于资料冲突的数据源,则可以选择其中一种对象类型作为数据源,前提是选择具有上次更新时间戳的源。
-
指定对象类型中最近更新的记录用于解决资料冲突。
-
-
上次更新的时间戳标识最近更新的记录。
-
与源记录的对象类型关联的时间戳属性用于标识最近更新的记录。
-
如果时间戳属性不适用于对象类型,则使用将记录摄取到您的 Customer Profiles 域的时间戳。
-
如果您有自定义对象类型,则需要添加时间戳。参阅资料冲突缺少时间戳了解更多信息。
-
-
合并操作是一个单向过程,无法撤消。
-
在开始合并过程之前,请仔细选择您的标准。有关更多信息,请参阅创建严格标准的提示。
-
使用 GetAutoMergingPreviewAPI 测试身份解析的自动合并设置,无需合并数据。
-
有关显示如何应用标准的示例,请参阅示例:如何应用标准示例。