本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
检测和处理敏感数据
Detect PII 转换可识别数据源中的个人身份信息 (PII)。您可以选择要识别的PII实体、想要如何扫描数据,以及如何处理由 Detect PII 变换识别的PII实体。
Detec PII t 变换提供了检测、屏蔽或移除您定义或由 AWS其预定义的实体的功能。这赋能您提高合规性并减少责任。例如,您可能希望确保您的数据中不存在可以读取的个人身份信息,并希望用固定字符串(例如 xxx-xx-xxxx)、电话号码或地址来掩盖社会安全号码。
要在 AWS Glue Studio 之外处理敏感数据,请参阅 在 AWS Glue Studio 外部使用敏感数据检测
选择希望如何扫描数据
当您扫描数据集中的敏感数据(例如个人身份信息(PII)时,您可以选择PII在每行中检测或检测包含PII数据的列。
PII在每个单元格中选择 “检测” 时,就是选择扫描数据源中的所有行。这是一次全面的扫描,可确保识别PII实体。
当选择 “检测包含的字段” 时PII,即选择扫描行样本中是否有PII实体。这是一种保持低成本和资源的方法,同时还可以识别PII实体所在的领域。
当您选择检测包含以下内容的字段时PII,您可以通过对一部分行进行采样来降低成本并提高性能。选择此选项将允许您指定其他选项:
-
Sample portion(抽样比例):此选项允许您指定要抽样的行的百分比。例如,如果输入 “50”,则表示您要为PII实体指定要有 50% 的扫描行。
-
检测阈值:这允许您指定包含该PII实体的行的百分比,以便将整列标识为拥有该PII实体。例如,如果输入 “10”,则指定扫描行中PII实体 “美国电话” 的编号必须为 10% 或更大,才能将该字段标识为拥有PII实体 US Phone。如果包含该PII实体的行的百分比小于 10%,则该字段不会被标记为包含PII实体 US Phone。
选择要检测的PII实体
如果您PII在每个单元格中选择 “检测”,则可以从以下三个选项中进行选择:
-
所有可用的PII模式-这包括 AWS 实体。
-
选择类别-当您选择类别时,PII模式将自动在您选择的类别中包含模式。
-
选择特定模式 - 仅能检测到您选择的模式。
有关托管的敏感数据类型的完整列表,请参阅 Managed data types。
从所有可用的PII图案中进行选择
如果选择 “所有可用PII模式”,请选择预定义的 AWS实体。您可以选择一个、多个或所有实体。
选择类别
如果您选择 “选择类别” 作为要检测的PII模式,则可以从下拉菜单中的选项中进行选择。注意,某些实体可能属于多个类别。例如,Person 的名字是属于通用和HIPAA类别的实体。
-
通用(例如:电子邮件、信用卡)
-
HIPAA(示例:美国驾驶执照、医疗保健通用程序编码系统 (HCPCS) 代码)
-
网络(示例:IP 地址、MAC地址)
阿根廷
澳大利亚
奥地利
比利时
波斯尼亚
保加利亚
加拿大
智利
哥伦比亚
克罗地亚
塞浦路斯
捷克
丹麦
爱沙尼亚
芬兰
法国
德国
希腊
匈牙利
爱尔兰
韩国
日本
墨西哥
荷兰
新西兰
挪威
葡萄牙
罗马尼亚
新加坡
斯洛伐克
斯洛文尼亚
西班牙
瑞典
瑞士
土耳其
乌克兰
美国
英国
委内瑞拉
选择特定模式
如果选择 “选择特定模式” 作为要检测的PII模式,则可以从已创建的模式列表中搜索或浏览,或者创建新的检测实体模式。
以下步骤介绍了如何新建用于检测敏感数据的自定义模式。您将通过输入自定义模式的名称、添加正则表达式以及定义上下文字词来创建自定义模式。
-
若要创建新模式,请单击 Create new(新建)按钮。
-
在创建检测实体页面中,输入实体名称和正则表达式。AWS Glue 将使用正则表达式 (Regex) 来匹配实体。
-
单击 Validate(验证)。如果验证成功,您将看到一条确认消息,指出字符串是有效的正则表达式。如果验证不成功,您将看到一条消息,指出字符串不符合正确的格式和可接受的字符文本、运算符或结构。
-
除了正则表达式之外,您还可以选择添加上下文字词。上下文字词可以提高匹配的概率。在字段名称没有描述实体的情况下,这些功能非常有用。例如,社会安全号码可以命名为 “SSN” 或 “S”。添加这些上下文字词有助于匹配实体。
-
单击 Create(创建)以创建检测实体。任何创建的实体在 AWS Glue Studio 控制台中可见。单击左侧导航菜单中的 Detection entities(检测实体)。
您可以从 Detection entities(检测实体)页面编辑、删除或创建检测实体。您还可以使用搜索字段搜索模式。
指定检测灵敏度级别
使用检测敏感数据功能时,您可以设置灵敏度级别。
-
高 –(默认)适用于需要更高灵敏度级别的应用场景,会检测出更多实体。2023 年 11 月之后创建的所有 AWS Glue 作业都将自动启用此设置。
-
低 – 会减少检测出的实体数量并减少误报。
选择如何处理已识别PII的数据
如果您选择在整个数据源PII中进行检测,则可以选择要应用的全局操作:
-
使用检测结果丰富数据:如果PII在每个单元格中选择 “检测”,则可以将检测到的实体存储到新列中。
-
删除检测到的文本:可以将检测到的PII值替换为在可选的 “替换文本” 输入字段中指定的字符串。如果未指定任何字符串,则检测到的PII实体将替换为 '*******'。
-
部分编辑检测到的文本:您可以将部分检测到的PII值替换为您选择的字符串。提供两种选项:只留结尾不掩蔽,或通过显式正则表达式模式来掩蔽。AWS Glue 2.0 未提供此功能。
-
应用加密哈希:您可以将检测到的PII值传递给 SHA -256 加密哈希函数,并将该值替换为该函数的输出。
AWS Glue 版本 2.0 与 3.0 及以上版本的区别
AWS Glue2.0 jobs 将在补充列中返回一个新的, DataFrame 其中包含每列的检测到PII的信息。任何编辑或散列化处理都可通过视觉对象选项卡中的 AWS Glue 脚本查看。
AWS Glue3.0 和 4.0 任务将返回一个 DataFrame 带有相同补充列的新任务。“actionUsed” 的新密钥已存在,可以是DETECT
、REDACT
PARTIAL_REDACT
、或中的一个SHA256_HASH
。如果选择了屏蔽操作,则 DataFrame 会返回屏蔽敏感数据的数据。
添加精细操作覆盖
可以将其他检测和操作设置添加到精细操作覆盖表中,从而让您能够实现以下目的:
-
在检测范围中包含或排除特定的列 – 数据来源上的推断 Schema 将使用可用列来填充表。
-
指定比使用全局操作时更精细的特定设置 – 例如,您可以为不同的实体类型指定不同的掩蔽文本设置。
-
指定与全局操作不同的操作 – 如果要对不同的敏感数据类型应用不同的操作,则可以通过此设置来完成。请注意,不能在同一列上使用两个不同的 edit-in-place 操作(密文和哈希),但可以始终使用 detect。