检测和处理敏感数据 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

检测和处理敏感数据

Detect PII 转换可识别数据源中的个人身份信息 (PII)。您可以选择要识别的PII实体、想要如何扫描数据,以及如何处理由 Detect PII 变换识别的PII实体。

Detec PII t 变换提供了检测、屏蔽或移除您定义或由 AWS其预定义的实体的功能。这赋能您提高合规性并减少责任。例如,您可能希望确保您的数据中不存在可以读取的个人身份信息,并希望用固定字符串(例如 xxx-xx-xxxx)、电话号码或地址来掩盖社会安全号码。

要在 AWS Glue Studio 之外处理敏感数据,请参阅 在 AWS Glue Studio 外部使用敏感数据检测

选择希望如何扫描数据

当您扫描数据集中的敏感数据(例如个人身份信息(PII)时,您可以选择PII在每行中检测或检测包含PII数据的列。

屏幕截图显示了选择检测数据源中包含的字段时检测PII变换PII中的选项。

PII在每个单元格中选择 “检测” 时,就是选择扫描数据源中的所有行。这是一次全面的扫描,可确保识别PII实体。

当选择 “检测包含的字段” 时PII,即选择扫描行样本中是否有PII实体。这是一种保持低成本和资源的方法,同时还可以识别PII实体所在的领域。

当您选择检测包含以下内容的字段时PII,您可以通过对一部分行进行采样来降低成本并提高性能。选择此选项将允许您指定其他选项:

  • Sample portion(抽样比例):此选项允许您指定要抽样的行的百分比。例如,如果输入 “50”,则表示您要为PII实体指定要有 50% 的扫描行。

  • 检测阈值:这允许您指定包含该PII实体的行的百分比,以便将整列标识为拥有该PII实体。例如,如果输入 “10”,则指定扫描行中PII实体 “美国电话” 的编号必须为 10% 或更大,才能将该字段标识为拥有PII实体 US Phone。如果包含该PII实体的行的百分比小于 10%,则该字段不会被标记为包含PII实体 US Phone。

选择要检测的PII实体

如果您PII在每个单元格中选择 “检测”,则可以从以下三个选项中进行选择:

  • 所有可用的PII模式-这包括 AWS 实体。

  • 选择类别-当您选择类别时,PII模式将自动在您选择的类别中包含模式。

  • 选择特定模式 - 仅能检测到您选择的模式。

有关托管的敏感数据类型的完整列表,请参阅 Managed data types

从所有可用的PII图案中进行选择

如果选择 “所有可用PII模式”,请选择预定义的 AWS实体。您可以选择一个、多个或所有实体。

屏幕截图显示了预定义 AWS 实体列表中的选项。

选择类别

如果您选择 “选择类别” 作为要检测的PII模式,则可以从下拉菜单中的选项中进行选择。注意,某些实体可能属于多个类别。例如,Person 的名字是属于通用HIPAA类别的实体。

  • 通用(例如:电子邮件、信用卡)

  • HIPAA(示例:美国驾驶执照、医疗保健通用程序编码系统 (HCPCS) 代码)

  • 网络(示例:IP 地址、MAC地址)

  • 阿根廷

  • 澳大利亚

  • 奥地利

  • 比利时

  • 波斯尼亚

  • 保加利亚

  • 加拿大

  • 智利

  • 哥伦比亚

  • 克罗地亚

  • 塞浦路斯

  • 捷克

  • 丹麦

  • 爱沙尼亚

  • 芬兰

  • 法国

  • 德国

  • 希腊

  • 匈牙利

  • 爱尔兰

  • 韩国

  • 日本

  • 墨西哥

  • 荷兰

  • 新西兰

  • 挪威

  • 葡萄牙

  • 罗马尼亚

  • 新加坡

  • 斯洛伐克

  • 斯洛文尼亚

  • 西班牙

  • 瑞典

  • 瑞士

  • 土耳其

  • 乌克兰

  • 美国

  • 英国

  • 委内瑞拉

选择特定模式

如果选择 “选择特定模式” 作为要检测的PII模式,则可以从已创建的模式列表中搜索或浏览,或者创建新的检测实体模式。

以下步骤介绍了如何新建用于检测敏感数据的自定义模式。您将通过输入自定义模式的名称、添加正则表达式以及定义上下文字词来创建自定义模式。

  1. 若要创建新模式,请单击 Create new(新建)按钮。

    屏幕截图显示了选择模式部分。
  2. 在创建检测实体页面中,输入实体名称和正则表达式。AWS Glue 将使用正则表达式 (Regex) 来匹配实体。

  3. 单击 Validate(验证)。如果验证成功,您将看到一条确认消息,指出字符串是有效的正则表达式。如果验证不成功,您将看到一条消息,指出字符串不符合正确的格式和可接受的字符文本、运算符或结构。

  4. 除了正则表达式之外,您还可以选择添加上下文字词。上下文字词可以提高匹配的概率。在字段名称没有描述实体的情况下,这些功能非常有用。例如,社会安全号码可以命名为 “SSN” 或 “S”。添加这些上下文字词有助于匹配实体。

  5. 单击 Create(创建)以创建检测实体。任何创建的实体在 AWS Glue Studio 控制台中可见。单击左侧导航菜单中的 Detection entities(检测实体)。

    您可以从 Detection entities(检测实体)页面编辑、删除或创建检测实体。您还可以使用搜索字段搜索模式。

指定检测灵敏度级别

使用检测敏感数据功能时,您可以设置灵敏度级别。

  • –(默认)适用于需要更高灵敏度级别的应用场景,会检测出更多实体。2023 年 11 月之后创建的所有 AWS Glue 作业都将自动启用此设置。

  • – 会减少检测出的实体数量并减少误报。

此屏幕截图显示了全局检测灵敏度选项。其中一个是低灵敏度选项,可提高精度,但更严格,可能导致总体检出率较低。第二个选项是高灵敏度设置,用于更广泛的检测,如果您需要更高的检测范围,则更适合需要更高的PII检测范围。

选择如何处理已识别PII的数据

如果您选择在整个数据源PII中进行检测,则可以选择要应用的全局操作:

  • 使用检测结果丰富数据:如果PII在每个单元格中选择 “检测”,则可以将检测到的实体存储到新列中。

  • 删除检测到的文本:可以将检测到的PII值替换为在可选的 “替换文本” 输入字段中指定的字符串。如果未指定任何字符串,则检测到的PII实体将替换为 '*******'。

  • 部分编辑检测到的文本:您可以将部分检测到的PII值替换为您选择的字符串。提供两种选项:只留结尾不掩蔽,或通过显式正则表达式模式来掩蔽。AWS Glue 2.0 未提供此功能。

  • 应用加密哈希:您可以将检测到的PII值传递给 SHA -256 加密哈希函数,并将该值替换为该函数的输出。

屏幕截图显示了选择数据源中所有要检测的行时检测PII变换中的选项PII。

AWS Glue 版本 2.0 与 3.0 及以上版本的区别

AWS Glue2.0 jobs 将在补充列中返回一个新的, DataFrame 其中包含每列的检测到PII的信息。任何编辑或散列化处理都可通过视觉对象选项卡中的 AWS Glue 脚本查看。

AWS Glue3.0 和 4.0 任务将返回一个 DataFrame 带有相同补充列的新任务。“actionUsed” 的新密钥已存在,可以是DETECTREDACTPARTIAL_REDACT、或中的一个SHA256_HASH。如果选择了屏蔽操作,则 DataFrame 会返回屏蔽敏感数据的数据。

添加精细操作覆盖

可以将其他检测和操作设置添加到精细操作覆盖表中,从而让您能够实现以下目的:

  • 在检测范围中包含或排除特定的列 – 数据来源上的推断 Schema 将使用可用列来填充表。

  • 指定比使用全局操作时更精细的特定设置 – 例如,您可以为不同的实体类型指定不同的掩蔽文本设置。

  • 指定与全局操作不同的操作 – 如果要对不同的敏感数据类型应用不同的操作,则可以通过此设置来完成。请注意,不能在同一列上使用两个不同的 edit-in-place 操作(密文和哈希),但可以始终使用 detect。

屏幕截图显示了精细操作覆盖。您可以添加、编辑、删除或编辑作业JSON的任何操作优先选项。