识别和处理个人身份信息 (PII) - AWS Glue DataBrew

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

识别和处理个人身份信息 (PII)

在构建分析函数或机器学习模型时,需要采取保护措施来防止个人身份信息 (PII) 数据泄露。PII是可用于识别个人身份的个人数据,例如地址、银行账号或电话号码。例如,当数据分析师和数据科学家使用数据集来发现一般的人口统计信息时,他们不应有权访问特定个人PII的。

DataBrew 提供数据屏蔽机制,用于在数据准备过程中对PII数据进行模糊处理。根据贵组织的需求,有不同的PII数据编辑机制可供选择。您可以对PII数据进行模糊处理,这样用户就无法将其还原,也可以使混淆变得可逆的。

识别和屏蔽中的PII数据 DataBrew 涉及构建一组转换,客户可以使用这些转换来编辑PII数据。此过程的一部分是在 DataBrew 控制台上的PII数据配置文件概述仪表板中提供数据检测和统计信息。

您可以使用以下数据屏蔽技术:

  • 替换-用其他外观真实的值替换PII数据。

  • 牌 — 将同一列的值洗到不同的行中。

  • 确定性加密-对列值应用确定性加密算法。确定性加密总是为值生成相同的密文。

  • 概率加密-对列值应用概率加密算法。概率加密每次应用时都会生成不同的密文。

  • 解密-根据加密密钥解密列。

  • 清空或删除-将特定字段替换为空值或删除该列。

  • 屏蔽-使用字符乱写或屏蔽列中的某些部分。

  • 哈希-对列值应用哈希函数。

有关使用转换的更多信息,请参阅个人身份信息 (PII) 配方步骤。有关使用配置文件作业进行检测的更多信息PII,包括可以检测到的实体类型列表,请参阅以编程方式构建配置文件作业配置PII中的配置EntityDetectorConfiguration 部分