处理敏感数据 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

处理敏感数据

通常,敏感数据包含 PII 或机密信息,出于合规或法律原因必须保护这些信息。如果只需要在行或列级别上加密,我们建议您使用landing zone 层。这是部分敏感的数据。

但是,如果将整个数据集视为敏感数据集,我们建议使用单独的 Amazon Simple Storage Service (Amazon S3) 存储桶来存储这些数据。这是高度敏感的数据。每个数据层都必须使用这些单独的 S3 存储桶,存储桶的名称中应包含 “敏感” 字样。我们建议您使用客户端加密使用AWS Key Management Service (AWS KMS) 加密敏感存储桶。您还必须使用客户端加密来加密转换数据的AWS Glue作业。

使用landing zone 掩盖敏感数据

您可以将landing zone 层用于部分敏感的数据集(例如,如果只需要在行或列级别进行加密)。这些数据被摄取到着陆区的 S3 存储桶中,然后被屏蔽。屏蔽数据后,将其摄取到原始层的 S3 存储桶中,该存储桶使用具有 Amazon S3 托管密钥的服务器端加密 (SSE-S3)。如果需要,可以在对象级别标记数据。

任何已被屏蔽的数据都可以绕过landing zone,直接摄取到原始层的 S3 存储桶中。对于部分敏感的数据集,阶段和分析层有两个访问级别;一个级别对所有数据具有完全访问权限,另一个级别只能访问非敏感行和列。

下图显示了一个数据湖,其中部分敏感的数据集使用landing zone 来掩盖敏感数据,但高度敏感的数据集使用单独的加密 S3 存储桶。使用限制性的 IAM 和 S3 存储桶策略隔离landing zone,加密存储桶使用客户端加密AWS KMS。

流程显示了一个数据湖,其中部分敏感的数据集使用landing zone 来掩盖敏感数据,但高度敏感的数据集使用单独的加密 S3 存储桶。使用限制性的 IAM 和 S3 存储桶策略隔离landing zone,加密存储桶使用客户端加密AWS KMS。

该图表显示以下工作流程:

  1. 高度敏感的数据被发送到原始数据层中的加密 S3 存储桶。

  2. AWS Glue任务验证数据并将其转换为可供使用的格式,然后将文件放入舞台层的加密 S3 存储桶中。

  3. AWS Glue任务根据业务要求聚合数据,并将数据放入分析层的加密 S3 存储桶中。

  4. 部分敏感的数据被发送到landing zone 存储桶。

  5. 敏感行和列被屏蔽,然后将数据发送到原始层中的 S3 存储桶。

  6. 非敏感数据直接发送到原始层中的 S3 存储桶。

  7. AWS Glue任务验证数据并将其转换为可供使用的格式,并将文件放入舞台层的 S3 存储桶中。

  8. AWS Glue任务根据贵组织的要求聚合数据,并将数据放入分析层的 S3 存储桶中。