使用 Macie 发现敏感数据

借助 Amazon Macie，您可以自动发现、记录和报告 Amazon Simple Storage Service (Amazon S3) 数据资产中的敏感数据。您可以通过两种方式执行此操作：通过配置 Macie 以执行自动敏感数据发现，以及通过创建并运行敏感数据发现作业。

通过自动敏感数据发现，可以广泛了解敏感数据可能存放在您的 Amazon S3 数据资产中的位置。使用此选项，Macie 可以每天评测您的 S3 存储桶清单，并使用采样技术从您的存储桶中识别和选择具有代表性的 S3 对象。然后，Macie 检索并分析所选对象，检查它们是否有敏感数据。有关更多信息，请参阅执行自动敏感数据发现。

敏感数据发现作业可提供更深入、更有针对性的分析。使用此选项，您可以定义分析的广度和深度 — 您选择的特定 S3 存储桶或符合特定条件的存储桶。您还可以通过选择选项（例如源自 S3 对象属性的自定义标准）来细化分析范围。此外，您可以将作业配置为仅运行一次以进行按需分析和评测，或者定期运行以进行定期分析、评测和监控。有关更多信息，请参阅运行敏感数据发现作业。

无论是自动敏感数据发现还是敏感数据发现任务，您都可以将 Macie 配置为使用其提供的托管数据标识符、您定义的自定义数据标识符或两者的组合来分析 S3 对象。您还可以使用允许列表对分析进行微调。在配置自动敏感数据发现或敏感数据发现任务的设置时，需要指定要使用的设置：

托管数据标识符-这些是内置的标准和技术，旨在检测特定类型的敏感数据。例如，他们可以检测特定国家和地区的信用卡号、 AWS 秘密访问密钥和护照号码。他们可以检测到许多国家和地区的大量且不断增长的敏感数据类型。这包括多种类型的个人身份信息 (PII)、财务信息和凭证数据。有关更多信息，请参阅使用托管数据标识符。
自定义数据标识符-这些是您为检测敏感数据而定义的自定义标准。每个自定义数据标识符指定一个正则表达式 (regex)，该正则表达式定义要匹配的文本模式，以及（可选）字符序列和优化结果的邻近规则。您可以使用它们来检测反映您的特定场景、知识产权或专有数据的敏感数据，例如员工 IDs、客户账号或内部数据分类。有关更多信息，请参阅构建自定义数据标识符。
允许列表 — 这些列表指定您希望 Macie 忽略的文本和文本模式。您可以使用它们来为您的特定场景或环境指定敏感数据例外情况，例如，贵组织的公共名称或电话号码，或者您的组织用于测试的示例数据。如果 Macie 在允许列表中找到与条目或模式相匹配的文本，则 Macie 不会报告出现的文本。即使文本符合托管或自定义数据标识符的标准，情况也是如此。有关更多信息，请参阅使用允许列表定义敏感数据例外。

当 Macie 分析 S3 对象时，Macie 会从 Amazon S3 中检索该对象的最新版本，然后检查该对象的内容中是否有敏感数据。如果以下条件成立，则 Macie 可以分析对象：

该对象使用支持的文件或存储格式，并使用支持的存储类存储在 S3 通用存储桶中。有关更多信息，请参阅支持的存储类别和格式。
如果对象已加密，则会使用 Macie 可以访问并允许使用的密钥进行加密。有关更多信息，请参阅分析加密 S3 对象。
如果对象存储在具有限制性存储桶策略的存储桶中，则该策略允许 Macie 访问存储桶中的对象。有关更多信息，请参阅允许 Macie 访问 S3 存储桶和对象。

为了帮助您满足和保持对数据安全性和隐私性要求的合规性，Macie 会生成其发现的敏感数据及其所执行分析（敏感数据调查发现和敏感数据发现结果）的记录。敏感数据调查发现是 Macie 在 S3 对象中发现的敏感数据的详细报告。敏感数据发现结果是关于对象分析的详细信息的记录。每种类型的记录都遵循标准化架构，该架构可以帮助您根据需要使用其他应用程序、服务和系统来对它们进行查询、监控和处理。

提示

尽管 Macie 针对 Amazon S3 进行了优化，但您可以使用它来发现当前存储在其他位置的资源中的敏感数据。为此，您可以暂时或永久地将数据移动到 Amazon S3。例如，将 Amazon Relational Database Service 或 Amazon Aurora 快照以 Apache Parquet 格式导出到 Amazon S3。或者将 Amazon DynamoDB 表导出到 Amazon S3。然后，您可以创建作业来分析 Amazon S3 中的数据。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

允许 Macie 访问 S3 存储桶和对象

使用托管数据标识符