自动敏感数据发现的工作原理 - Amazon Macie

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自动敏感数据发现的工作原理

当你为你的账户启用 Amazon Macie 时 AWS 账户,Macie 会为你的账户创建一个 AWS Identity and Access Management (IAM) 服务相关角色。 AWS 区域此角色的权限策略允许 Macie 代表您呼叫其他人 AWS 服务 并监控 AWS 资源。通过使用此角色,Macie 会生成并维护您在该地区的亚马逊简单存储服务 (Amazon S3) Storage Service 通用存储桶的完整清单。清单包括有关每个 S3 存储桶和存储桶中对象的信息。如果您是组织的 Macie 管理员,则您的库存中包含有关您的成员账户拥有的存储分区的信息。有关更多信息,请参阅 管理多个 账户

如果您启用自动敏感数据发现,Macie 会每天评估您的库存数据,以识别符合自动发现条件的 S3 对象。作为评测的一部分,Macie 还会选择代表性对象的样本进行分析。然后,Macie 会检索并分析每个选定对象的最新版本,检查其中的敏感数据。

随着分析的进行,Macie 会更新统计数据、清单数据及其提供的有关您 Amazon S3 数据的其他信息。Macie 还会记录其发现的敏感数据及其执行的分析。生成的数据可以深入了解 Macie 在您的 Amazon S3 数据资产中发现敏感数据的位置,这些数据可以跨越 Macie 为您的账户监控和分析的所有 S3 通用存储桶。这些数据可以帮助您评估 Amazon S3 数据的安全和隐私,确定在何处进行更深入的调查,并确定需要采取补救措施的案例。

要简要演示自动敏感数据发现的工作原理,请观看以下视频:

要配置和管理自动发现敏感数据,您的帐户必须是组织的 Macie 管理员帐户或独立的 Macie 帐户。如果您的帐户是组织的一部分,则只有您组织的 Macie 管理员才能对组织中的帐户启用或禁用自动敏感数据发现功能。此外,只有 Macie 管理员可以配置和管理账户的自动敏感数据发现设置。

关键组件

Amazon Macie 使用多种功能和技术来自动发现敏感数据。这些功能与 Macie 提供的功能相结合,可帮助您监控 Amazon S3 数据的安全和访问控制

选择要分析的 S3 对象

Macie 每天都会评测您的 Amazon S3 清单数据,以识别符合自动敏感数据发现分析条件的 S3 对象。如果您是组织的 Macie 管理员,则默认情况下,评估将包括您的成员账户拥有的 S3 存储桶的数据。

作为评估的一部分,Macie 使用采样技术来选择具有代表性的 S3 对象进行分析。这些技术定义了具有相似元数据且可能具有相似内容的对象组。这些组基于存储桶名称、前缀、存储类别、文件扩展名和上次修改日期等维度。然后,Macie 从每个组中选择一组具有代表性的样本,从 Amazon S3 中检索每个选定对象的最新版本,并分析每个选定对象以确定该对象是否包含敏感数据。分析完成后,Macie 会丢弃其对象副本。

采样策略优先考虑分布式分析。通常,它对您的 Amazon S3 数据资产使用广度优先的方法。每天,根据您的 Amazon S3 数据资产中所有可分类对象的总存储大小,从尽可能多的通用存储桶中选择一组具有代表性的 S3 对象。例如,如果 Macie 已经分析并发现了一个存储桶中的对象中的敏感数据,但尚未分析另一个存储桶中的对象,则后一个存储桶的分析优先级更高。通过这种方法,您可以更快地深入了解 Amazon S3 数据的敏感度。根据数据资产的大小,分析结果可能会在 48 小时内开始显示。

采样策略还优先分析不同类型的 S3 对象和最近创建或更改的对象。不能保证任何单个对象样本都是结论性的。因此,分析各种各样的对象可以更好地了解 S3 存储桶可能包含的敏感数据类型和数量。此外,对新的或最近更改的对象进行优先级排序有助于分析适应存储桶清单的变化。例如,如果对象是在先前的分析之后创建或更改的,则这些对象在后续分析中的优先级更高。相反,如果之前分析过某个对象,并且自那次分析以来没有发生变化,那么 Macie 就不会再次分析该对象。此方法可帮助您为单个 S3 存储桶建立敏感度基准。然后,随着对您的账户进行持续的增量分析,您对各个存储桶的敏感度评测可以以可预测的速度变得越来越深入和详细。

定义分析范围

默认情况下,Macie 在评估您的清单数据并选择要分析的 S3 对象时会为您的账户监控和分析的所有 S3 通用存储桶。如果您是组织的 Macie 管理员,则这包括您的成员账户拥有的存储桶。

您可以通过排除特定的 S3 存储桶来调整分析范围。例如,您可能更愿意排除通常存储 AWS 日志数据的存储桶,例如 AWS CloudTrail 事件日志。要排除存储桶,您可以更改账户或存储桶的自动敏感数据发现设置。如果您这样做,当下一个每日评测和分析周期开始时,Macie 就会开始排除存储桶。您可以从分析中排除多达 1,000 个存储桶。如果您排除 S3 存储桶,则可以随后再次将其包括在内。为此,请再次更改您的账户或存储桶的设置。然后当下一个每日评测和分析周期开始时,Macie 就会开始将此存储桶包括在内。

如果您是组织的 Macie 管理员,也可以为组织中的个人帐户启用或禁用自动发现敏感数据。如果您禁用账户的自动发现,Macie 会排除该账户拥有的所有 S3 存储桶。如果您随后为该账户重新启用自动发现,Macie 将重新开始包含存储桶。

确定要检测和报告哪些类型的敏感数据

默认情况下,Macie 使用我们为自动敏感数据发现推荐的一组托管数据标识符来检查 S3 对象。有关这些托管数据标识符的列表,请参阅 自动敏感数据发现的默认设置

您可以定制分析,将重点放在特定类型的敏感数据上。为此,您可以选择以下任一方式更改账户的自动敏感数据发现设置。

  • 添加或删除托管数据标识符-托管数据标识符是一组内置标准和技术,旨在检测特定类型的敏感数据,例如特定国家或地区的信用卡号、 AWS 秘密访问密钥或护照号码。有关更多信息,请参阅 使用托管数据标识符

  • 添加或删除自定义数据标识符-自定义数据标识符是您为检测敏感数据而定义的一组标准。使用自定义数据标识符,您可以检测反映组织特定场景、知识产权或专有数据(例如员工 ID、客户账户或内部数据分类)的敏感数据。有关更多信息,请参阅 构建自定义数据标识符

  • 添加或删除允许列表 — 在 Macie 中,允许列表指定您希望 Macie 在 S3 对象中忽略的文本或文本模式。这些通常是您的特定场景或环境的敏感数据例外情况,例如贵组织的公共名称或电话号码,或者您的组织用于测试的示例数据。有关更多信息,请参阅 使用允许列表定义敏感数据例外

如果您更改设置,Macie 会在下一个每日分析周期开始时应用您的更改。如果您是组织的 Macie 管理员,Macie 会在分析组织中其他账户的 S3 对象时使用您账户的设置。

您还可以调整存储桶级的设置,以确定存储桶敏感度评测中是否包含特定类型的敏感数据。要了解如何操作,请参阅 管理单个 S3 存储桶的自动敏感数据发现

计算敏感度分数

默认情况下,Macie 会自动计算针对您的账户监控和分析的每个 S3 通用存储桶的敏感度分数。如果您是组织的 Macie 管理员,则这包括您的成员账户拥有的存储桶。

在 Macie 中,敏感度分数是衡量两个主要维度交叉点的定量指标:Macie 在存储桶中发现的敏感数据量和 Macie 在存储桶中分析的数据量。存储桶的敏感度分数决定了 Macie 为存储桶分配哪个敏感度标签。敏感度标签是存储桶敏感度分数的定性表示,例如敏感不敏感尚未分析。有关 Macie 定义的灵敏度分数范围和标签的详细信息,请参阅 S3 存储桶的敏感度评分

重要

S3 存储桶的敏感度分数和标签并不暗示或以其他方式表明该存储桶或存储桶的对象可能对您的组织具有的严重程度或重要性。相反,它们旨在提供参考点,帮助您识别和监控潜在的安全风险。

当您最初启用自动发现敏感数据时,Macie 会自动为每个 S3 存储桶分配 50 的敏感度分数和 “尚未分析” 标签。唯一的例外是空桶。空存储桶是指不存储任何对象或存储桶的所有对象都包含零 (0) 字节数据的存储桶。如果存储桶是这种情况,Macie 会为该存储桶分配 1 分,然后为该存储桶分配不敏感标签。

随着自动发现敏感数据的进展,Macie 会更新敏感度分数和标签以反映分析结果。例如:

  • 如果 Macie 在对象中找不到敏感数据,Macie 会降低存储桶的敏感度分数,并在必要时更新存储桶敏感度标签。

  • 如果 Macie 在对象中找到敏感数据,Macie 会增加存储桶的敏感度分数,并在必要时更新存储桶敏感度标签。

  • 如果 Macie 在随后更改的对象中发现敏感数据,Macie 会从存储桶的敏感度分数中删除该对象的敏感数据检测,并根据需要更新存储桶的敏感度标签。

  • 如果 Macie 在随后删除的对象中发现敏感数据,Macie 会从存储桶的敏感度分数中删除该对象的敏感数据检测,并根据需要更新存储桶的敏感度标签。

您可以通过在存储桶的分数中包含或排除特定类型的敏感数据来调整单个 S3 存储桶的敏感度评分设置。您还可以通过手动为存储桶分配最高分数 (100) 来覆盖该存储桶的计算得分。如果您分配了最高分数,则该存储桶将被标记为敏感。有关更多信息,请参阅 管理单个 S3 存储桶的自动发现

生成元数据、统计数据和结果

启用自动敏感数据发现功能后,Macie 会生成并开始维护与您的账户监控和分析的 S3 通用存储桶相关的其他清单数据、统计数据和其他信息。如果您是组织的 Macie 管理员,则默认情况下,这包括您的成员账户拥有的存储桶。

其他信息捕获了 Macie 迄今为止执行的自动敏感数据发现活动的结果。它还会补充 Macie 提供的、有关您的 Amazon S3 数据的其他信息,例如各个存储桶的公开访问和共享访问设置。其他信息包括:

  • 整合的数据敏感度统计数据,例如 Macie 在其中发现敏感数据的存储桶总数,以及其中可公开访问的存储桶数量。

  • 交互式直观显示了整个 Amazon S3 数据资产的数据敏感度。

  • 表示分析当前状态的存储桶级详细信息。例如,Macie 在存储桶中分析的对象列表、Macie 在存储桶中发现的敏感数据的类型以及 Macie 发现的每种敏感数据的出现次数。

这些信息还包括统计数据和详细信息,可帮助您评估和监控 Amazon S3 数据的覆盖范围。您可以查看整个数据资产以及存储桶清单中各个 S3 存储桶的分析状态。您还可以找出阻碍 Macie 分析特定存储桶中对象的问题。如果您修复了这些问题,则可以在后续分析周期中扩大 Amazon S3 数据的覆盖范围。有关更多信息,请参阅 评测自动敏感数据发现覆盖率

Macie 在自动发现敏感数据时会自动重新计算和更新这些信息。例如,如果 Macie 在随后更改或删除的 S3 对象中发现敏感数据,Macie 会更新相应存储桶的元数据:从分析对象列表中删除该对象;删除 Macie 在对象中发现的敏感数据出现次数;如果分数是自动计算的,则重新计算敏感度分数;并根据需要更新敏感度标签以反映新的分数。

除了元数据和统计数据外,Macie 还会记录其发现的敏感数据及其执行的分析:敏感数据发现,用于报告 Macie 在单个 S3 对象中发现的敏感数据,以及敏感数据发现结果(记录有关单个 S3 对象分析的详细信息)。

有关更多信息,请参阅 查看自动敏感数据发现统计数据和结果

注意事项

在配置和使用 Amazon Macie 对您的 Amazon S3 数据执行自动敏感数据发现时,请记住以下几点:

  • 您的自动发现设置仅适用于当前设置 AWS 区域。因此,生成的分析和数据仅适用于当前区域中的 S3 通用存储桶和对象。要在其他区域执行自动发现并访问生成的数据,请在每个其他区域启用和配置自动发现。

  • 如果您是某个组织的 Macie 管理员:

    • 只有在当前区域为成员账户启用 Macie 后,您才能为该账户执行自动发现。此外,您必须为该地区的账户启用自动发现。成员无法为自己的账户启用自动发现。

    • 如果您为成员帐户启用自动发现,Macie 会在分析成员帐户的数据时使用管理员帐户的自动发现设置。适用的设置是:要从分析中排除的 S3 存储桶列表,以及分析 S3 对象时使用的托管数据标识符、自定义数据标识符和允许列表。成员无法为自己的账户配置这些设置。

    • 成员无法访问其 S3 存储桶的自动发现设置。例如,成员无法调整其拥有的存储分区的敏感度评分设置。只有 Macie 管理员可以访问这些设置。

    • 成员无法访问 Macie 直接为其 S3 存储桶提供的敏感数据发现统计数据和其他结果。例如,成员无法使用 Macie 查看其 S3 存储桶的敏感度分数,也无法访问自动发现为其 S3 对象生成的调查结果。只有 Macie 管理员才能使用 Macie 访问这些数据。

  • 如果 S3 存储桶的权限设置阻止 Macie 检索有关该存储桶或存储桶对象的信息或访问该存储桶或存储桶的对象,则 Macie 无法对该存储桶执行自动发现。Macie 只能提供有关存储桶的部分信息,例如拥有该存储桶的 AWS 账户 账户 ID、存储桶的名称,以及 Macie 最近在每日刷新周期中检索存储桶和对象元数据的时间。在您的存储桶清单中,这些存储桶的敏感度分数为 50,其敏感度标签为尚未分析

    要快速识别出现这种情况的 S3 存储桶,请参阅您的自动发现覆盖数据。有关更多信息,请参阅 评测自动敏感数据发现覆盖率。要调查特定存储桶的问题,请查看 Amazon S3 中该存储桶的策略和权限设置。例如,存储桶可能具有限制性的存储桶策略。有关更多信息,请参阅 允许 Macie 访问 S3 存储桶和对象

  • 要获得选择和分析资格,S3 对象必须存储在通用存储桶中并且必须是可分类的。可分类对象使用支持的 Amazon S3 存储类,并且具有支持的文件或存储格式的文件扩展名。有关更多信息,请参阅 支持的存储类别和格式

  • 如果 S3 对象已加密,则仅当使用 Macie 可以访问并允许使用的密钥对其进行加密时,Macie 才能对其进行分析。有关更多信息,请参阅 分析加密 S3 对象。要确定加密设置阻止 Macie 分析存储桶中一个或多个对象的情况,请参阅您的自动发现覆盖数据。有关更多信息,请参阅 评测自动敏感数据发现覆盖率