敏感数据发现作业的范围选项 - Amazon Macie

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

敏感数据发现作业的范围选项

对于敏感数据发现任务,您可以定义 Amazon Macie 为检测和报告亚马逊简单存储服务 (Amazon S3) 通用存储桶中的敏感数据而执行的分析范围。为了帮助您执行此操作,Macie 提供了几个特定于作业的选项,您可以在创建和配置作业时选择这些选项。

S3 存储桶或存储桶标准

创建敏感数据发现任务时,您可以指定哪些 S3 存储桶存储您希望 Macie 在任务运行时分析的对象。您可以通过两种方式执行此操作:从存储桶清单中选择特定的 S3 存储桶,或者指定源自 S3 存储桶属性的自定义标准。

选择特定的 S3 存储桶

使用此选项,您可以明确选择要分析的每个 S3 存储桶。然后,当作业运行时,它仅分析您所选存储桶中的对象。如果您将任务配置为每天、每周或每月定期运行,则该作业每次运行时都会分析相同存储桶中的对象。

对于要对特定数据集进行有针对性的分析的情况,此配置非常有用。它使您可以精确、可预测地控制作业分析哪些存储桶。

指定 S3 存储桶标准

使用此选项,您可以定义运行时标准来确定要分析哪些 S3 存储桶。该条件由一个或多个派生自存储桶属性的条件组成,如公共访问设置和标签。当任务运行时,它会识别符合条件的存储桶,然后分析这些存储桶中的对象。如果您将作业配置为定期运行,则该作业在每次运行时都会执行此操作。因此,作业每次运行时可能会分析不同存储桶中的对象,具体取决于存储桶清单的变化和您定义的条件。

如果您希望分析范围动态适应存储桶清单的变化,则此配置非常有用。如果您将作业配置为使用存储桶条件并定期运行,则该作业会自动识别符合条件的新存储桶,并检查这些存储桶中是否存在敏感数据。

本节中的主题提供了有关每个选项的更多详细信息。

选择特定 S3 存储桶

如果您选择明确选择要分析任务的每个 S3 存储桶,Macie 会为您提供当前通用存储桶的完整清单。 AWS 区域然后,您可以查看您的清单并选择所需的存储桶。如果您是组织的 Macie 管理员,则您的库存中包含您的成员账户拥有的存储桶。您可以选择多达 1000 个存储桶,涵盖多达 1000 个账户。

为了帮助您选择存储桶,该清单提供了每个存储桶的详细信息和统计数据。这包括作业可以在每个存储桶中分析的数据量 - 可分类对象是指使用支持的 Amazon S3 存储类且具有支持的文件或存储格式文件扩展名的对象。清单还会显示您是否配置了任何现有任务来分析存储桶中的对象。这些详细信息可以帮助您估算作业的范围,并优化您的存储桶选择。

在清单表中:

  • 敏感度-如果启用了自动敏感数据发现,则指定存储桶的当前敏感度分数。

  • 可分类对象-指定任务可以在存储桶中分析的对象总数。

  • 可分类大小-指定任务可以在存储桶中分析的所有对象的总存储大小。

    如果存储桶存储压缩对象,则此值不会反映这些对象在解压缩后的实际大小。如果为存储桶启用了版本控制,则此值基于存储桶中每个对象的最新版本的存储大小。

  • 按任务监控-指定是否将任何现有任务配置为每天、每周或每月定期分析存储桶中的对象。

    如果此字段的值为,则表示该存储桶已显式包含在定期作业中,或者该存储桶在过去 24 小时内符合定期作业的条件。此外,其中至少有一个作业的状态非已取消。Macie 每天都会更新这些数据。

  • 最新运行的作业 — 如果您配置了任何定期或一次性作业来分析存储桶中的对象,则此字段会指定其中一个任务开始运行的最新日期和时间。否则,此字段中会出现短划线 (—)。

如果信息图标 ( The information icon, which is a blue circle that has a lowercase letter i in it. ) 出现在任何存储桶名称旁边,我们建议您从 Amazon S3 中检索最新的存储桶元数据。为此,请选择表上方的刷新 ( The refresh button, which is a button that displays an empty, dark gray circle with an arrow. ) 。该信息图标表示存储桶是在过去 24 小时内创建的,可能是在 Macie 上次作为每日刷新周期的一部分从 Amazon S3 检索存储桶和对象元数据之后创建的。有关更多信息,请参阅 数据刷新

如果存储桶名称旁边显示警告图标 ( The warning icon, which is a red triangle that has an exclamation point in it. ),则不允许 Macie 访问该存储桶或存储桶的对象。这意味着作业将无法分析存储桶中的对象。要调查该问题,请在 Amazon S3 中查看存储桶的策略和权限设置。例如,存储桶可能具有限制性的存储桶策略。有关更多信息,请参阅 允许 Macie 访问 S3 存储桶和对象

要自定义清单视图并更轻松地查找特定存储桶,您可以通过在筛选框中输入筛选条件来筛选表。下表提供了一些示例。

要显示所有存储桶…… 应用此筛选条件……
归特定账户所有 账户编号 = the 12-digit ID for the account
可公开访问 有效权限 = 公共
不包含在任何定期作业中 由作业主动监控 = False
不包括在任何定期或一次性作业中 在作业中定义 = False
有一个特定标签键* 标签密钥 = the tag key
有一个特定标签值* 标签值 = the tag value
存储未加密的对象(或使用客户端加密的对象) 加密对象计数未加密 = 1

* 标签键和值区分大小写。此外,您必须在筛选条件中为这些字段指定一个完整的有效值。您不能指定部分值或使用通配符。

要显示存储桶的其他详细信息,请选择存储桶的名称并参阅详细信息面板。在面板中,您还可以:

  • 通过为字段选择一个放大镜来透视和深入查看某些字段。选择 The zoom in icon, which is a magnifying glass that has a plus sign in it. 显示具有相同值的存储桶,或者选择 The zoom out icon, which is a magnifying glass that has a minus sign in it. 显示具有其他值的存储桶。

  • 检索存储桶中对象的最新元数据。如果您最近创建了一个存储桶或在过去 24 小时内对存储桶的对象进行了重大更改,这可能会很有帮助。要检索数据,请在面板的对象统计信息部分中选择刷新( The refresh button, which is a button that displays an empty, dark gray circle with an arrow. )。此选项适用于存储 30,000 个或更少对象的存储桶。

指定 S3 存储桶条件

如果您选择为作业指定存储桶条件,Macie 会提供用于定义和测试条件的选项。这些是决定哪些 S3 存储桶存储要分析的对象的运行时标准。每次运行任务时,Macie 都会识别符合您标准的通用存储桶,然后分析相应存储桶中的对象。如果您是组织的 Macie 管理员,则这包括您的成员账户拥有的存储桶。

定义存储桶条件

存储桶条件由一个或多个派生自 S3 存储桶属性的条件组成。每个条件,也称为标准,由以下部分组成:

  • 基于属性的字段,例如账户 ID有效权限

  • 运算符,等于 (eq) 或不等于 (neq)。

  • 一个或多个值。

  • 包含或排除语句,用于指示是分析(包含)还是跳过(排除)符合条件的存储桶。

如果您为一个字段指定多个值,Macie 会使用 OR 逻辑来联接这些值。如果您为条件指定多个条件,Macie 会使用AND逻辑来连接这些条件。此外,排除条件优先于包含条件。例如,如果包含可公开访问的存储桶并排除具有特定标签的存储桶,则该作业会分析任何可公开访问的存储桶中的对象,除非该存储桶具有指定标签之一。

您可以为 S3 存储桶定义从以下任何基于属性的字段中派生的条件。

账户 ID

拥有存储桶的的的唯一标识符 (ID)。 AWS 账户 若要为此字段指定多个值,请输入每个账户的 ID,并用逗号分隔每个条目。

请注意,Macie 不支持在此字段中使用通配符或部分值。

Bucket name(存储桶名称)

存储桶的名称。此字段与 Amazon S3 中的 “名称” 字段相关联,而不是 “亚马逊资源名称” (ARN) 字段。若要为此字段指定多个值,请输入每个存储桶的名称,并用逗号分隔每个条目。

注意,值区分大小写。此外,Macie 不支持在此字段中使用通配符或部分值。

有效的权限

指定存储桶是否可公开访问。您可以为此字段选择以下一个或多个值:

  • 非公开‬ – 公众对存储桶没有读写权限。

  • 公开‬ – 公众对存储桶拥有读写权限。

  • 未知‬ – Macie 无法评测存储桶的公共访问设置。

为了确定存储桶是否可公开访问,Macie 会分析该存储桶的账户级和存储分区级设置组合:账户的封禁公开访问设置;存储桶的封禁公开访问设置;存储桶的存储桶策略;以及存储桶的访问控制列表 (ACL)。

共享访问

指定存储桶是与其他存储桶共享 AWS 账户、Amazon CloudFront 源访问身份 (OAI) 还是 CloudFront 源站访问控制 (OAC)。您可以为此字段选择以下一个或多个值:

  • 外部 — 存储桶与以下一个或多个用户或其任意组合共享:a CloudFront OAI CloudFront OAC、a 或组织外部(不属于)的账户。

  • 内部‬ – 存储桶与组织内部(一部分)的一个或多个账户共享。它不会与 CloudFront OAI或共享OAC。

  • 未共享-存储桶未与其他账户 a 或 a CloudFront OAI 共享 CloudFront OAC。

  • 未知 – Macie 无法评测存储桶的共享访问权限设置。

为了确定一个存储桶是否与其他存储桶共享 AWS 账户,Macie 会分析存储桶策略和ACL存储分区策略。此外,组织被定义为一组 Macie 账户,这些账户通过 AWS Organizations 或受到 Macie 邀请作为一组相关账户进行集中管理。有关用于共享存储桶的 Amazon S3 选项的信息,请参阅《亚马逊简单存储服务用户指南》中的访问管理

为了确定存储桶是否与 CloudFront OAI或共享OAC,Macie 会分析该存储桶的存储桶策略。 CloudFront OAI或OAC允许用户通过一个或多个指定的 CloudFront分配访问存储桶的对象。有关 CloudFront OAIs和的信息OACs,请参阅《亚马逊 CloudFront 开发者指南》中的限制对 Amaz on S3 源的访问

标签

与存储桶关联的标签。标签是您可以定义并分配给某些类型的 AWS 资源(包括 S3 存储桶)的标签。每个标签都包含一个必需的标签键和一个可选的标签值。有关标记 S3 存储桶的信息,请参阅 Amazon Simple Storage Service 用户指南中的使用成本分配 S3 存储桶标签

对于敏感数据发现作业,您可以使用此类条件来包含或排除具有特定标签键、特定标签值或特定标签键和标签值(成对)的存储桶。例如:

  • 如果您指定 Project 为标签键,但未为条件指定任何标签值,那么任何具有 Project 标签键的存储桶都符合条件的标准,而不考虑与该标签键相关联的标签值。

  • 如果您指定 DevelopmentTest 为标签值,并且没有为条件指定任何标签键,则任何具有 DevelopmentTest 标签值的存储桶都符合条件的标准,而不考虑与这些标签值关联的标签键。

若要在一个条件中指定多个标签键,请在字段中输入每个标签键,并用逗号分隔每个条目。若要在一个条件中指定多个标签值,请在字段中输入每个标签值,并用逗号分隔每个条目。

请注意,标签键和值区分大小写。此外,Macie 不支持在标签条件中使用通配符或部分值。

测试存储桶条件

在定义存储桶条件时,您可以通过预览结果来测试和完善该条件。为此,请展开控制台上条件下方显示的预览条件结果部分。本部分显示了当前符合条件的 S3 通用存储桶的表。

该表还提供了作业可在每个存储桶中分析的数据量的详细信息 - 可分类对象是指使用支持的 Amazon S3 存储类且具有支持的文件或存储格式文件扩展名的对象。该表还显示您是否将任何现有任务配置为定期分析存储桶中的对象。

在此表格中:

  • 敏感度-如果启用了自动敏感数据发现,则指定存储桶的当前敏感度分数。

  • 可分类对象-指定任务可以在存储桶中分析的对象总数。

  • 可分类大小-指定任务可以在存储桶中分析的所有对象的总存储大小。

    如果存储桶存储压缩对象,则此值不会反映这些对象在解压缩后的实际大小。如果为存储桶启用了版本控制,则此值基于存储桶中每个对象的最新版本的存储大小。

  • 按任务监控-指定是否将任何现有任务配置为每天、每周或每月定期分析存储桶中的对象。

    如果此字段的值为,则表示该存储桶已显式包含在定期作业中,或者该存储桶在过去 24 小时内符合定期作业的条件。此外,其中至少有一个作业的状态非已取消。Macie 每天都会更新这些数据。

如果存储桶名称旁边显示警告图标 ( The warning icon, which is a red triangle that has an exclamation point in it. ),则不允许 Macie 访问该存储桶或存储桶的对象。这意味着作业将无法分析存储桶中的对象。要调查该问题,请在 Amazon S3 中查看存储桶的策略和权限设置。例如,存储桶可能具有限制性的存储桶策略。有关更多信息,请参阅 允许 Macie 访问 S3 存储桶和对象

要细化作业的存储桶条件,请使用筛选条件选项在条件中添加、更改或删除条件。然后,Macie 会更新表格以反映您的更改。

采样深度

使用此选项,您可以指定您希望敏感数据发现任务分析的符合条件的 S3 对象的百分比。符合条件的对象包括:使用支持的 Amazon S3 存储类、具有支持的文件或存储格式的文件扩展名以及符合您为作业指定的其他条件的对象。

如果此值小于 100%,Macie 会随机选择要分析的合格对象,最多可达指定的百分比,并分析这些对象中的所有数据。例如,如果您将任务配置为分析 10,000 个对象,并将采样深度指定为 20%,则在作业运行时,Macie 会分析大约 2,000 个随机选择的符合条件的对象。

减少作业的采样深度可降低成本并缩短作业的持续时间。对于对象中的数据高度一致并且您想要确定 S3 存储桶(而不是每个对象)是否存储敏感数据的情况,这很有用。

请注意,此选项控制的是所分析对象的百分比,而不是所分析的字节百分比。如果您输入的采样深度小于 100%,Macie 会分析每个选定对象中的所有数据,而不是每个选定对象中数据的百分比。

初始运行:包括现有的 S3 对象

您可以使用敏感数据发现作业对 S3 存储桶中的对象执行持续的增量分析。如果您将作业配置为定期运行,Macie 会自动为您执行此操作——每次运行仅分析在前一次运行后创建或更改的对象。使用包括现有对象选项,您可以选择第一个增量的起点:

  • 要在完成创建作业后立即分析所有现有对象,请选中此选项的复选框。

  • 若要等待并仅分析那些在创建作业后和首次运行前创建或更改的对象,请清除此选项的复选框。

    如果您已经分析了数据并希望继续定期对其进行分析,则清除此复选框会很有帮助。例如,如果您以前使用其他服务或应用程序对数据进行分类,而最近又开始使用 Macie,则可以使用此选项来确保持续发现和分类数据,而不会产生不必要的成本或重复分类数据。

定期作业的每次后续运行将仅自动分析在上一次运行之后创建或更改过的对象。

对于定期作业和一次性作业,您还可以将作业配置为仅分析在特定时间之前或之后或特定时间范围内创建或更改的对象。为此,请添加使用对象上次修改日期的对象条件。

S3 对象条件

要微调敏感数据发现任务的范围,您可以为 S3 对象定义自定义标准。Macie 使用这些标准来确定在作业运行时要分析(包括)或跳过(排除)哪些对象。该标准由一个或多个从 S3 对象的属性派生的条件组成。这些条件适用于分析中包含的所有 S3 存储桶中的对象。如果存储桶存储对象的多个版本,则条件适用于该对象的最新版本。

如果您将多个条件定义为对象标准,Macie 会使用AND逻辑来连接这些条件。此外,排除条件优先于包含条件。例如,如果包含文件扩展名为 .pdf 的对象并排除大于 5 MB 的对象,则作业会分析任何文件扩展名为 .pdf 的对象,除非该对象大于 5 MB。

您可以定义从 S3 对象的以下任何属性派生的条件。

文件扩展名

这与 S3 对象的文件扩展名相关。您可以使用此类条件根据文件类型来包含或排除对象。若要对多种类型的文件执行此操作,请输入每种类型的文件扩展名,并用逗号分隔每个条目,例如:docx,pdf,xlsx。如果您输入多个文件扩展名作为条件的值,则 Macie 会使用 OR 逻辑来联接这些值。

注意,值区分大小写。此外,Macie 不支持在此类条件下使用部分值或通配符。

有关 Macie 可分析的文件类型的信息,请参阅 支持的文件和存储格式

上次修改时间

这与 Amazon S3 中的上次修改时间字段相关。在 Amazon S3 中,此字段存储创建或上次更改 S3 对象的日期和时间,以最新日期为准。

对于敏感数据发现作业,此条件可以是特定日期、特定日期和时间或独占时间范围:

  • 若要分析在特定日期或日期和时间之后最后一次修改的对象,请在字段中输入值。

  • 若要分析在特定日期或日期和时间之前最后一次修改的对象,请在字段中输入值。

  • 若要分析在特定时间范围内最后一次修改的对象,请使用字段输入时间范围内的第一个日期或日期和时间的值。使用字段输入时间范围内的最后日期或日期和时间的值。

  • 若要分析某一天中最后一次修改的对象,请在日期字段中输入日期。在日期字段中输入第二天的日期。然后确认两个时间字段均为空。(Macie 将空白时间字段视为 00:00:00。) 例如,要分析 2023 年 8 月 9 日更改的对象,请2023/08/09在 “始日期” 字段2023/08/10中输入,在 “结束日期” 字段中输入,不要在任一时间字段中输入值。

在协调世界时 (UTC) 中输入任何时间值并使用 24 小时表示法。

前缀

这与 Amazon S3 中的字段相关。在 Amazon S3 中,此字段存储 S3 对象的名称,包括该对象的前缀。前缀类似于存储桶中的目录路径。它使您能够将相似的对象分组在一个存储桶中,就像您可以将相似的文件一起存储在文件系统上的一个文件夹中一样。有关 Amazon S3 中对象前缀和文件夹的信息,请参阅 Amazon Simple Storage Service 用户指南中的使用文件夹在 Amazon S3 控制台中组织对象

您可以使用此类条件来包含或排除其键(名称)以特定值开头的对象。例如,要排除键以开头的所有对象 AWSLogs,请输入AWSLogs作为前缀条件的值,然后选择排除

如果您输入多个前缀作为条件的值,则 Macie 会使用 OR 逻辑来联接这些值。例如,如果您输入AWSLogs1AWSLogs2作为条件的值,则其键以条件开头AWSLogs1AWSLogs2匹配条件的任何对象。

在为前缀条件输入值时,请注意以下几点:

  • 值区分大小写。

  • Macie 不支持在这些值中使用通配符。

  • 在 Amazon S3 中,对象的密钥不包括存储该对象的存储桶的名称。因此,请勿在这些值中指定存储桶名称。

  • 如果前缀包含分隔符,则在该值中包含分隔符。例如,输入AWSLogs/eventlogs可以为密钥以 AWSLogs/even tlogs 开头的所有对象定义一个条件。Macie 支持默认的 Amazon S3 分隔符(即斜杠 (/))和自定义分隔符。

另请注意,仅当对象的键与您输入的值(从对象键中的第一个字符开始)完全匹配时,该对象才符合条件的标准。此外,Macie 会对对象的完整值应用一个条件,包括该对象的文件名。

例如,如果对象的键为 AWSLogs/eventlogs/testlog.csv,并且您为条件输入了以下任意值,则该对象与条件的条件相匹配:

  • AWSLogs

  • AWSLogs/event

  • AWSLogs/eventlogs/

  • AWSLogs/eventlogs/testlog

  • AWSLogs/eventlogs/testlog.csv

但是,如果您输入eventlogs,则对象与条件不匹配,条件的值不包括键的第一部分,AWSLogs即/。同样,如果您输入 awslogs,由于大小写差异,该对象也不符合条件。

存储大小

这与 Amazon S3 中的大小字段相关。在 Amazon S3 中,此字段指示 S3 对象的总存储大小。如果对象是压缩文件,则此值不反映文件解压后的实际大小。

您可以使用此类条件来包含或排除小于特定大小、大于特定大小或位于特定大小范围内的对象。Macie 将此类条件应用于所有类型的对象,包括压缩或存档文件及其包含的文件。有关每种支持格式基于大小的限制信息,请参阅 Amazon Macie 限额

标签

与 S3 对象关联的标签。标签是您可以定义和分配给某些类型的 AWS 资源(包括 S3 对象)的标签。每个标签都包含一个必需的标签键和一个可选的标签值。有关标记 S3 对象的信息,请参阅 Amazon Simple Storage Service 用户指南中的使用标签对存储进行分类

对于敏感数据发现作业,您可以使用此类条件来包含或排除具有特定标签的对象。这可以是特定的标签键,也可以是特定的标签键和标签值(成对)。如果您指定多个标签作为条件的值,则 Macie 会使用 OR 逻辑来联接这些值。例如,如果您指定 Project1Project2 作为条件的标签键,则任何具有Project1Project2标签键的对象都将符合该条件的标准。

请注意,标签键和值区分大小写。此外,Macie 不支持在此类条件下使用部分值或通配符。