创建敏感数据发现作业 - Amazon Macie

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建敏感数据发现作业

借助 Amazon Macie,您可以创建和运行敏感数据发现任务,自动发现、记录和报告亚马逊简单存储服务 (Amazon S3) 通用存储桶中的敏感数据。敏感数据发现作业是 Macie 执行的一系列自动处理和分析任务,用于检测和报告 Amazon S3 对象中的敏感数据。随着分析的进行,Macie 会提供有关其发现的敏感数据及其执行的分析的详细报告:敏感数据调查发现,用于报告 Macie 在单个 S3 对象中发现的敏感数据,以及敏感数据发现结果(记录有关单个 S3 对象分析的详细信息)。有关更多信息,请参阅 查看作业统计数据和结果

创建任务时,首先要指定哪些 S3 存储桶存储您希望 Macie 在任务运行时分析的对象,即您选择的特定存储分段或符合特定条件的存储桶。然后,您可以指定运行作业的频率,即每天、每周或每月运行一次,或者定期运行一次。您也可以选择选项来优化作业的分析范围。这些选项包括派生自 S3 对象属性的自定义标准,例如标签、前缀以及对象上次修改时间。

定义任务的时间表和范围后,您可以指定要使用的托管数据标识符和自定义数据标识符:

  • 托管数据标识符是一组内置标准和技术,旨在检测特定类型的敏感数据,例如信用卡号、 AWS 秘密访问密钥或特定国家或地区的护照号码。这些标识符可以检测许多国家和地区的大量且不断增长的敏感数据类型,包括多种类型的凭证数据、财务信息和个人身份信息(PII)。有关更多信息,请参阅 使用托管数据标识符

  • 自定义数据标识符是您为检测敏感数据定义的一组标准。使用自定义数据标识符,您可以检测反映组织特定场景、知识产权或专有数据(例如员工IDs、客户账号或内部数据分类)的敏感数据。您可以补充 Macie 提供的托管数据标识符。有关更多信息,请参阅 构建自定义数据标识符

然后,您可以选择要使用的允许列表。在 Macie 中,允许列表指定要忽略的文本或文本模式。这些通常是针对您的特定场景或环境的敏感数据例外情况,例如,贵组织的公共名称或电话号码,或者您的组织用于测试的样本数据。有关更多信息,请参阅 使用允许列表定义敏感数据例外

选择完这些选项后,就可以输入作业的常规设置了,例如作业的名称和说明。然后,您可以查看并保存作业。

开始前的准备工作

创建作业之前,最好执行以下步骤:

  • 确认您已配置了用于存储敏感数据发现结果的存储库。为此,请在 Amazon Macie 控制台的导航窗格中选择发现结果。要了解这些设置,请参阅 存储和保留敏感数据发现结果

  • 创建希望作业使用的任何自定义数据标识符。要了解如何操作,请参阅 构建自定义数据标识符

  • 创建您希望作业使用的任何允许列表。要了解如何操作,请参阅 创建和管理允许列表

  • 如果要分析加密的 S3 对象,请确保 Macie 可以访问和使用相应的加密密钥。有关更多信息,请参阅 分析加密 S3 对象

  • 如果您要分析具有限制性存储桶策略的 S3 存储桶中的对象,请确保允许 Macie 访问这些对象。有关更多信息,请参阅 允许 Macie 访问 S3 存储桶和对象

如果您在创建作业之前执行这些操作,则可以简化作业的创建并有助于确保作业可以分析所需的数据。

第 1 步:选择 S3 存储桶

创建任务时,第一步是指定哪些 S3 存储桶存储您希望 Macie 在任务运行时分析的对象。您有两个选项来执行此步骤:

  • 选择特定的存储桶-使用此选项,您可以明确选择要分析的每个 S3 存储桶。然后,当作业运行时,Macie 仅分析您选择的存储桶中的对象。

  • 指定存储桶标准-使用此选项,您可以定义运行时标准来确定要分析哪些 S3 存储桶。标准由一个或多个派生自 S3 存储桶属性的条件组成。然后,当任务运行时,Macie 会识别符合您标准的存储分区,并分析这些存储桶中的对象。

有关这些选项的详细信息,请参阅 作业的范围选项

以下各节提供了选择和配置每个选项的说明。选择所需选项的部分。

如果您选择明确选择要分析的每个 S3 存储桶,Macie 会为您提供当前通用存储桶的完整清单。 AWS 区域然后,您可以使用此清单为任务选择一个或多个存储桶。要了解此清单,请参阅 选择特定 S3 存储桶

如果您是某个组织的 Macie 管理员,则清单中会包含组织中成员账户所拥有的存储桶。您可以选择多达 1000 个存储桶,涵盖多达 1000 个账户。

为任务选择特定的 S3 存储桶
  1. 打开亚马逊 Macie 主机,网址为。https://console.aws.amazon.com/macie/

  2. 在导航窗格中,选择作业

  3. 请选择 Create job (创建作业)

  4. 选择 S3 存储桶页面上,选择选择特定存储桶。Macie 会显示您的账户在当前区域的所有通用存储桶的表格。

  5. 选择 S3 存储桶部分,可以选择刷新 ( The refresh button, which is a button that displays an empty, dark gray circle with an arrow. ),从 Amazon S3 检索最新的存储桶元数据。

    如果信息图标 ( The information icon, which is a blue circle that has a lowercase letter i in it. ) 出现在任何存储桶名称旁边,我们建议您这样操作。此图标表明存储桶是在过去 24 小时内创建的,可能是 Macie 在每日刷新周期中最后一次从 Amazon S3 检索存储桶和对象元数据之后创建的。

  6. 在表中,选中希望作业分析的每个存储桶对应的复选框。

    提示
    • 要更轻松地查找特定存储桶,请在表格上方的筛选框中输入筛选标准。您还可以通过选择列标题对表格进行排序。

    • 要确定您是否已将作业配置为定期分析存储桶中的对象,请参阅按作业监控字段。如果此字段显示,存储桶已显式包含在定期作业中,或者该存储桶在过去 24 小时内符合定期作业的标准。此外,其中至少有一个作业的状态非已取消。Macie 每天都会更新这些数据。

    • 要确定现有定期或一次性作业最近一次分析存储桶中的对象的时间,请参阅最新作业运行字段。有关该作业的更多信息,请参阅存储桶的详细信息。

    • 要显示存储桶的详细信息,请选择存储桶的名称。除了与作业相关的信息外,详细信息面板还提供有关存储桶的统计数据和其他信息,例如存储桶的公共访问设置。要详细了解此数据,请参阅 查看 S3 存储桶清单

  7. 选择完存储桶后,选择下一步

在下一步中,您将检查并验证您的选择。

如果您选择指定运行时标准来确定要分析哪些 S3 存储桶,Macie 会提供一些选项来帮助您为标准中的各个条件选择字段、运算符和值。要了解有关这些选项的更多信息,请参阅指定 S3 存储桶条件

为任务指定 S3 存储桶标准
  1. 打开亚马逊 Macie 主机,网址为。https://console.aws.amazon.com/macie/

  2. 在导航窗格中,选择作业

  3. 请选择 Create job (创建作业)

  4. 选择 S3 存储桶页面上,选择指定存储桶标准

  5. 指定存储桶标准下,执行以下操作以向标准添加条件:

    1. 将光标置于筛选框中,然后选择要用于条件的存储桶属性。

    2. 在第一个框中,为条件选择一个运算符等于不等于

    3. 在下一个框中,为该属性输入一个或多个值。

      根据存储桶属性的类型和性质,Macie 会显示不同的值输入选项。例如,如果您选择有效权限属性,Macie 会显示一个值列表供您选择。如果您选择账户 ID 属性,Macie 会显示一个文本框,您可以在其中输入一个或多 AWS 账户 IDs个。要在文本框中输入多个值,请输入每个值并用逗号分隔每个条目。

    4. 选择 应用。Macie 添加条件并将其显示在筛选框下方。

      默认情况下,Macie 使用包含语句添加条件。这意味着作业配置为分析(包含)存储桶中符合条件的对象。要跳过(排除)符合条件的存储桶,请为条件选择包含,然后选择排除

    5. 对要添加到标准的每个其他条件重复上述步骤。

  6. 要测试您的标准,请展开预览标准结果部分。此部分显示当前符合条件的通用存储桶的表。

  7. 要优化标准,请执行以下任一操作:

    • 要移除条件,请选择条件的 X

    • 要更改条件,请通过为条件选择 X 来移除该条件。然后添加具有正确设置的条件。

    • 要移除所有条件,请选择清除筛选条件

    Macie 会更新标准结果表以反映您的更改。

  8. 指定完存储桶标准后,选择下一步

在下一步中,您将检查并验证您的标准。

第 2 步:检查您的 S3 存储桶选择或标准

在此步骤中,请验证您在上一步中选择的设置是否正确:

  • 查看您的存储桶选择 - 如果您为作业选择了特定的 S3 存储桶,请查看存储桶表并根据需要更改存储桶选择。该表提供了对作业分析的预计范围和成本的深入了解。数据基于当前存储在存储桶中的对象的大小和类型。

    在表中,估计成本字段表示分析 S3 存储桶中对象的估计成本总额(以美元计)。每个估计值都反映了作业将在存储桶中分析的预计未压缩数据量。如果有任何对象是压缩文件或存档文件,则该估计假设这些文件使用 3:1 的压缩比,并且作业可以分析所有提取的文件。有关更多信息,请参阅 预测和监控作业成本

  • 查看您的存储桶标准 - 如果您为作业指定了存储桶标准,请查看条件中的每个条件。要更改标准,请选择上一步,然后使用上一步中的筛选选项输入正确的标准。完成后,选择 Next (下一步)

完成对设置的查看和验证后,选择下一步

第 3 步:定义时间表并优化范围

在此步骤中,您可以指定运行作业的频率,即每天、每周或每月运行一次,或者定期运行一次。您也可以选择各种选项来优化作业的分析范围。要了解有关这些选项的信息,请参阅 作业的范围选项

定义时间表并优化作业范围
  1. 优化范围页面上,指定您希望作业运行的频率:

    • 要仅运行一次作业,请在完成创建作业后立即选择一次性作业

    • 要定期运行作业,请选择计划作业。对于更新频率,选择是每天、每周还是每月运行作业。然后使用包含现有对象选项来定义作业首次运行的范围:

      • 选中此复选框可在创建作业后立即分析现有的对象。每次后续运行将仅分析在上一次运行之后创建或更改过的对象。

      • 清除此复选框可跳过对现有对象的分析。此作业的第一次运行仅分析在完成作业创建之后和第一次运行开始之前创建或更改的对象。每次后续运行将仅分析在上一次运行之后创建或更改过的对象。

        如果您已经分析了数据并希望继续定期对其进行分析,则清除此复选框会很有帮助。例如,如果您以前使用其他服务或应用程序对数据进行分类,而最近又开始使用 Macie,则可以使用此选项来确保持续发现和分类数据,而不会产生不必要的成本或重复分类数据。

  2. (可选)要指定您希望作业分析的对象的百分比,请在采样深度框中输入该百分比。

    如果此值小于 100%,Macie 会随机选择要分析的对象,最多可达指定的百分比,并分析这些对象中的所有数据。默认值为 100%。

  3. (可选)要添加确定作业分析中包含或排除哪些 S3 对象的特定标准,请展开其他设置部分,然后输入标准。这些标准由派生自 S3 对象属性的单个条件组成:

    • 要分析(包括)满足特定条件的对象,请输入条件类型和值,然后选择包括

    • 要分析(排除)满足特定条件的对象,请输入条件类型和值,然后选择排除

    对所需的每个包括或排除条件重复此步骤。

    如果您输入多个条件,则任何排除条件优先于包括条件。例如,如果包含文件扩展名为 .pdf 的对象并排除大于 5 MB 的对象,则作业会分析任何文件扩展名为 .pdf 的对象,除非该对象大于 5 MB。

  4. 完成后,选择 Next (下一步)

第 4 步:选择托管数据标识符

在此步骤中,请指定希望作业在分析 S3 对象时使用的托管数据标识符。您有两种选择:

  • 使用推荐的设置 - 使用此选项,作业将使用我们为作业推荐的一组托管数据标识符来分析 S3 对象。该组用于检测常见的敏感数据类别和类型。要查看该组中当前的托管数据标识符列表,请参阅 推荐用于作业的托管数据标识符。每次在组中添加或移除托管数据标识符时,我们都会更新该列表。

  • 使用推荐的设置 - 使用此选项,作业将使用您选择的托管数据标识符来分析 S3 对象。这可以是当前可用的全部托管数据标识符,也可以仅为部分托管数据标识符。您也可以将作业配置为不使用任何托管数据标识符。相反,该作业只能使用您在下一步中选择的自定义数据标识符。要查看当前可用的托管数据标识符列表,请参阅 快速参考:Amazon Macie 托管数据标识符。每次发布新的托管数据标识符时,我们都会更新该列表。

选择任一选项时,Macie 都会显示托管数据标识符表。在表中,敏感数据类型字段指定了托管数据标识符的唯一标识符 (ID)。此 ID 描述了托管数据标识符旨在检测的敏感数据类型,例如:USAPASSPORT_ NUMBER 代表美国护照号码,CREDITCARD_ NUMBER 代表信用卡号,PGPPRIVATE_ KEY 代表PGP私钥。要更快地找到特定的标识符,您可以按敏感数据类别或类型对表格进行排序和筛选。

为作业选择托管数据标识符
  1. 选择托管数据标识符页面的托管数据标识符选项下,执行以下操作之一:

    • 要使用我们为作业推荐的一组托管数据标识符,请选择推荐

      如果您选择此选项并将作业配置为多次运行,则每次运行都会自动使用运行开始时推荐组中的所有托管数据标识符。这包括我们发布并添加到组中的新的托管数据标识符。它不包括我们从组中移除的托管数据标识符,不再推荐用于作业。

    • 要仅使用您选择的特定托管数据标识符,请选择自定义,然后选择使用特定的托管数据标识符。然后,在表中选中选择希望作业使用的每个托管数据标识符的复选框。

      如果您选择此选项并将作业配置为多次运行,则每次运行仅使用您选择的托管数据标识符。换句话说,作业每次运行时都使用这些相同的托管数据标识符。

    • 使用 Macie 当前提供的所有托管数据标识符,请选择自定义,然后选择使用特定的托管数据标识符。然后,在表格中,选中选择列标题中的复选框以选择所有行。

      如果您选择此选项并将作业配置为多次运行,则每次运行仅使用您选择的托管数据标识符。换句话说,作业每次运行时都使用这些相同的托管数据标识符。

    • 要不使用任何托管数据标识符而仅使用自定义数据标识符,请选择自定义,然后选择不使用任何托管数据标识符。然后,在下一步中,选择要使用的自定义数据标识符。

  2. 完成后,选择 Next (下一步)

第 5 步:选择自定义数据标识符

在此步骤中,选择您希望作业在分析 S3 对象时使用的任何自定义数据标识符。除了配置作业要使用的任何托管数据标识符外,作业还将使用选定的标识符。要了解有关自定义数据标识符的更多信息,请参阅 构建自定义数据标识符

为作业选择自定义数据标识符
  1. 选择自定义数据标识符页面上,选中希望作业使用的每个自定义数据标识符的复选框。您可以选择多达 30 个自定义数据标识符。

    提示

    要在选择自定义数据标识符之前查看或测试其设置,请选择该标识符名称旁边的链接图标 ( The link icon, which is a gray box that has an arrow in it. )。Macie 会打开一个显示标识符设置的页面。

    您还可以使用此页面通过示例数据测试标识符。为此,请在示例数据框中输入最多包含 1,000 个字符,然后选择测试。Macie 使用标识符评测示例数据,然后报告匹配项的数量。

  2. 选择完自定义数据标识符后,选择下一步

第 6 步:选择允许列表

在此步骤中,选择您希望作业在分析 S3 对象时使用的任何允许列表。要了解有关允许列表的更多信息,请参阅 使用允许列表定义敏感数据例外

为作业选择允许列表
  1. 选择允许列表页面上,选择您希望作业使用的每个允许列表的复选框。您可以选择多达 10 个列表。

    提示

    要在选择允许列表之前查看其设置,请选择列表名称旁边的链接图标 ( The link icon, which is a gray box that has an arrow in it. )。Macie 会打开一个显示列表设置的页面。

    如果列表指定了正则表达式 (regex),您也可以使用此页使用示例数据测试正则表达式。为此,请在示例数据框中输入最多包含 1,000 个字符的文本,然后选择测试。Macie 使用正则表达式评测示例数据,然后报告匹配项的数量。

  2. 选择完允许列表后,选择下一步

第 7 步:输入常规设置

在此步骤中,请指定作业的名称和(可选)的作业说明。您也可以为作业分配标签。标签是您定义并分配给某些类型的 AWS 资源的标签。每个标签都包含一个必需的标签键和一个可选的标签值。标签可以帮助您以不同的方式识别、分类和管理资源,例如,按用途、所有者、环境或其他标准。要了解更多信息,请参阅为 Amazon Macie 资源添加标签

输入作业的常规设置
  1. 输入常规设置页面上,在作业名称框中输入作业的名称。名称最多可以包含 500 个字符。

  2. (可选)对于作业说明,输入作业的简短说明。说明最多可以包含 200 个字符。

  3. (可选)在标签下,选择添加标记,然后最多可输入 50 个标签来分配给作业。

  4. 完成后,选择 Next (下一步)

第 8 步:审核并创建

对于最后一步,请查看作业的配置设置并验证它们是否正确。这是非常重要的一步。创建作业后,您无法更改任何设置。这有助于确保您拥有敏感数据调查发现和发现结果的不可变历史记录,以便您执行数据隐私和保护的审计或调查。

根据作业的设置,您还可以查看一次运行作业的总估计成本(以美元计)。如果您为作业选择了特定的 S3 存储桶,则估计值将基于所选存储桶中对象的大小和类型,以及该作业可以分析的数据量。如果您为作业指定了存储桶标准,则估计值将基于多达 500 个存储桶中当前符合标准的对象的大小和类型,以及该作业可以分析的数据量。要了解此估计值,请参阅 预测和监控作业成本

审核和创建作业
  1. 查看并创建页面上,查看每项设置并验证其是否正确。要更改设置,选择包含该设置的部分中的编辑,然后输入正确的设置。您也可以使用导航选项卡转到包含设置的页面。

  2. 验证完设置后,选择提交以创建并保存作业。Macie 会检查设置并通知您任何需要解决的问题。

    注意

    如果您尚未为敏感数据发现结果配置存储库,Macie 会显示警告,并且不会保存作业。要解决此问题,请在敏感数据发现结果的存储库部分中选择配置。然后输入存储库的配置设置。要了解如何操作,请参阅 存储和保留敏感数据发现结果。输入设置后,返回到 “查看并创建” 页面,然后在该页面的 “敏感数据发现结果存储库” 部分中选择 refresh ( The refresh button, which is a button that displays an empty, dark gray circle with an arrow. )。

    虽然我们不建议这样做,但您可以暂时覆盖存储库要求并保存作业。如果你这样做,你就有可能丢失工作中的发现结果 — Macie 只会将结果保留 90 天。要暂时覆盖该要求,请选中改写选项对应的复选框。

  3. 如果 Macie 通知您要解决的问题,请解决这些问题,然后再次选择提交以创建并保存作业。

如果您将作业配置为运行一次、每天运行或者在每周或每月的当前日期运行,Macie 将会在您保存之后,立即开始运行该作业。否则,Macie 会准备在每周或每月中的指定日期运行作业。要监控作业,您可以检查作业的状态