选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

计划用于添加新分区的增量爬取

聚焦模式
计划用于添加新分区的增量爬取 - AWS Glue

您可以配置 AWS Glue 爬网程序运行增量爬取,以仅向表架构添加新分区。爬网程序首次运行时,它会执行完全爬取来处理整个数据来源,以记录 AWS Glue Data Catalog 中完整的架构和所有现有分区。

初始完全爬取之后的后续爬取将是增量式的,其中爬网程序仅识别并添加自上次爬取以来引入的新分区。这种方法可以缩短爬取时间,因为爬网程序不再需要每次运行时处理整个数据来源,而是只关注新分区。

注意

增量爬取不会检测对现有分区的修改或删除。此配置最适合具有稳定架构的数据来源。如果发生一次性的重大架构变更,建议暂时将爬网程序设置为执行完全爬取以准确捕获新架构,然后再切换回增量爬取模式。

下图显示,启用增量爬取设置后,爬网程序仅检测新添加的文件夹 month=March 并将其添加到目录中。

下图显示已添加三月份的文件。

请按照以下步骤更新爬网程序以执行增量爬取:

AWS Management Console
  1. 登录 AWS Management Console,然后打开 AWS Glue 控制台,网址为:https://console.aws.amazon.com/glue/

  2. 数据目录下选择爬网程序

  3. 选择要设置为增量爬取的爬网程序。

  4. 选择编辑

  5. 选择步骤 2。选择数据来源和分类器

  6. 选择要增量爬取的数据来源。

  7. 选择编辑

  8. 后续爬网程序运行下选择仅爬取新子文件夹

  9. 选择更新

要为爬网程序创建计划,请参阅计划爬网程序

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
  1. 登录 AWS Management Console,然后打开 AWS Glue 控制台,网址为:https://console.aws.amazon.com/glue/

  2. 数据目录下选择爬网程序

  3. 选择要设置为增量爬取的爬网程序。

  4. 选择编辑

  5. 选择步骤 2。选择数据来源和分类器

  6. 选择要增量爬取的数据来源。

  7. 选择编辑

  8. 后续爬网程序运行下选择仅爬取新子文件夹

  9. 选择更新

要为爬网程序创建计划,请参阅计划爬网程序

注释和限制

启用此选项后,您无法在编辑爬网程序时更改 Amazon S3 目标数据存储。此选项会影响某些爬网程序配置设置。启用后,它会将爬网程序的更新行为和删除行为强制为 LOG。这意味着:

  • 如果发现架构不兼容的对象,爬网程序将不会在 Data Catalog 中添加这些对象,而是将此详细信息作为日志添加到 CloudWatch Logs 中。

  • 它不会更新 Data Catalog 中的已删除对象。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。