计划用于添加新分区的增量爬取

聚焦模式

计划用于添加新分区的增量爬取 - AWS Glue

您可以配置 AWS Glue 爬网程序运行增量爬取，以仅向表架构添加新分区。爬网程序首次运行时，它会执行完全爬取来处理整个数据来源，以记录 AWS Glue Data Catalog 中完整的架构和所有现有分区。

初始完全爬取之后的后续爬取将是增量式的，其中爬网程序仅识别并添加自上次爬取以来引入的新分区。这种方法可以缩短爬取时间，因为爬网程序不再需要每次运行时处理整个数据来源，而是只关注新分区。

增量爬取不会检测对现有分区的修改或删除。此配置最适合具有稳定架构的数据来源。如果发生一次性的重大架构变更，建议暂时将爬网程序设置为执行完全爬取以准确捕获新架构，然后再切换回增量爬取模式。

下图显示，启用增量爬取设置后，爬网程序仅检测新添加的文件夹 month=March 并将其添加到目录中。

请按照以下步骤更新爬网程序以执行增量爬取：

登录 AWS Management Console，然后打开 AWS Glue 控制台，网址为：https://console.aws.amazon.com/glue/。
在数据目录下选择爬网程序。
选择要设置为增量爬取的爬网程序。
选择编辑。
选择步骤 2。选择数据来源和分类器。
选择要增量爬取的数据来源。
选择编辑。
在后续爬网程序运行下选择仅爬取新子文件夹。
选择更新。

要为爬网程序创建计划，请参阅计划爬网程序。

启用此选项后，您无法在编辑爬网程序时更改 Amazon S3 目标数据存储。此选项会影响某些爬网程序配置设置。启用后，它会将爬网程序的更新行为和删除行为强制为 LOG。这意味着：

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

自定义爬网程序行为

生成分区索引

选择您的 Cookie 首选项