在 AWS Glue 中定义爬网程序 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 AWS Glue 中定义爬网程序

您可以使用爬网程序用表填充 AWS Glue Data Catalog。这是大多数 AWS Glue 用户使用的主要方法。爬网程序可以在单次运行中爬取多个数据存储。完成后,爬网程序会在数据目录中创建或更新一个或多个表。您在 AWS Glue 中定义的提取、转换和加载(ETL)任务使用这些数据目录表作为源和目标。ETL 任务从在源和目标数据目录表中指定的数据存储中读取内容并向其中写入内容。

有关使用 AWS Glue 控制台添加爬网程序的更多信息,请参阅在 AWS Glue 控制台上使用爬网程序