本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS Glue 中的数据目录和爬网程序
AWS Glue Data Catalog 包含对在 AWS Glue 中用作提取、转换和加载 (ETL) 作业的源和目标的数据的引用。要创建数据仓库或数据湖,您必须对该数据进行编目。AWS Glue Data Catalog 是数据的位置、架构和运行时指标的索引。您可以使用数据目录中的信息创建和监控您的 ETL 作业。数据目录中的信息将存储为元数据表,其中每个表指定单一数据存储。通常,您运行爬网程序来清点数据存储中的数据,但还有其他方法可以将元数据表添加到数据目录中。有关更多信息,请参阅AWS Glue 表:
以下流程图显示了 AWS Glue 爬网程序如何与数据存储和其他元素交互来填充数据目录。

以下是爬网程序如何填充 AWS Glue Data Catalog 的一般工作流程:
-
爬网程序运行您为推断数据的格式和架构而选择的任何自定义分类器。您为自定义分类器提供代码,它们按您指定的顺序运行。
第一个成功识别您的数据结构的自定义分类器用于创建架构。将会跳过列表中较低的自定义分类器。
-
如果没有自定义分类器与您的数据的架构匹配,则内置分类符会尝试识别数据的架构。内置分类器的示例是一个可识别 JSON 的分类器。
-
爬网程序连接到数据存储。某些数据存储需要使用连接属性才能访问爬网程序。
-
将会为您的数据创建推断的架构。
-
爬网程序向数据目录写入元数据。表定义包含有关您的数据存储中的数据的元数据。该表被写入一个充当数据目录中表的容器的数据库。表的属性包括分类,它是由推断表架构的分类器创建的标签。