使用爬网程序填充 Data Catalog - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用爬网程序填充 Data Catalog

您可以使用 AWS Glue 爬网程序,将数据库和表填充到 AWS Glue Data Catalog。这是大多数 AWS Glue 用户使用的主要方法。爬网程序可以在单次运行中爬取多个数据存储。完成后,爬网程序会在数据目录中创建或更新一个或多个表。您在 AWS Glue 中定义的提取、转换和加载(ETL)任务使用这些数据目录表作为源和目标。ETL 任务从在源和目标数据目录表中指定的数据存储中读取内容并向其中写入内容。

工作流

以下流程图显示了 AWS Glue 爬网程序如何与数据存储和其他元素交互来填充数据目录。

工作流程显示 AWS Glue 爬网程序用 5 个基本步骤填充数据目录。

以下是爬网程序如何填充 AWS Glue Data Catalog 的一般工作流程:

  1. 爬网程序运行您为推断数据的格式和架构而选择的任何自定义分类器。您为自定义分类器提供代码,它们按您指定的顺序运行。

    第一个成功识别您的数据结构的自定义分类器用于创建架构。将会跳过列表中较低的自定义分类器。

  2. 如果没有自定义分类器与您的数据的架构匹配,则内置分类符会尝试识别数据的架构。内置分类器的示例是一个可识别 JSON 的分类器。

  3. 爬网程序连接到数据存储。某些数据存储需要使用连接属性才能访问爬网程序。

  4. 将会为您的数据创建推断的架构。

  5. 爬网程序向数据目录写入元数据。表定义包含有关您的数据存储中的数据的元数据。该表被写入一个充当数据目录中表的容器的数据库。表的属性包括分类,它是由推断表架构的分类器创建的标签。