在 AWS Glue 控制台上使用爬网程序
爬网程序访问您的数据存储,提取元数据并在 AWS Glue Data Catalog 中创建表定义。AWS Glue 控制台中的 Crawlers (爬网程序) 窗格列出了您创建的所有爬网程序。此列表显示上次运行的爬网程序的状态和指标。
使用控制台添加爬网程序
-
登录 AWS 管理控制台,然后通过以下网址打开 AWS Glue 控制台:https://console.aws.amazon.com/glue/
。在导航窗格中选择 Crawlers (爬网程序)。 -
选择 Add crawler (添加爬网程序),然后按照 Add crawler (添加爬网程序) 向导中的说明进行操作。
注意 要获取有关添加爬网程序的分步指导,请在导航窗格中的 Tutorials (教程) 下选择 Add crawler (添加爬网程序)。您也可以使用 Add crawler (添加爬网程序) 向导来创建和修改 IAM 角色,该角色附加了包括 Amazon Simple Storage Service(Amazon S3)数据存储的权限的策略。
(可选)您可以使用 Tag key (标签键) 和可选的 Tag value (标签值) 来标记爬网程序。创建之后,标签键处于只读状态。对某些资源使用标签可帮助您整理和标识资源。有关更多信息,请参阅AWS Glue 中的 AWS 标签。
(可选)您可以向爬网程序添加安全配置来指定静态加密选项。
当爬网程序运行时,提供的 IAM 角色必须具有访问已爬网数据存储的权限。
当您对 JDBC 数据存储进行爬网时,连接是必需的。有关更多信息,请参阅添加 AWS Glue 连接。排除路径与包含路径是相对的。例如,要排除 JDBC 数据存储中的一个表,请在排除路径中键入该表的名称。
当您网络爬取 DynamoDB 表时,可以在您的账户内从 DynamoDB 表的列表中选择一个表名。
有关配置爬网程序的更多信息,请参阅爬网程序属性。
查看爬网程序结果和详细信息
查看爬网程序结果和详细信息
爬网程序成功运行后,它会在数据目录中创建表定义。在导航窗格中选择 Tables (表) 来查看爬网程序在您指定的数据库中创建的表。
您可以按如下方式查看与爬网程序本身相关的信息:
-
AWS Glue 控制台上的 Crawlers (爬网程序) 页面显示爬网程序的以下属性:
属性 描述 名称 当您创建爬网程序时,您必须为其指定一个唯一名称。
状态 爬网程序状态可以为:准备就绪、正在启动、正在停止、已安排或计划已暂停。正在运行的爬网程序从正在启动前进到正在停止。您可以恢复或暂停附加到爬网程序的计划。
计划 您可以选择按需运行爬网程序或选择具有计划的频率。有关安排爬网程序的更多信息,请参阅计划爬网程序。
上次运行 爬网程序上次运行的日期和时间。
日志 来自上次运行的爬网程序的任何可用日志的链接。
上次运行后的表格变更 AWS Glue Data Catalog中由最近一次运行的爬网程序更新的表的数量。
-
要查看爬网程序的历史记录,请在导航窗格中选择 Crawlers(爬网程序)以查看您创建的爬网程序。从可用爬网程序列表中选择一个爬网程序。您可以在 Crawler runs(爬网程序运行)选项卡中查看爬网程序属性和爬网程序历史记录。
“Crawler runs”(爬网程序运行)显示每次爬网程序运行时的相关信息,包括 Start time (UTC) [开始时间(UTC)]、End time (UTC) [结束时间(UTC)]、Duration(持续时间)、Status(状态)、DPU hours(DPU 小时)和 Table changes(表格变更)。
-
要查看其他信息,请在爬网程序详细信息页面中选择一个选项卡。每个选项卡都将显示与爬网程序相关的信息。
-
Schedule(计划):为爬网程序创建的所有计划都将在此处显示。
-
Data sources(数据来源):爬网程序扫描的所有数据来源都将在此处显示。
-
Classifiers(分类器):分配给爬网程序的所有分类器都将在此处显示。
-
Tags(标记):创建并分配给 AWS 资源的所有标记都将在此处显示。
-