在 AWS Glue 控制台上使用爬网程序 - AWS Glue

在 AWS Glue 控制台上使用爬网程序

爬网程序访问您的数据存储,提取元数据并在 AWS Glue Data Catalog 中创建表定义。AWS Glue 控制台中的 Crawlers (爬网程序) 窗格列出了您创建的所有爬网程序。此列表显示上次运行的爬网程序的状态和指标。

使用控制台添加爬网程序

  1. 登录 AWS 管理控制台,然后通过以下网址打开 AWS Glue 控制台:https://console.aws.amazon.com/glue/。在导航窗格中选择 Crawlers (爬网程序)

  2. 选择 Add crawler (添加爬网程序),然后按照 Add crawler (添加爬网程序) 向导中的说明进行操作。

    注意

    要获取有关添加爬网程序的分步指导,请在导航窗格中的 Tutorials (教程) 下选择 Add crawler (添加爬网程序)。您也可以使用 Add crawler (添加爬网程序) 向导来创建和修改 IAM 角色,该角色附加了包括 Amazon Simple Storage Service(Amazon S3)数据存储的权限的策略。

    (可选)您可以使用 Tag key (标签键) 和可选的 Tag value (标签值) 来标记爬网程序。创建之后,标签键处于只读状态。对某些资源使用标签可帮助您整理和标识资源。有关更多信息,请参阅 AWS 中的标签AWS Glue

    (可选)您可以向爬网程序添加安全配置来指定静态加密选项。

当爬网程序运行时,提供的 IAM 角色必须具有访问已爬网数据存储的权限。

当您对 JDBC 数据存储进行爬网时,连接是必需的。有关更多信息,请参阅 添加 AWS Glue 连接。排除路径与包含路径是相对的。例如,要排除 JDBC 数据存储中的一个表,请在排除路径中键入该表的名称。

当您网络爬取 DynamoDB 表时,可以在您的账户内从 DynamoDB 表的列表中选择一个表名。

提示

有关配置爬网程序的更多信息,请参阅爬网程序属性

查看爬网程序结果和详细信息

爬网程序成功运行后,它会在数据目录中创建表定义。在导航窗格中选择 Tables (表) 来查看爬网程序在您指定的数据库中创建的表。

您可以按如下方式查看与爬网程序本身相关的信息:

  • AWS Glue 控制台上的 Crawlers (爬网程序) 页面显示爬网程序的以下属性:

    属性 描述
    名称:。

    当您创建爬网程序时,您必须为其指定一个唯一名称。

    计划

    您可以选择按需运行爬网程序或选择具有计划的频率。有关安排爬网程序的更多信息,请参阅计划爬网程序

    状态

    爬网程序状态可以为:准备就绪、正在启动、正在停止、已安排或计划已暂停。正在运行的爬网程序从正在启动前进到正在停止。您可以恢复或暂停附加到爬网程序的计划。

    日志

    来自上次运行的爬网程序的任何可用日志的链接。

    上次运行时

    爬网程序上次运行所用的时间量。

    平均运行时

    爬网程序自创建后运行所用的平均时间量。

    已更新的表

    AWS Glue Data Catalog中由最近一次运行的爬网程序更新的表的数量。

    已添加的表

    由最近一次运行的爬网程序添加到 AWS Glue Data Catalog 中的表的数量。

  • 要查看爬网程序的操作和日志消息,请在导航窗格中选择 Crawlers (爬网程序) 以查看您创建的爬网程序。在列表中找到爬网程序名称,然后选择 Logs (日志) 链接。此链接会将您带到 CloudWatch Logs,您可以在其中查看有关在 AWS Glue Data Catalog 中创建了哪些表和遇到的任何错误的详细信息。

    您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关如何更改保留期的更多信息,请参阅更改 CloudWatch Logs 中的日志数据留存

    有关查看日志信息的更多信息,请参阅本指南中的 自动监控工具 和《Amazon Athena 用户指南》中的查询 AWS CloudTrail 日志。此外,请参阅博客 Easily query AWS service logs using Athena,了解有关如何将 Athena Glue 服务日志(AGSlogger)Python 库与 AWS Glue ETL 任务结合使用以允许处理日志数据的通用框架的信息。

  • 要查看爬网程序的详细信息,请在列表中选择爬网程序名称。爬网程序详细信息包括您在使用 Add crawler (添加爬网程序) 向导创建爬网程序时所定义的信息。