控制台上的 AWS Glue 作业运行状态 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

控制台上的 AWS Glue 作业运行状态

您可以查看提AWS Glue取、转换和加载 (ETL) 作业在运行时或停止后的状态。您可以使用 AWS Glue 控制台查看状态。有关作业运行状态的更多信息,请参阅 AWS Glue 作业运行状态

访问任务监控控制面板

在AWS Glue导航窗格的 “作业” 下选择 “作业运行监控” 链接,即可访问ETL作业监控面板。

任务监控控制面板概览

任务监控控制面板提供任务运行的总体摘要,以及状态 Running (正在运行)Canceled (已取消)Success (成功) 或者 Failed (失败)。其他图块提供了总体作业运行成功率、作业的估计DPU使用量、按作业类型、工作人员类型和按天划分的作业状态计数明细。

磁贴中的图形是交互式。您可以选择图形中的任意数据块来运行筛选条件,仅显示页面底部 Job runs (任务运行) 表中的任务。

您可以使用 Date range (日期范围) 选择器更改此页面上显示的信息的日期范围。更改日期范围时,信息磁贴会进行调整,显示代表当前日期之前指定天数的值。如果您从日期范围选择器中选择 Custom (自定义),您还可以使用特定日期范围。

任务运行视图

注意

您可以在 90 天内访问工作流和任务运行的任务运行历史记录。

Job runs (任务运行) 资源列表显示符合指定日期范围和筛选条件的任务。

您可以根据其他条件(如状态、工件类型、任务类型和任务名称)筛选任务。在表格顶部的筛选条件框中,您可以输入要用作筛选条件的文本。当您输入文本时,将使用包含匹配文本的行更新表结果。

您可以从任务监控控制面板上的图形中选择元素,查看任务的子集。例如,如果您选择 Job runs summary (任务运行摘要) 磁贴中正在运行的任务的数量,则 Job runs (任务运行) 列表仅显示当前状态为 Running 的任务。如果您选择 Worker type breakdown (工件类型细分) 条形图,则 Job runs (任务运行) 列表中仅显示具有匹配工件类型和状态的任务运行。

Job runs (任务运行) 资源列表显示任务运行的详细信息。可以通过选择列标题对表中的行进行排序。此表包含以下信息:

属性 描述
作业名称 作业的名称。
类型

任务环境的类型:

  • Glu eETL:在由AWS Glue管理的 Apache Spark 环境中运行。

  • Glue Stream ing:在 Apache Spark 环境中运行并在数据流ETL上执行。

  • Python Shell:以 Shell 运行 Python 脚本。

开始时间

此任务运行的启动日期和时间。

结束时间

此任务运行的完成日期和时间。

运行状态

任务运行的当前状态。值可以是:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

运行时间 任务运行使用资源的时间长度(以秒为单位)。
容量

为该作业运行分配AWS Glue的数据处理单元 (DPUs) 的数量。有关容量规划的更多信息,请参阅《AWS Glue开发人员指南》中的DPU容量规划监控

工作线程类型

任务运行时分配的预定义工件的类型。值可以是 G.1XG.2XG.4X 或者 G.8X

  • G.1X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作器映射到 1DPU(4vCPUs, 16 GB 内存)和 84GB 磁盘(大约 34GB 可用空间)。我们建议内存密集型作业使用该工作线程类型。这是针对 AWS Glue 2.0 版或更高版本任务的默认工件类型

  • G.2X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作器映射到 2DPU(8 vCPUs、32 GB 内存)和 128GB 磁盘(大约 77GB 可用空间)。我们建议将此工件类型用于内存密集型任务和运行机器学习转换的任务。

  • G.4X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作器映射到 4 个DPU(16vCPUs, 64 GB 内存)和 256GB 磁盘(大约 235GB 的可用空间)。对于工作负载包含要求最高的转换、聚合、联接和查询的作业,我们建议使用这种工作线程类型。此工作人员类型仅适用于以下 AWS 区域的 3.0 或更高AWS Glue版本的 Spark ETL 职位:美国东部(俄亥俄州)、美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、加拿大(中部)、欧洲(法兰克福)、欧洲(爱尔兰)和欧洲(斯德哥尔摩)。

  • G.8X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作器映射到 8 个DPU(32vCPUs, 128 GB 内存)和 512GB 磁盘(大约 487GB 的可用空间)。对于工作负载包含要求最高的转换、聚合、联接和查询的作业,我们建议使用这种工作线程类型。此工作器类型仅适用于AWS Glue版本 3.0 或更高版本的 Spark ETL 作业,其 AWS 区域与该G.4X工作人员类型支持的区域相同。

DPU小时

DPUs用于任务运行的估计数量。A DPU 是处理能力的相对衡量标准。DPUs用于确定运行任务的成本。有关更多信息,请参阅 AWS Glue 价格页面

您可以在列表中选择任何任务运行并查看其他信息。选择任务运行,然后执行以下任一操作:

  • 选择 Actions (操作) 菜单和 View job (查看任务) 选项,在可视化编辑器中查看任务。

  • 选择 Actions (操作) 菜单和 Stop run (停止运行) 选项,停止任务的当前运行。

  • 选择 “查看 CloudWatch 日志” 按钮以查看该作业的作业运行日志。

  • 选择查看详细信息可查看“作业运行详细信息”页面。

查看任务运行日志

您可通过多种方式查看任务日志:

  • 在 “监控” 页面的 “作业运行” 表中,选择作业运行,然后选择 “查看 CloudWatch 日志”。

  • 在可视化任务编辑器中,在任务的 Runs (运行) 选项卡上,选择超链接以查看日志:

    • Logs (日志) – 链接到为任务运行启用连续日志记录时写入的 Apache Spark 任务日志。当您选择此链接时,它会将您带到 Amazon CloudWatch /aws-glue/jobs/logs-v2日志组中的日志。默认情况下,这些日志不包括无用的 Apache Hadoop YARN 心跳和 Apache Spark 驱动程序或执行器日志消息。有关连续日志记录的更多信息,请参阅的《AWS Glue 开发人员指南》中的连续日志记录 AWS Glue 任务

    • Error logs (错误日志) – 链接到写入此任务运行的 stderr 的日志。当您选择此链接时,它会将您转到 /aws-glue/jobs/error 日志组中的 Amazon CloudWatch 日志。您可以使用这些日志查看有关任务运行期间遇到的错误的详细信息。

    • Output logs (输出日志) – 链接到写入此任务运行的 stdout 的日志。当您选择此链接时,它会将您转到 /aws-glue/jobs/output 日志组中的 Amazon CloudWatch 日志。您可以使用这些日志,查看有关在 AWS Glue Data Catalog 中创建的表和遇到的错误的详细信息。

查看任务运行的详细信息

您可以在 Monitoring (监控) 页面上的 Job runs (任务运行) 列表中选择任务,然后选择 View run details (查看运行详细信息),查看该任务运行的详细信息。

任务运行详细信息页面上显示的信息包括:

属性 描述
作业名称 作业的名称。
运行状态

任务运行的当前状态。值可以是:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Glue 版本 作业运行使用的 AWS Glue 版本。
最近的尝试 此作业运行的自动重试次数。
开始时间

此任务运行的启动日期和时间。

结束时间

此任务运行的完成日期和时间。

开始时间

准备运行作业运行所花费的时间。

执行时间

运行作业脚本花费的时间。

触发器名称

与作业关联的触发器的名称。

上次修改日期

上次修改作业的日期。

安全配置

任务的安全配置,包括 Amazon S3 加密、 CloudWatch 加密和任务书签加密设置。

超时 作业运行超时阈值。
已分配容量

为该作业运行分配AWS Glue的数据处理单元 (DPUs) 的数量。有关容量规划的更多信息,请参阅《AWS Glue开发人员指南》中的DPU容量规划监控

最大容量

任务运行可用的最大容量。

工作线程数 作业运行所用的工作线程数。
工作线程类型

为任务运行分配的预定义工件的类型。值可以是 G.1X 或者 G.2X

  • G.1X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作程序映射到 1DPU(4 vCPUs、16 GB 内存、64 GB 磁盘),并为每个工作程序提供 1 个执行器。我们建议内存密集型作业使用该工作线程类型。这是针对 AWS Glue 2.0 版或更高版本任务的默认工件类型

  • G.2X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作程序映射到 2DPUs(8 vCPUs、32 GB 内存、128 GB 磁盘),并为每个工作程序提供 1 个执行器。我们建议将此工件类型用于内存密集型任务和运行机器学习转换的任务。

日志 指向连续日志记录(/aws-glue/jobs/logs-v2)的作业日志链接
输出日志 指向作业输出日志文件(/aws-glue/jobs/output)的链接。
错误日志 指向作业错误日志文件(/aws-glue/jobs/error)的链接。

您还可以查看以下附加项目,这些项目在您查看最近任务运行的信息时可用。有关更多信息,请参阅 查看最近任务运行的信息

查看 Spark 作业运行的 Amazon CloudWatch 指标

在作业运行的详细信息页面的运行详细信息部分下方,您可以查看作业指标。 AWS Glue Studio将每次作业运行 Amazon CloudWatch 的作业指标发送到。

AWS Glue Amazon CloudWatch 每 30 秒报告一次指标。 AWS Glue 指标表示先前报告的值的增量值。在适当时,指标控制面板会聚合(合计)30 秒值以获取整个最后一分钟的值。但是, AWS Glue 传递到 Amazon CloudWatch 的 Apache Spark 指标通常是绝对值,代表报告时的当前状态。

注意

您必须配置您的账户才能访问 Amazon CloudWatch。

指标提供有关任务运行的信息,例如:

  • ETL数据移动-从 Amazon S3 读取或写入的字节数。

  • 内存配置文件:已用堆 — Java 虚拟机 (JVM) 堆使用的内存字节数。

  • 内存配置文件:堆使用情况-堆使用的内存比例(比例:0—1),以百分比显示。JVM

  • CPU负载-使用的CPU系统负载比例(比例:0—1),以百分比显示。

查看 Ray 作业运行的 Amazon CloudWatch 指标

在作业运行的详细信息页面的运行详细信息部分下方,您可以查看作业指标。 AWS Glue Studio将每次作业运行 Amazon CloudWatch 的作业指标发送到。

AWS Glue Amazon CloudWatch 每 30 秒报告一次指标。 AWS Glue 指标表示先前报告的值的增量值。在适当时,指标控制面板会聚合(合计)30 秒值以获取整个最后一分钟的值。但是, AWS Glue 传递到 Amazon CloudWatch 的 Apache Spark 指标通常是绝对值,代表报告时的当前状态。

注意

您必须配置您的账户才能访问 Amazon CloudWatch,如中所述。

在 Ray 作业中,您可以查看以下聚合指标图表。借助这些功能,您可以建立集群和任务的配置文件,也可以访问有关每个节点的详细信息。支持这些图表的时间序列数据 CloudWatch 可供进一步分析。

任务配置文件:任务状态

显示系统中 Ray 任务的数量。每个任务生命周期都有自己的时间序列。

任务配置文件:任务名称

显示系统中 Ray 任务的数量。仅显示待处理任务和活动任务。每种类型的任务(按名称)都有自己的时间序列。

集群配置文件:CPUs正在使用中

显示使用的内CPU核数量。每个节点都有自己的时间序列。节点由 IP 地址标识,IP 地址是临时的,仅用于识别。

集群配置文件:对象存储内存使用情况

显示 Ray 对象缓存的内存使用情况。每个内存位置(物理内存、缓存在磁盘上以及溢出在 Amazon S3 中)都有自己的时间序列。对象存储管理集群中所有节点的数据存储。有关更多信息,请参阅 Ray 文档中的 Objects

集群配置文件:节点数

显示为集群配置的节点数量。

节点详情:CPU使用

以百分比形式显示每个节点的CPU利用率。每个系列都显示节点上所有内核的CPU使用率汇总百分比。

节点详细信息:内存使用情况

显示每个节点的内存使用情况(以 GB 为单位)。每个系列都显示节点上所有进程之间聚合的内存,包括 Ray 任务和 Plasma 存储进程。这不会反映存储到磁盘或溢出到 Amazon S3 的对象。

节点详细信息:磁盘使用情况

显示每个节点的磁盘使用情况(以 GB 为单位)。

节点详细信息:磁盘 I/O 速度

以 KB/s 为单位显示每个节点上的磁盘 I/O。

节点详细信息:网络 I/O 吞吐量

以 KB/s 为单位显示每个节点上的网络 I/O。

节点详情:由 Ray 组件CPU使用

显示以核心部分为单位的CPU使用情况。每个节点上的每个 ray 组件都有自己的时间序列。

节点详细信息:Ray 组件的内存使用情况

以 GiB 为单位显示内存使用情况。每个节点上的每个 ray 组件都有自己的时间序列。