本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
控制台上的 AWS Glue 作业运行状态
您可以查看提AWS Glue取、转换和加载 (ETL) 作业在运行时或停止后的状态。您可以使用 AWS Glue 控制台查看状态。有关作业运行状态的更多信息,请参阅 AWS Glue 作业运行状态。
访问任务监控控制面板
在AWS Glue导航窗格的 “作业” 下选择 “作业运行监控” 链接,即可访问ETL作业监控面板。
任务监控控制面板概览
任务监控控制面板提供任务运行的总体摘要,以及状态 Running (正在运行)、Canceled (已取消)、Success (成功) 或者 Failed (失败)。其他图块提供了总体作业运行成功率、作业的估计DPU使用量、按作业类型、工作人员类型和按天划分的作业状态计数明细。
磁贴中的图形是交互式。您可以选择图形中的任意数据块来运行筛选条件,仅显示页面底部 Job runs (任务运行) 表中的任务。
您可以使用 Date range (日期范围) 选择器更改此页面上显示的信息的日期范围。更改日期范围时,信息磁贴会进行调整,显示代表当前日期之前指定天数的值。如果您从日期范围选择器中选择 Custom (自定义),您还可以使用特定日期范围。
任务运行视图
注意
您可以在 90 天内访问工作流和任务运行的任务运行历史记录。
Job runs (任务运行) 资源列表显示符合指定日期范围和筛选条件的任务。
您可以根据其他条件(如状态、工件类型、任务类型和任务名称)筛选任务。在表格顶部的筛选条件框中,您可以输入要用作筛选条件的文本。当您输入文本时,将使用包含匹配文本的行更新表结果。
您可以从任务监控控制面板上的图形中选择元素,查看任务的子集。例如,如果您选择 Job runs summary (任务运行摘要) 磁贴中正在运行的任务的数量,则 Job runs (任务运行) 列表仅显示当前状态为 Running
的任务。如果您选择 Worker type breakdown (工件类型细分) 条形图,则 Job runs (任务运行) 列表中仅显示具有匹配工件类型和状态的任务运行。
Job runs (任务运行) 资源列表显示任务运行的详细信息。可以通过选择列标题对表中的行进行排序。此表包含以下信息:
属性 | 描述 |
---|---|
作业名称 | 作业的名称。 |
类型 |
任务环境的类型:
|
开始时间 |
此任务运行的启动日期和时间。 |
结束时间 |
此任务运行的完成日期和时间。 |
运行状态 |
任务运行的当前状态。值可以是:
|
运行时间 | 任务运行使用资源的时间长度(以秒为单位)。 |
容量 |
为该作业运行分配AWS Glue的数据处理单元 (DPUs) 的数量。有关容量规划的更多信息,请参阅《AWS Glue开发人员指南》中的DPU容量规划监控。 |
工作线程类型 |
任务运行时分配的预定义工件的类型。值可以是
|
DPU小时 |
DPUs用于任务运行的估计数量。A DPU 是处理能力的相对衡量标准。DPUs用于确定运行任务的成本。有关更多信息,请参阅 AWS Glue 价格页面 |
您可以在列表中选择任何任务运行并查看其他信息。选择任务运行,然后执行以下任一操作:
-
选择 Actions (操作) 菜单和 View job (查看任务) 选项,在可视化编辑器中查看任务。
-
选择 Actions (操作) 菜单和 Stop run (停止运行) 选项,停止任务的当前运行。
-
选择 “查看 CloudWatch 日志” 按钮以查看该作业的作业运行日志。
-
选择查看详细信息可查看“作业运行详细信息”页面。
查看任务运行日志
您可通过多种方式查看任务日志:
-
在 “监控” 页面的 “作业运行” 表中,选择作业运行,然后选择 “查看 CloudWatch 日志”。
-
在可视化任务编辑器中,在任务的 Runs (运行) 选项卡上,选择超链接以查看日志:
-
Logs (日志) – 链接到为任务运行启用连续日志记录时写入的 Apache Spark 任务日志。当您选择此链接时,它会将您带到 Amazon CloudWatch
/aws-glue/jobs/logs-v2
日志组中的日志。默认情况下,这些日志不包括无用的 Apache Hadoop YARN 心跳和 Apache Spark 驱动程序或执行器日志消息。有关连续日志记录的更多信息,请参阅的《AWS Glue 开发人员指南》中的连续日志记录 AWS Glue 任务。 -
Error logs (错误日志) – 链接到写入此任务运行的
stderr
的日志。当您选择此链接时,它会将您转到/aws-glue/jobs/error
日志组中的 Amazon CloudWatch 日志。您可以使用这些日志查看有关任务运行期间遇到的错误的详细信息。 -
Output logs (输出日志) – 链接到写入此任务运行的
stdout
的日志。当您选择此链接时,它会将您转到/aws-glue/jobs/output
日志组中的 Amazon CloudWatch 日志。您可以使用这些日志,查看有关在 AWS Glue Data Catalog 中创建的表和遇到的错误的详细信息。
-
查看任务运行的详细信息
您可以在 Monitoring (监控) 页面上的 Job runs (任务运行) 列表中选择任务,然后选择 View run details (查看运行详细信息),查看该任务运行的详细信息。
任务运行详细信息页面上显示的信息包括:
属性 | 描述 |
---|---|
作业名称 | 作业的名称。 |
运行状态 |
任务运行的当前状态。值可以是:
|
Glue 版本 | 作业运行使用的 AWS Glue 版本。 |
最近的尝试 | 此作业运行的自动重试次数。 |
开始时间 |
此任务运行的启动日期和时间。 |
结束时间 |
此任务运行的完成日期和时间。 |
开始时间 |
准备运行作业运行所花费的时间。 |
执行时间 |
运行作业脚本花费的时间。 |
触发器名称 |
与作业关联的触发器的名称。 |
上次修改日期 |
上次修改作业的日期。 |
安全配置 |
任务的安全配置,包括 Amazon S3 加密、 CloudWatch 加密和任务书签加密设置。 |
超时 | 作业运行超时阈值。 |
已分配容量 |
为该作业运行分配AWS Glue的数据处理单元 (DPUs) 的数量。有关容量规划的更多信息,请参阅《AWS Glue开发人员指南》中的DPU容量规划监控。 |
最大容量 |
任务运行可用的最大容量。 |
工作线程数 | 作业运行所用的工作线程数。 |
工作线程类型 |
为任务运行分配的预定义工件的类型。值可以是
|
日志 | 指向连续日志记录(/aws-glue/jobs/logs-v2 )的作业日志链接 |
输出日志 | 指向作业输出日志文件(/aws-glue/jobs/output )的链接。 |
错误日志 | 指向作业错误日志文件(/aws-glue/jobs/error )的链接。 |
您还可以查看以下附加项目,这些项目在您查看最近任务运行的信息时可用。有关更多信息,请参阅 查看最近任务运行的信息。
输入参数
连续日志
指标 – 您可以直观地查看基本指标。有关所包含指标的更多信息,请参阅 查看 Spark 作业运行的 Amazon CloudWatch 指标。
Spark UI – 您可以在 Spark UI 中直观地查看任务的 Spark 日志。有关使用 Spark Web UI 的更多信息,请参阅 使用 Apache Spark Web UI 监控作业。按照 为 AWS Glue 作业启用 Apache Spark Web UI 中描述的过程启用此功能。
查看 Spark 作业运行的 Amazon CloudWatch 指标
在作业运行的详细信息页面的运行详细信息部分下方,您可以查看作业指标。 AWS Glue Studio将每次作业运行 Amazon CloudWatch 的作业指标发送到。
AWS Glue Amazon CloudWatch 每 30 秒报告一次指标。 AWS Glue 指标表示先前报告的值的增量值。在适当时,指标控制面板会聚合(合计)30 秒值以获取整个最后一分钟的值。但是, AWS Glue 传递到 Amazon CloudWatch 的 Apache Spark 指标通常是绝对值,代表报告时的当前状态。
注意
您必须配置您的账户才能访问 Amazon CloudWatch。
指标提供有关任务运行的信息,例如:
-
ETL数据移动-从 Amazon S3 读取或写入的字节数。
-
内存配置文件:已用堆 — Java 虚拟机 (JVM) 堆使用的内存字节数。
-
内存配置文件:堆使用情况-堆使用的内存比例(比例:0—1),以百分比显示。JVM
-
CPU负载-使用的CPU系统负载比例(比例:0—1),以百分比显示。
查看 Ray 作业运行的 Amazon CloudWatch 指标
在作业运行的详细信息页面的运行详细信息部分下方,您可以查看作业指标。 AWS Glue Studio将每次作业运行 Amazon CloudWatch 的作业指标发送到。
AWS Glue Amazon CloudWatch 每 30 秒报告一次指标。 AWS Glue 指标表示先前报告的值的增量值。在适当时,指标控制面板会聚合(合计)30 秒值以获取整个最后一分钟的值。但是, AWS Glue 传递到 Amazon CloudWatch 的 Apache Spark 指标通常是绝对值,代表报告时的当前状态。
注意
您必须配置您的账户才能访问 Amazon CloudWatch,如中所述。
在 Ray 作业中,您可以查看以下聚合指标图表。借助这些功能,您可以建立集群和任务的配置文件,也可以访问有关每个节点的详细信息。支持这些图表的时间序列数据 CloudWatch 可供进一步分析。
- 任务配置文件:任务状态
-
显示系统中 Ray 任务的数量。每个任务生命周期都有自己的时间序列。
- 任务配置文件:任务名称
-
显示系统中 Ray 任务的数量。仅显示待处理任务和活动任务。每种类型的任务(按名称)都有自己的时间序列。
- 集群配置文件:CPUs正在使用中
-
显示使用的内CPU核数量。每个节点都有自己的时间序列。节点由 IP 地址标识,IP 地址是临时的,仅用于识别。
- 集群配置文件:对象存储内存使用情况
-
显示 Ray 对象缓存的内存使用情况。每个内存位置(物理内存、缓存在磁盘上以及溢出在 Amazon S3 中)都有自己的时间序列。对象存储管理集群中所有节点的数据存储。有关更多信息,请参阅 Ray 文档中的 Objects
。 - 集群配置文件:节点数
-
显示为集群配置的节点数量。
- 节点详情:CPU使用
-
以百分比形式显示每个节点的CPU利用率。每个系列都显示节点上所有内核的CPU使用率汇总百分比。
- 节点详细信息:内存使用情况
-
显示每个节点的内存使用情况(以 GB 为单位)。每个系列都显示节点上所有进程之间聚合的内存,包括 Ray 任务和 Plasma 存储进程。这不会反映存储到磁盘或溢出到 Amazon S3 的对象。
- 节点详细信息:磁盘使用情况
-
显示每个节点的磁盘使用情况(以 GB 为单位)。
- 节点详细信息:磁盘 I/O 速度
-
以 KB/s 为单位显示每个节点上的磁盘 I/O。
- 节点详细信息:网络 I/O 吞吐量
-
以 KB/s 为单位显示每个节点上的网络 I/O。
- 节点详情:由 Ray 组件CPU使用
-
显示以核心部分为单位的CPU使用情况。每个节点上的每个 ray 组件都有自己的时间序列。
- 节点详细信息:Ray 组件的内存使用情况
-
以 GiB 为单位显示内存使用情况。每个节点上的每个 ray 组件都有自己的时间序列。