使用指标监控 Ray 作业 - AWS 连接词

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用指标监控 Ray 作业

您可以使用 AWS Glue Studio 和 Amazon CloudWatch 监控 Ray 作业。CloudWatch 可从 AWS Glue 收集和处理 Ray 中的原始指标,以便于分析。这些指标在 AWS Glue Studio 控制台中可视化,因此您可以在作业运行时对其进行监控。

有关如何监控 AWS Glue 的一般概述,请参阅使用 Amazon CloudWatch 指标监控 AWS Glue。有关如何使用 AWS Glue 发布的 CloudWatch 指标的总体概述,请参阅使用 Amazon CloudWatch 监控

在 AWS Glue 控制台中监控 Ray 作业

在作业运行的详细信息页面上的运行详细信息部分下面,您可以查看预先构建的聚合图,这些图可以可视化您的可用作业指标。AWS Glue Studio 将作业指标发送到 CloudWatch,用于每次作业运行。借助这些功能,您可以建立集群和任务的配置文件,也可以访问有关每个节点的详细信息。

有关可用指标图的更多信息,请参阅 查看 Ray 作业运行的 Amazon CloudWatch 指标

CloudWatch 中 Ray 作业指标概述

在 CloudWatch 中启用详细监控后,我们会发布 Ray 指标。指标已发布到 Glue/Ray CloudWatch 命名空间。

  • 实例指标

    我们发布有关分配给作业的实例的 CPU、内存和磁盘利用率的指标。这些指标由 ExecutorIdExecutorTypehost 等功能标识。这些指标是标准 Linux CloudWatch 代理指标的子集。您可以在 CloudWatch 文档中找到有关指标名称和功能的信息。有关详细信息,请参阅 CloudWatch 代理收集的指标

  • Ray 集群指标

    我们会将运行脚本的 Ray 进程的指标转发到这个命名空间,然后为您提供最关键的指标。可用指标可能因 Ray 版本而异。有关您的作业运行的 Ray 版本的更多信息,请参阅AWS Glue 版本

    Ray 在实例级别收集指标。同时还提供任务和集群的指标。有关 Ray 基础指标策略的更多信息,请参阅 Ray 文档中的 Metrics

注意

我们不会将 Ray 指标发布到 Glue/Job Metrics/ 命名空间,该命名空间仅用于 AWS Glue ETL 任务。