CloudWatch 多模型端点部署指标 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

CloudWatch 多模型端点部署指标

Amazon SageMaker 提供终端节点指标,因此您可以监控缓存命中率、加载的模型数量以及模型在多模型终端节点上加载、下载和上传的等待时间。CPU 和 GPU 支持的多模型终端节点的某些指标有所不同,因此以下各节描述了您可以用于每种类型的多模型终端节点的 Amazon CloudWatch 指标。

有关指标的更多信息,请参阅 SageMaker 使用亚马逊监控亚马逊 CloudWatch 中的多模型端点模型加载指标多模型端点模型实例指标。不支持基于模型的指标。

CloudWatch CPU 支持的多模型端点的指标

您可以在 CPU 支持的多模型端点上监控以下指标。

AWS/SageMaker命名空间包括以下模型从对的调用加载指标 InvokeEndpoint

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标保留多长时间的信息,请参阅 Amazon CloudWatch API 参考GetMetricStatistics中的。

多模型端点模型加载指标

指标 描述
ModelLoadingWaitTime

调用请求等待下载和/或加载目标模型以执行推理的间隔时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelUnloadingTime

通过容器的 UnloadModel API 调用卸载模型所用的间隔时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelDownloadingTime

从 Amazon Simple Storage Service (Amazon S3) 下载模型所花费的时间间隔。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelLoadingTime

通过容器的 LoadModel API 调用加载模型所用的间隔时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelCacheHit

发送到已加载模型的多模型端点的 InvokeEndpoint 请求数。

“Average”统计数据显示已加载模型的请求的比率。

单位:无

有效统计数据:Average、Sum、Sample Count

多模型端点模型加载指标的维度

维度 描述
EndpointName, VariantName

针对指定端点和变体的 ProductionVariant 筛选端点调用指标。

/aws/sagemaker/Endpoints命名空间包括调用的以下实例指标。 InvokeEndpoint

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标保留多长时间的信息,请参阅 Amazon CloudWatch API 参考GetMetricStatistics中的。

多模型端点模型实例指标

指标 描述
LoadedModelCount

多模型端点的容器中加载的模型数。此指标是按实例发射的。

周期为 1 分钟的“Average”统计数据指示每个实例加载的平均模型数。

“Sum”统计数据指示在端点中的所有实例上加载的模型总数。

此指标跟踪的模型不一定是唯一的,因为可能在端点的多个容器中加载模型。

单位:无

有效统计数据:Average、Sum、Min、Max、Sample Count

CPUUtilization

每个 CPU 核心利用率的总和。每个核心的 CPU 利用率范围均为 0 – 100。例如,如果有四个 CPU,CPUUtilization 范围是 0% – 400%。

对于端点变体,该值是实例上的主容器和辅助容器的 CPU 利用率的总和。

单位:百分比

MemoryUtilization

实例上的容器所使用的内存的百分比。此值范围为 0% – 100%。

对于端点变体,该值是实例上的主容器和辅助容器的内存利用率的总和。

单位:百分比

DiskUtilization

实例上容器所使用的磁盘空间的百分比。此值范围为 0%–100%。

对于端点变体,该值是实例上的主容器和辅助容器的磁盘空间利用率的总和。

单位:百分比

CloudWatch GPU 多模型端点部署的指标

您可以在 GPU 支持的多模型端点上监控以下指标。

AWS/SageMaker命名空间包括以下模型从对的调用加载指标 InvokeEndpoint

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标保留多长时间的信息,请参阅 Amazon CloudWatch API 参考GetMetricStatistics中的。

多模型端点模型加载指标

指标 描述
ModelLoadingWaitTime

调用请求等待下载和/或加载目标模型以执行推理的间隔时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelUnloadingTime

通过容器的 UnloadModel API 调用卸载模型所用的间隔时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelDownloadingTime

从 Amazon Simple Storage Service (Amazon S3) 下载模型所花费的时间间隔。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelLoadingTime

通过容器的 LoadModel API 调用加载模型所用的间隔时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelCacheHit

发送到已加载模型的多模型端点的 InvokeEndpoint 请求数。

“Average”统计数据显示已加载模型的请求的比率。

单位:无

有效统计数据:Average、Sum、Sample Count

多模型端点模型加载指标的维度

维度 描述
EndpointName, VariantName

针对指定端点和变体的 ProductionVariant 筛选端点调用指标。

/aws/sagemaker/Endpoints命名空间包括调用的以下实例指标。 InvokeEndpoint

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标保留多长时间的信息,请参阅 Amazon CloudWatch API 参考GetMetricStatistics中的。

多模型端点模型实例指标

指标 描述
LoadedModelCount

多模型端点的容器中加载的模型数。此指标是按实例发射的。

周期为 1 分钟的“Average”统计数据指示每个实例加载的平均模型数。

“Sum”统计数据指示在端点中的所有实例上加载的模型总数。

此指标跟踪的模型不一定是唯一的,因为可能在端点的多个容器中加载模型。

单位:无

有效统计数据:Average、Sum、Min、Max、Sample Count

CPUUtilization

每个单独的 CPU 核心利用率的总和。每个核心的 CPU 利用率范围均为 0 – 100。例如,如果有四个 CPU,CPUUtilization 范围是 0% – 400%。

对于端点变体,该值是实例上的主容器和辅助容器的 CPU 利用率的总和。

单位:百分比

MemoryUtilization

实例上的容器所使用的内存的百分比。此值范围为 0% – 100%。

对于端点变体,该值是实例上的主容器和辅助容器的内存利用率的总和。

单位:百分比

GPUUtilization

实例上的容器所使用的 GPU 单位的百分比。该值范围在 0 – 100 之间,并且乘以 GPU 数目。例如,如果有四个 GPU,GPUUtilization 的范围在 0% – 400% 之间。

对于端点变体,该值是实例上的主容器和辅助容器的 GPU 利用率的总和。

单位:百分比

GPUMemoryUtilization

实例上的容器所使用的 GPU 内存的百分比。该值范围在 0 – 100 之间,并且乘以 GPU 数目。例如,如果有四个 GPU,GPUMemoryUtilization 的范围在 0% – 400% 之间。

对于端点变体,该值是实例上的主容器和辅助容器的 GPU 内存利用率的总和。

单位:百分比

DiskUtilization

实例上容器所使用的磁盘空间的百分比。此值范围为 0%–100%。

对于端点变体,该值是实例上的主容器和辅助容器的磁盘空间利用率的总和。

单位:百分比