CloudWatch マルチモデルエンドポイントデプロイのメトリクス - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

CloudWatch マルチモデルエンドポイントデプロイのメトリクス

Amazon SageMaker には、キャッシュヒット率、ロードされたモデルの数、マルチモデルエンドポイントでのモデルのロード、ダウンロード、アップロードの待機時間をモニタリングできるエンドポイントのメトリクスが用意されています。CPU と GPU ベースのマルチモデルエンドポイントではメトリクスの一部が異なるため、以下のセクションでは、マルチモデルエンドポイントのタイプごとに使用できる Amazon CloudWatch メトリクスについて説明します。

メトリクスの詳細については、「Amazon SageMaker で Amazon をモニタリングする CloudWatch」の「Multi-Model Endpoint Model Loading Metrics」と「Multi-Model Endpoint Model Instance Metrics」を参照してください。モデル単位のメトリクスはサポートされていません。

CloudWatch CPU ベースのマルチモデルエンドポイントの メトリクス

CPU ベースのマルチモデルエンドポイントでは、以下のメトリクスをモニタリングできます。

AWS/SageMaker 名前空間には、 への呼び出しからの次のモデルロードメトリクスが含まれます InvokeEndpoint

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間については、Amazon CloudWatch API リファレンスのGetMetricStatistics「」を参照してください。

マルチモデルエンドポイントモデルのロードメトリクス

メトリクス 説明
ModelLoadingWaitTime

推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機する時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelUnloadingTime

コンテナの UnloadModel API コールを介してモデルをアンロードするのにかかった時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelDownloadingTime

Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelLoadingTime

コンテナの LoadModel API コールを介してモデルをロードするのにかかった時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelCacheHit

モデルが既にロードされているマルチモデルエンドポイントに送信された InvokeEndpoint リクエストの数。

Average 統計は、モデルが既にロードされていたリクエストの比率を示します。

単位: なし

有効な統計: Average、Sum、Sample Count

マルチモデルエンドポイントモデルのロードメトリクスのディメンション

ディメンション 説明
EndpointName, VariantName

指定のエンドポイントおよびバリアントの ProductionVariant のエンドポイント呼び出しメトリクスをフィルタリングします。

/aws/sagemaker/Endpoints 名前空間には、 InvokeEndpoint の呼び出しからの以下のインスタンスメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスのGetMetricStatistics「」を参照してください。

マルチモデルエンドポイントモデルのインスタンスメトリクス

メトリクス 説明
LoadedModelCount

マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。

1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。

Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。

モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。

単位: なし

有効な統計: Average、Sum、Min、Max、Sample Count

CPUUtilization

個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0~100 です。例えば、CPU が 4 つの場合、CPUUtilization の範囲は 0%~400% になります。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。

単位: パーセント

MemoryUtilization

インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%~100% です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。

単位: パーセント

DiskUtilization

インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%~100% です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。

単位: パーセント

CloudWatch GPU マルチモデルエンドポイントデプロイの メトリクス

GPU ベースのマルチモデルエンドポイントでは、以下のメトリクスを監視できます。

AWS/SageMaker 名前空間には、 への呼び出しからの次のモデルロードメトリクスが含まれます InvokeEndpoint

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間については、Amazon CloudWatch API リファレンスのGetMetricStatistics「」を参照してください。

マルチモデルエンドポイントモデルのロードメトリクス

メトリクス 説明
ModelLoadingWaitTime

推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機する時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelUnloadingTime

コンテナの UnloadModel API コールを介してモデルをアンロードするのにかかった時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelDownloadingTime

Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelLoadingTime

コンテナの LoadModel API コールを介してモデルをロードするのにかかった時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelCacheHit

モデルが既にロードされているマルチモデルエンドポイントに送信された InvokeEndpoint リクエストの数。

Average 統計は、モデルが既にロードされていたリクエストの比率を示します。

単位: なし

有効な統計: Average、Sum、Sample Count

マルチモデルエンドポイントモデルのロードメトリクスのディメンション

ディメンション 説明
EndpointName, VariantName

指定のエンドポイントおよびバリアントの ProductionVariant のエンドポイント呼び出しメトリクスをフィルタリングします。

/aws/sagemaker/Endpoints 名前空間には、 InvokeEndpoint の呼び出しからの以下のインスタンスメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスのGetMetricStatistics「」を参照してください。

マルチモデルエンドポイントモデルのインスタンスメトリクス

メトリクス 説明
LoadedModelCount

マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。

1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。

Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。

モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。

単位: なし

有効な統計: Average、Sum、Min、Max、Sample Count

CPUUtilization

個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0~100 です。例えば、CPU が 4 つの場合、CPUUtilization の範囲は 0%~400% になります。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。

単位: パーセント

MemoryUtilization

インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%~100% です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。

単位: パーセント

GPUUtilization

インスタンス上のコンテナによって使用されている GPU の割合。値の範囲は 0~100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、GPUUtilization の範囲は 0%~400% になります。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU 使用率の合計です。

単位: パーセント

GPUMemoryUtilization

インスタンス上のコンテナによって使用されている GPU メモリの割合。値の範囲は 0~100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、GPUMemoryUtilization の範囲は 0%~400% になります。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU メモリ使用率の合計です。

単位: パーセント

DiskUtilization

インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%~100% です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。

単位: パーセント