マルチモデルエンドポイントのデプロイの CloudWatch メトリクス

フォーカスモード

マルチモデルエンドポイントのデプロイの CloudWatch メトリクス - Amazon SageMaker AI

CPU ベースのマルチモデルエンドポイントの CloudWatch メトリクス GPU マルチモデルエンドポイントのデプロイの CloudWatch メトリクス

Amazon SageMaker AI はエンドポイントのメトリクスを提供するため、キャッシュヒット率、ロードされたモデルの数、マルチモデルエンドポイントでのロード、ダウンロード、アップロードのモデルの待機時間をモニタリングできます。CPU と GPU ベースのマルチモデルエンドポイントではメトリクスの一部が異なるため、以下のセクションでは、マルチモデルエンドポイントの種類ごとに使用できる Amazon CloudWatch メトリクスについて説明します。

メトリクスの詳細については、「Amazon CloudWatch で Amazon SageMaker AI をモニタリングするためのメトリクス」の「Multi-Model Endpoint Model Loading Metrics」と「Multi-Model Endpoint Model Instance Metrics」を参照してください。モデル単位のメトリクスはサポートされていません。

CPU ベースのマルチモデルエンドポイントの CloudWatch メトリクス

CPU ベースのマルチモデルエンドポイントでは、以下のメトリクスをモニタリングできます。

AWS/SageMaker 名前空間には、InvokeEndpoint の呼び出しからの次のモデル読み込みメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「GetMetricStatistics」を参照してください。https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html

マルチモデルエンドポイントモデルのロードメトリクス

メトリクス	説明
`ModelLoadingWaitTime`	推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機する時間間隔。単位: マイクロ秒有効な統計: Average、Sum、Min、Max、Sample Count
`ModelUnloadingTime`	コンテナの `UnloadModel` API コールを介してモデルをアンロードするのにかかった時間間隔。単位: マイクロ秒有効な統計: Average、Sum、Min、Max、Sample Count
`ModelDownloadingTime`	Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。単位: マイクロ秒有効な統計: Average、Sum、Min、Max、Sample Count
`ModelLoadingTime`	コンテナの `LoadModel` API コールを介してモデルをロードするのにかかった時間間隔。単位: マイクロ秒有効な統計: Average、Sum、Min、Max、Sample Count
`ModelCacheHit`	モデルが既にロードされているマルチモデルエンドポイントに送信された `InvokeEndpoint` リクエストの数。 Average 統計は、モデルが既にロードされていたリクエストの比率を示します。単位: なし有効な統計: Average、Sum、Sample Count

マルチモデルエンドポイントモデルのロードメトリクスのディメンション

ディメンション	説明
`EndpointName, VariantName`	指定のエンドポイントおよびバリアントの `ProductionVariant` のエンドポイント呼び出しメトリクスをフィルタリングします。

/aws/sagemaker/Endpoints 名前空間には、InvokeEndpoint の呼び出しからの次のインスタンスメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

マルチモデルエンドポイントモデルのインスタンスメトリクス

メトリクス	説明
`LoadedModelCount`	マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。 1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。 Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。単位: なし有効な統計: Average、Sum、Min、Max、Sample Count
`CPUUtilization`	個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0～100 です。例えば、CPU が 4 つの場合、`CPUUtilization` の範囲は 0%～400% になります。エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。単位: パーセント
`MemoryUtilization`	インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%～100% です。エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。単位: パーセント
`DiskUtilization`	インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%～100% です。エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。単位: パーセント

GPU マルチモデルエンドポイントのデプロイの CloudWatch メトリクス

GPU ベースのマルチモデルエンドポイントでは、以下のメトリクスを監視できます。

AWS/SageMaker 名前空間には、InvokeEndpoint の呼び出しからの次のモデル読み込みメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

マルチモデルエンドポイントモデルのロードメトリクス

メトリクス	説明
`ModelLoadingWaitTime`	推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機する時間間隔。単位: マイクロ秒有効な統計: Average、Sum、Min、Max、Sample Count
`ModelUnloadingTime`	コンテナの `UnloadModel` API コールを介してモデルをアンロードするのにかかった時間間隔。単位: マイクロ秒有効な統計: Average、Sum、Min、Max、Sample Count
`ModelDownloadingTime`	Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。単位: マイクロ秒有効な統計: Average、Sum、Min、Max、Sample Count
`ModelLoadingTime`	コンテナの `LoadModel` API コールを介してモデルをロードするのにかかった時間間隔。単位: マイクロ秒有効な統計: Average、Sum、Min、Max、Sample Count
`ModelCacheHit`	モデルが既にロードされているマルチモデルエンドポイントに送信された `InvokeEndpoint` リクエストの数。 Average 統計は、モデルが既にロードされていたリクエストの比率を示します。単位: なし有効な統計: Average、Sum、Sample Count

マルチモデルエンドポイントモデルのロードメトリクスのディメンション

ディメンション	説明
`EndpointName, VariantName`	指定のエンドポイントおよびバリアントの `ProductionVariant` のエンドポイント呼び出しメトリクスをフィルタリングします。

/aws/sagemaker/Endpoints 名前空間には、InvokeEndpoint の呼び出しからの次のインスタンスメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

マルチモデルエンドポイントモデルのインスタンスメトリクス

メトリクス	説明
`LoadedModelCount`	マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。 1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。 Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。単位: なし有効な統計: Average、Sum、Min、Max、Sample Count
`CPUUtilization`	個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0～100 です。例えば、CPU が 4 つの場合、`CPUUtilization` の範囲は 0%～400% になります。エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。単位: パーセント
`MemoryUtilization`	インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%～100% です。エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。単位: パーセント
`GPUUtilization`	インスタンス上のコンテナによって使用されている GPU の割合。値の範囲は 0～100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、`GPUUtilization` の範囲は 0%～400% になります。エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU 使用率の合計です。単位: パーセント
`GPUMemoryUtilization`	インスタンス上のコンテナによって使用されている GPU メモリの割合。値の範囲は 0～100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、`GPUMemoryUtilization` の範囲は 0%～400% になります。エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU メモリ使用率の合計です。単位: パーセント
`DiskUtilization`	インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%～100% です。エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。単位: パーセント

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

セキュリティ

SageMaker AI マルチモデルエンドポイントモデルのキャッシュ動作を設定する

次のトピック

SageMaker AI マルチモデルエンドポイントモデルのキャッシュ動作を設定する

前のトピック:

セキュリティ

ヘルプが必要ですか?

このページの内容

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません

マルチモデルエンドポイントのデプロイの CloudWatch メトリクス

CPU ベースのマルチモデルエンドポイントの CloudWatch メトリクス

GPU マルチモデルエンドポイントのデプロイの CloudWatch メトリクス

次のトピック

前のトピック:

ヘルプが必要ですか?

このページの内容

Related resources

このページは役に立ちましたか?

Related resources