翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker AI はエンドポイントのメトリクスを提供するため、キャッシュヒット率、ロードされたモデルの数、マルチモデルエンドポイントでのロード、ダウンロード、アップロードのモデルの待機時間をモニタリングできます。CPU と GPU ベースのマルチモデルエンドポイントではメトリクスの一部が異なるため、以下のセクションでは、マルチモデルエンドポイントの種類ごとに使用できる Amazon CloudWatch メトリクスについて説明します。
メトリクスの詳細については、「Amazon CloudWatch で Amazon SageMaker AI をモニタリングするためのメトリクス」の「Multi-Model Endpoint Model Loading Metrics」と「Multi-Model Endpoint Model Instance Metrics」を参照してください。モデル単位のメトリクスはサポートされていません。
CPU ベースのマルチモデルエンドポイントの CloudWatch メトリクス
CPU ベースのマルチモデルエンドポイントでは、以下のメトリクスをモニタリングできます。
AWS/SageMaker
名前空間には、InvokeEndpoint の呼び出しからの次のモデル読み込みメトリクスが含まれます。
メトリクスは、1 分間隔で利用できます。
CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「GetMetricStatistics」を参照してください。https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html
マルチモデルエンドポイントモデルのロードメトリクス
メトリクス | 説明 |
---|---|
ModelLoadingWaitTime |
推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機する時間間隔。 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count |
ModelUnloadingTime |
コンテナの 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count |
ModelDownloadingTime |
Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count |
ModelLoadingTime |
コンテナの 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count |
ModelCacheHit |
モデルが既にロードされているマルチモデルエンドポイントに送信された Average 統計は、モデルが既にロードされていたリクエストの比率を示します。 単位: なし 有効な統計: Average、Sum、Sample Count |
マルチモデルエンドポイントモデルのロードメトリクスのディメンション
ディメンション | 説明 |
---|---|
EndpointName, VariantName |
指定のエンドポイントおよびバリアントの |
/aws/sagemaker/Endpoints
名前空間には、InvokeEndpoint の呼び出しからの次のインスタンスメトリクスが含まれます。
メトリクスは、1 分間隔で利用できます。
CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「GetMetricStatistics」を参照してください。https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html
マルチモデルエンドポイントモデルのインスタンスメトリクス
メトリクス | 説明 |
---|---|
LoadedModelCount |
マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。 1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。 Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。 モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。 単位: なし 有効な統計: Average、Sum、Min、Max、Sample Count |
CPUUtilization |
個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0~100 です。例えば、CPU が 4 つの場合、 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。 単位: パーセント |
MemoryUtilization |
インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%~100% です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。 単位: パーセント |
DiskUtilization |
インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%~100% です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。 単位: パーセント |
GPU マルチモデルエンドポイントのデプロイの CloudWatch メトリクス
GPU ベースのマルチモデルエンドポイントでは、以下のメトリクスを監視できます。
AWS/SageMaker
名前空間には、InvokeEndpoint の呼び出しからの次のモデル読み込みメトリクスが含まれます。
メトリクスは、1 分間隔で利用できます。
CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「GetMetricStatistics」を参照してください。https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html
マルチモデルエンドポイントモデルのロードメトリクス
メトリクス | 説明 |
---|---|
ModelLoadingWaitTime |
推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機する時間間隔。 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count |
ModelUnloadingTime |
コンテナの 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count |
ModelDownloadingTime |
Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count |
ModelLoadingTime |
コンテナの 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count |
ModelCacheHit |
モデルが既にロードされているマルチモデルエンドポイントに送信された Average 統計は、モデルが既にロードされていたリクエストの比率を示します。 単位: なし 有効な統計: Average、Sum、Sample Count |
マルチモデルエンドポイントモデルのロードメトリクスのディメンション
ディメンション | 説明 |
---|---|
EndpointName, VariantName |
指定のエンドポイントおよびバリアントの |
/aws/sagemaker/Endpoints
名前空間には、InvokeEndpoint の呼び出しからの次のインスタンスメトリクスが含まれます。
メトリクスは、1 分間隔で利用できます。
CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「GetMetricStatistics」を参照してください。https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html
マルチモデルエンドポイントモデルのインスタンスメトリクス
メトリクス | 説明 |
---|---|
LoadedModelCount |
マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。 1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。 Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。 モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。 単位: なし 有効な統計: Average、Sum、Min、Max、Sample Count |
CPUUtilization |
個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0~100 です。例えば、CPU が 4 つの場合、 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。 単位: パーセント |
MemoryUtilization |
インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%~100% です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。 単位: パーセント |
GPUUtilization |
インスタンス上のコンテナによって使用されている GPU の割合。値の範囲は 0~100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU 使用率の合計です。 単位: パーセント |
GPUMemoryUtilization |
インスタンス上のコンテナによって使用されている GPU メモリの割合。値の範囲は 0~100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU メモリ使用率の合計です。 単位: パーセント |
DiskUtilization |
インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%~100% です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。 単位: パーセント |