Amazon CloudWatch による Amazon SageMaker のモニタリング - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon CloudWatch による Amazon SageMaker のモニタリング

Amazon CloudWatch を使用して Amazon SageMaker をモニタリングすることで、raw データを収集し、ほぼリアルタイムの読み取り可能なメトリクスに加工できます。これらの統計は 15 か月間保持されるため、履歴情報にアクセスしてウェブアプリケーションやサービスの動作をより的確に把握できます。ただし、Amazon CloudWatch コンソールでは、検索が過去 2 週間以内に更新されたメトリクスに制限されます。この制限により、最新のジョブが名前空間に表示されるようになります。検索を使用せずにメトリクスをグラフ化するには、ソースビューでその正確な名前を指定します。また、特定のしきい値を監視するアラームを設定し、これらのしきい値に達したときに通知を送信したりアクションを実行したりできます。詳細については、アマゾン CloudWatch ユーザーガイドを参照してください。

SageMaker エンドポイント呼び出しメトリクス

-AWS/SageMaker名前空間には、への呼び出しからの以下のリクエストメトリクスが含まれます。InvokeEndpoint

メトリクスは、1 分間隔で利用できます。

の CloudWatch メトリクスの保持期間については、「」を参照してください。GetMetricStatistics()Amazon CloudWatch API リファレンス

エンドポイント呼び出しメトリクス

メトリクス 説明
Invocation4XXErrors

4xx HTTP レスポンスコードを返したモデルの InvokeEndpoint リクエスト数。各 4xx レスポンスについて、1 が送信されます。それ以外の場合は 0 が送信されます。

単位: なし

有効な統計: Average、Sum

Invocation5XXErrors

5xx HTTP レスポンスコードを返したモデルの InvokeEndpoint リクエスト数。各 5xx レスポンスについて、1 が送信されます。それ以外の場合は 0 が送信されます。

単位: なし

有効な統計: Average、Sum

Invocations

の数InvokeEndpointモデルエンドポイントに送信されたリクエスト。

モデルエンドポイントに送信されたリクエストの合計数を得るには、Sum 統計を使用します。

単位: なし

有効な統計: 合計

InvocationsPerInstance

によって正規化された、モデルに送信された呼び出しの数。InstanceCount各プロダクションのバリアント。1/numberOfInstancesは各リクエストの値として送信され、numberOfInstancesは、リクエスト発生時のエンドポイントの背後の ProductionVariant のアクティブなインスタンスの数です。

単位: なし

有効な統計: 合計

ModelLatency

SageMaker から見たモデルの応答時間。この間隔には、リクエストを送信し、モデルのコンテナからレスポンスを取得するのにかかるローカル通信時間と、コンテナ内で推論を完了するのにかかる時間が含まれます。

単位: Microseconds

有効な統計: Average、Sum、Min、Max、Sample

OverheadLatency

SageMaker のオーバーヘッドによってクライアントリクエストへのレスポンスにかかる時間間隔。この間隔は、SageMaker がリクエストを受信してからクライアントにレスポンスを返すまでの時間からを引いたものです。ModelLatency。オーバーヘッドレイテンシは、リクエストとレスポンスのペイロードサイズ、リクエストの頻度、リクエストの認証/承認など、複数の要因によって異なります。

単位: Microseconds

有効な統計: Average、Sum、Min、Max、Sample

エンドポイント呼び出しメトリクスのディメンション

ディメンション 説明
EndpointName, VariantName

指定のエンドポイントおよびバリアントの ProductionVariant のエンドポイント呼び出しメトリクスをフィルタリングします。

SageMaker マルチモデルエンドポイントのメトリクス

-AWS/SageMaker名前空間には、への呼び出しからの以下のモデル読み込みメトリクスが含まれます。InvokeEndpoint

メトリクスは、1 分間隔で利用できます。

の CloudWatch メトリクスの保持期間については、「」を参照してください。GetMetricStatistics()Amazon CloudWatch API リファレンス

マルチモデルエンドポイントモデルのロードメトリクス

メトリクス 説明
ModelLoadingWaitTime

推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機する時間間隔。

単位: Microseconds

有効な統計: Average、Sum、Min、Max、Sample

ModelUnloadingTime

コンテナの UnloadModel API コールを介してモデルをアンロードするのにかかった時間間隔。

単位: Microseconds

有効な統計: Average、Sum、Min、Max、Sample

ModelDownloadingTime

Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。

単位: Microseconds

有効な統計: Average、Sum、Min、Max、Sample

ModelLoadingTime

コンテナの LoadModel API コールを介してモデルをロードするのにかかった時間間隔。

単位: Microseconds

有効な統計: Average、Sum、Min、Max、Sample

ModelCacheHit

モデルがすでにロードされているマルチモデルエンドポイントに送信された InvokeEndpoint リクエストの数。

Average 統計は、モデルがすでにロードされていたリクエストの比率を示します。

単位: なし

有効な統計: 平均、Sum、Sample Count

マルチモデルエンドポイントモデルのロードメトリクスのディメンション

ディメンション 説明
EndpointName, VariantName

指定のエンドポイントおよびバリアントの ProductionVariant のエンドポイント呼び出しメトリクスをフィルタリングします。

-/aws/sagemaker/Endpoints名前空間には、の呼び出しからの以下のインスタンスメトリクスが含まれます。InvokeEndpoint

メトリクスは、1 分間隔で利用できます。

の CloudWatch メトリクスの保持期間については、「」を参照してください。GetMetricStatistics()Amazon CloudWatch API リファレンス

マルチモデルエンドポイントモデルのインスタンスメトリクス

メトリクス 説明
LoadedModelCount

マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。

1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。

Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。

モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。

単位: なし

有効な統計: Average、Sum、Min、Max、Sample

マルチモデルエンドポイントモデルのロードメトリクスのディメンション

ディメンション 説明
EndpointName, VariantName

指定のエンドポイントおよびバリアントの ProductionVariant のエンドポイント呼び出しメトリクスをフィルタリングします。

SageMaker ジョブとエンドポイントメトリック

/aws/sagemaker/ProcessingJobs/aws/sagemaker/TrainingJobs/aws/sagemaker/TransformJobs および /aws/sagemaker/Endpoints 名前空間には、トレーニングジョブおよびエンドポイントインスタンスに関する以下のメトリクスが含まれています。

メトリクスは、1 分間隔で利用できます。

処理ジョブ、トレーニングジョブ、バッチ変換ジョブ、およびエンドポイントインスタンスメトリクス

メトリクス 説明
CPUUtilization

個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0 ~ 100 です。たとえば、CPU が 4 つの場合、CPUUtilization は 0%~400% になります。

処理ジョブの場合、値はインスタンス上の処理コンテナの CPU 使用率です。

トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの CPU 使用率です。

バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの CPU 使用率です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。

注記

マルチインスタンスの場合は、インスタンスごとに CPU 使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 CPU 使用率が表示されます。

単位: パーセント

MemoryUtilization

インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0% ~ 100% です。

処理ジョブの場合、値はインスタンス上の処理コンテナのメモリ使用率です。

トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナのメモリ使用率です。

バッチ変換ジョブの場合、値はインスタンス上の変換コンテナのメモリ使用率です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。

単位: パーセント

注記

マルチインスタンスの場合は、インスタンスごとにメモリ使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均メモリ使用率が表示されます。

GPUUtilization

インスタンス上のコンテナによって使用されている GPU の割合。値の範囲は 0 ~ 100 で、GPU の数を乗算します。たとえば、GPU が 4 つの場合、GPUUtilization は 0%~400% になります。

処理ジョブの場合、値はインスタンス上の処理コンテナの GPU 使用率です。

トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの GPU 使用率です。

バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの GPU 使用率です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU 使用率の合計です。

注記

マルチインスタンスの場合は、インスタンスごとに GPU 使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 GPU 使用率が表示されます。

単位: パーセント

GPUMemoryUtilization

インスタンス上のコンテナによって使用されている GPU メモリの割合。値の範囲は 0 ~ 100 で、GPU の数を乗算します。たとえば、GPU が 4 つの場合、GPUMemoryUtilization は 0%~400% になります。

処理ジョブの場合、値はインスタンス上の処理コンテナの GPU メモリ使用率です。

トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの GPU メモリ使用率です。

バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの GPU メモリ使用率です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU メモリ使用率の合計です。

注記

マルチインスタンスの場合は、インスタンスごとに GPU メモリ使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 GPU メモリ使用率が表示されます。

単位: パーセント

DiskUtilization

インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0% ~ 100% です。このメトリクスは、バッチ変換ジョブではサポートされていません。

処理ジョブの場合、値はインスタンス上の処理コンテナのディスク容量使用率です。

トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナのディスク容量使用率です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。

単位: パーセント

注記

マルチインスタンスの場合は、インスタンスごとにディスク使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均ディスク使用率が表示されます。

処理ジョブ、トレーニングジョブおよびバッチ変換ジョブインスタンスメトリクスのディメンション

ディメンション 説明
Host

処理ジョブの場合、このディメンションの値は [processing-job-name]/algo-[instance-number-in-cluster] の形式になります。このディメンションを使用して、指定された処理ジョブとインスタンスのインスタンスメトリクスをフィルタリングします。このディメンション形式は、/aws/sagemaker/ProcessingJobs 名前空間にのみ存在します。

トレーニングジョブの場合、このディメンションの値は [training-job-name]/algo-[instance-number-in-cluster] の形式になります。このディメンションを使用して、指定されたトレーニングジョブとインスタンスのインスタンスメトリクスをフィルタリングします。このディメンション形式は、/aws/sagemaker/TrainingJobs 名前空間にのみ存在します。

バッチ変換ジョブの場合、このディメンションの値は [transform-job-name]/[instance-id] の形式になります。このディメンションを使用して、指定されたバッチ変換ジョブとインスタンスのインスタンスメトリクスをフィルタリングします。このディメンション形式は、/aws/sagemaker/TransformJobs 名前空間にのみ存在します。

SageMaker Ground Truth

Ground Truth のメトリクス

メトリクス 説明
ActiveWorkers

非公開の作業チームの 1 人のアクティブな作業者が、タスクを提出、リリース、または辞退しました。アクティブな作業者の総数を取得するには、Sum 統計を使用します。Ground Truth は、各個人を提供しようとしますActiveWorkersイベントを 1 回 この配信が失敗した場合、このメトリックはアクティブな作業者の合計数を報告しない場合があります。

単位: なし

有効な統計: Sum、Sample Coun

DatasetObjectsAutoAnnotated

ラベリングジョブで自動注釈が付けられたデータセットオブジェクトの数。このメトリクスは、自動ラベリングが有効になっている場合にのみ出力されます。ラベリングジョブの進行状況を表示するには、Max メトリクスを使用します。

単位: なし

有効な統計: Max

DatasetObjectsHumanAnnotated

ラベリングジョブで人間によって注釈が付けられたデータセットオブジェクトの数。ラベリングジョブの進行状況を表示するには、Max メトリクスを使用します。

単位: なし

有効な統計: Max

DatasetObjectsLabelingFailed

ラベリングジョブでラベリングに失敗したデータセットオブジェクトの数。ラベリングジョブの進行状況を表示するには、Max メトリクスを使用します。

単位: なし

有効な統計: Max

JobsFailed

1 つのラベル付けジョブが失敗しました。失敗したラベリングジョブの総数を取得するには、Sum 統計を使用します。

単位: なし

有効な統計: Sum、Sample Coun

JobsSucceeded

1 つのラベル付けジョブが成功しました。成功したラベリングジョブの総数を取得するには、Sum 統計を使用します。

単位: なし

有効な統計: Sum、Sample Coun

JobsStopped

単一のラベル付けジョブが停止されました。停止したラベリングジョブの総数を取得するには、Sum 統計を使用します。

単位: なし

有効な統計: Sum、Sample Coun

TasksAccepted

1 つのタスクが作業者に受け入れられました。作業者が承認するタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、各個人を提供しようとしますTaskAcceptedイベントを 1 回 この配信が失敗した場合、このメトリックは承認されたタスクの総数を報告しないことがあります。

単位: なし

有効な統計: Sum、Sample Coun

TasksDeclined

作業者によって 1 つのタスクが拒否されました。作業者が辞退したタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、各個人を提供しようとしますTasksDeclinedイベントを 1 回 この配信が失敗した場合、この指標は拒否されたタスクの総数を報告しない可能性があります。

単位: なし

有効な統計: Sum、Sample Coun

TasksReturned

1 つのタスクが返されました。返されるタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、各個人を提供しようとしますTasksReturnedイベントを 1 回 この配信が失敗した場合、このメトリックは返されたタスクの総数を報告しないことがあります。

単位: なし

有効な統計: Sum、Sample Coun

TasksSubmitted

プライベートワーカーによって 1 つのタスクが送信/完了されました。作業者が送信したタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、各個人を提供しようとしますTasksSubmittedイベントを 1 回 この配信が失敗した場合、このメトリックは送信されたタスクの総数を報告しないことがあります。

単位: なし

有効な統計: Sum、Sample Coun

TimeSpent

プライベートワーカーによって完了したタスクにかかった時間。このメトリックには、作業者が一時停止または休憩した時間は含まれません。Ground Truth は、それぞれを提供しようとしますTimeSpentイベントを 1 回 この配信が失敗した場合、この指標では合計滞在時間が報告されないことがあります。

単位: Seconds

有効な統計: Sum、Sample Coun

TotalDatasetObjectsLabeled

ラベリングジョブで正常にラベリングされたデータセットオブジェクトの数。ラベリングジョブの進行状況を表示するには、Max メトリクスを使用します。

単位: なし

有効な統計: Max

データセットオブジェクトメトリクスのディメンション

ディメンション 説明
LabelingJobName

ラベリングジョブのデータセットオブジェクト数メトリクスをフィルタリングします。

SageMaker フィーチャストアのメトリック

フィーチャストアメトリック

メトリクス 説明
ConsumedReadRequestsUnits

指定された期間に消費された読み取りユニットの数。フィーチャストアのランタイム操作とそれに対応するフィーチャグループについて、消費された読み取り単位を取得できます。

単位: なし

有効な統計: すべて

ConsumedWriteRequestsUnits

指定された期間に消費されたライトユニット数。フィーチャストアのランタイム操作とそれに対応するフィーチャグループについて、消費された書き込み単位を取得できます。

単位: なし

有効な統計: すべて

フィーチャストアメトリックのディメンション

ディメンション 説明
FeatureGroupName, OperationName

指定した機能グループのfeature store 実行時操作メトリックをフィルタリングします。

SageMaker パイプラインのメトリクス

-AWS/Sagemaker/ModelBuildingPipeline名前空間には、パイプライン実行の次のメトリクスが含まれます。

パイプライン実行メトリクスの次の 2 つのカテゴリを使用できます。

  • すべてのパイプラインの実行メトリック— アカウントレベルのパイプライン実行メトリック (現在のアカウント内のすべてのパイプラインについて)

  • パイプライン別の実行メトリクス— パイプラインごとのパイプライン実行メトリック

メトリクスは、1 分間隔で利用できます。

パイプラインの実行メトリクス

メトリクス 説明
ExecutionStarted

開始されたパイプライン実行の数。

単位: Count (カウント)

有効な統計: Average、Sum

ExecutionFailed

失敗したパイプライン実行の数。

単位: Count (カウント)

有効な統計: Average、Sum

ExecutionSucceeded

成功したパイプライン実行の数。

単位: Count (カウント)

有効な統計: Average、Sum

ExecutionStopped

停止したパイプライン実行の数。

単位: Count (カウント)

有効な統計: Average、Sum

ExecutionDuration

パイプライン実行が実行された時間(ミリ秒単位)。

単位: Milliseconds

有効な統計: Average、Sum、Min、Max、Sample

パイプライン別の実行メトリクスのディメンション

ディメンション 説明
PipelineName

指定したパイプラインのパイプライン実行メトリックスをフィルタリングします。

パイプラインのステップメトリック

-AWS/Sagemaker/ModelBuildingPipeline名前空間には、パイプラインステップの次のメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

メトリクス 説明
StepStarted

開始されたステップの数。

単位: Count (カウント)

有効な統計: Average、Sum

StepFailed

失敗したステップの数。

単位: Count (カウント)

有効な統計: Average、Sum

StepSucceeded

成功したステップの数。

単位: Count (カウント)

有効な統計: Average、Sum

StepStopped

停止したステップの数。

単位: Count (カウント)

有効な統計: Average、Sum

StepDuration

ステップが実行された時間 (ミリ秒)。

単位: Milliseconds

有効な統計: Average、Sum、Min、Max、Sample

パイプラインのディメンションステップメトリック

ディメンション 説明
PipelineName, StepName

指定したパイプラインおよびステップのステップメトリックスをフィルタリングします。