翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon CloudWatch で Amazon SageMaker イベントをモニタリングする
Amazon CloudWatch を使用して Amazon SageMaker をモニタリングすることで、raw データを収集し、リアルタイムに近い読み取り可能なメトリクスに加工できます。これらの統計は 15 か月間保持されるため、履歴情報にアクセスしてウェブアプリケーションやサービスの動作をより的確に把握できます。ただし、 Amazon CloudWatch コンソールでは、検索が過去 2 週間以内に更新されたメトリクスに制限されます。この制限により、最新のジョブが名前空間に表示されるようになります。検索を使用せずにメトリクスをグラフ化するには、ソースビューでその正確な名前を指定します。また、特定のしきい値を監視するアラームを設定し、これらのしきい値に達したときに通知を送信したりアクションを実行したりできます。詳細については、「Amazon CloudWatch ユーザーガイド」を参照してください。
SageMaker メトリクスとディメンション
SageMaker エンドポイント呼び出しメトリクス
AWS/SageMaker
名前空間には、InvokeEndpoint への呼び出しからの次のリクエストメトリクスが含まれます。
メトリクスは、1 分間隔で利用できます。
CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「GetMetricStatistics」を参照してください。https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html
エンドポイント呼び出しメトリクス
メトリクス | 説明 |
---|---|
Invocation4XXErrors |
4xx HTTP レスポンスコードを返したモデルの 単位:なし 有効な統計: Average、Sum |
Invocation5XXErrors |
5xx HTTP レスポンスコードを返したモデルの 単位:なし 有効な統計: Average、Sum |
Invocations |
モデルエンドポイントに送信された モデルエンドポイントに送信されたリクエストの合計数を得るには、Sum 統計を使用します。 単位:なし 有効な統計: 合計 |
InvocationsPerInstance |
各 ProductionVariant で 単位:なし 有効な統計: 合計 |
ModelLatency |
SageMaker から見た、モデルが応答するのにかかる時間間隔。この間隔には、リクエストを送信し、モデルのコンテナからレスポンスを取得するのにかかるローカル通信時間と、コンテナ内で推論を完了するのにかかる時間が含まれます。 単位:マイクロ秒 有効な統計: Average、Sum、Max、Sample Count |
OverheadLatency |
クライアントリクエストへの応答にかかる時間に、SageMaker のオーバーヘッドによって追加される時間間隔。この間隔は、SageMaker がリクエストを受信してからクライアントにレスポンスを返すまでの時間から 単位:マイクロ秒 有効な統計: Average、Sum、Max、Sample Count |
ModelSetupTime |
サーバーレスエンドポイントの新しいコンピューティングリソースを起動するのにかかる時間。時間は、モデルのサイズ、モデルのダウンロードにかかる時間、コンテナの起動時間によって異なります。 単位:マイクロ秒 有効な統計: Average、Min、Max、Sample Count、Perentiles |
エンドポイント呼び出しメトリクスのディメンション
ディメンション | 説明 |
---|---|
EndpointName, VariantName |
指定のエンドポイントおよびバリアントの |
SageMaker マルチモデルエンドポイントメトリクス
AWS/SageMaker
名前空間には、InvokeEndpoint の呼び出しからの次のモデル読み込みメトリクスが含まれます。
メトリクスは、1 分間隔で利用できます。
CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「GetMetricStatistics」を参照してください。https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html
マルチモデルエンドポイントモデルのロードメトリクス
メトリクス | 説明 |
---|---|
ModelLoadingWaitTime |
推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機する時間間隔。 単位:マイクロ秒 有効な統計: Average、Sum、Max、Sample Count |
ModelUnloadingTime |
コンテナの 単位:マイクロ秒 有効な統計: Average、Sum、Max、Sample Count |
ModelDownloadingTime |
Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。 単位:マイクロ秒 有効な統計: Average、Sum、Max、Sample Count |
ModelLoadingTime |
コンテナの 単位:マイクロ秒 有効な統計: Average、Sum、Max、Sample Count |
ModelCacheHit |
モデルが既にロードされているマルチモデルエンドポイントに送信された Average 統計は、モデルが既にロードされていたリクエストの比率を示します。 単位:なし 有効な統計: Average、Sum、Sample Coun |
マルチモデルエンドポイントモデルのロードメトリクスのディメンション
ディメンション | 説明 |
---|---|
EndpointName, VariantName |
指定のエンドポイントおよびバリアントの |
/aws/sagemaker/Endpoints
名前空間には、InvokeEndpoint の呼び出しからの次のインスタンスメトリクスが含まれます。
メトリクスは、1 分間隔で利用できます。
CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「GetMetricStatistics」を参照してください。https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html
マルチモデルエンドポイントモデルのインスタンスメトリクス
メトリクス | 説明 |
---|---|
LoadedModelCount |
マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。 1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。 Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。 モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。 単位:なし 有効な統計: Average、Sum、Max、Sample Count |
マルチモデルエンドポイントモデルのロードメトリクスのディメンション
ディメンション | 説明 |
---|---|
EndpointName, VariantName |
指定のエンドポイントおよびバリアントの |
SageMaker ジョブとエンドポイントメトリクス
/aws/sagemaker/ProcessingJobs
、/aws/sagemaker/TrainingJobs
、/aws/sagemaker/TransformJobs
、/aws/sagemaker/Endpoints
名前空間には、トレーニングジョブおよびエンドポイントインスタンスに関する次のメトリクスが含まれています。
メトリクスは、1 分間隔で利用できます。
Amazon CloudWatch は高解像度カスタムメトリクスをサポートし、その最高分解能は 1 秒です。ただし、分解能が細かいほど、CloudWatch メトリクスの寿命は短くなります。1 秒の頻度の分解能の場合は、CloudWatch メトリックスを使用できるのは 3 時間です。CloudWatch メトリクスの分解能と寿命の詳細については、「Amazon CloudWatch API リファレンス」の「GetMetricStatistics」を参照してください。
100 ミリ秒 (0.1 秒) の粒度まで細かい分解能でトレーニングジョブをプロファイリングし、トレーニングメトリクスをカスタム分析のためにいつでも無期限に Amazon S3 に保存する必要がある場合は、Amazon SageMaker デバッガーの使用を検討してください。SageMaker デバッガーには、一般的なトレーニングの問題を自動的に検出するルールが組み込まれており、ハードウェアリソース使用率の問題 (CPU、GPU、I/O のボトルネックなど) および非収束モデルの問題 (オーバーフィット、勾配消失、テンソルの爆発など) を検出します。SageMaker デバッガーは、Studio とそのプロファイリングレポートを通じて可視化機能も提供します。デバッガーの可視化機能を確認するには、「SageMaker デバッガーインサイトダッシュボードのチュートリアル」、「デバッガープロファイリングレポートのチュートリアル」、「SmDebug クライアントライブラリを使用してデータを分析する」を参照してください。
処理ジョブ、トレーニングジョブ、バッチ変換ジョブ、およびエンドポイントインスタンスメトリクス
メトリクス | 説明 |
---|---|
CPUUtilization |
個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0~100 です。例えば、CPU が 4 つの場合、CPUUtilization の範囲は 0%~400% になります。処理ジョブの場合、値はインスタンス上の処理コンテナの CPU 使用率です。トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの CPU 使用率です。 バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの CPU 使用率です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。 マルチインスタンスジョブの場合、インスタンスごとに CPU 使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 CPU 使用率が表示されます。 単位:割合 (%) |
MemoryUtilization |
インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%~100% です。 処理ジョブの場合、値はインスタンス上の処理コンテナのメモリ使用率です。トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナのメモリ使用率です。 バッチ変換ジョブの場合、値はインスタンス上の変換コンテナのメモリ使用率です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。 単位:割合 (%) マルチインスタンスジョブの場合、インスタンスごとにメモリ使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均メモリ使用率が表示されます。 |
GPUUtilization |
インスタンス上のコンテナによって使用されている GPU の割合。値の範囲は 0~100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、 トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの GPU 使用率です。 バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの GPU 使用率です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU 使用率の合計です。 マルチインスタンスジョブの場合、インスタンスごとに GPU 使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 GPU 使用率が表示されます。 単位:割合 (%) |
GPUMemoryUtilization |
インスタンス上のコンテナによって使用されている GPU メモリの割合。値の範囲は 0~100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、 トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの GPU メモリ使用率です。 バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの GPU メモリ使用率です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU メモリ使用率の合計です。 マルチインスタンスジョブの場合、インスタンスごとに GPU メモリ使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 GPU メモリ使用率が表示されます。 単位:割合 (%) |
DiskUtilization |
インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%~100% です。このメトリクスは、バッチ変換ジョブではサポートされていません。 処理ジョブの場合、値はインスタンス上の処理コンテナのディスク容量使用率です。トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナのディスク容量使用率です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。 単位:割合 (%) マルチインスタンスジョブの場合、インスタンスごとにディスク使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均ディスク使用率が表示されます。 |
処理ジョブ、トレーニングジョブおよびバッチ変換ジョブインスタンスメトリクスのディメンション
ディメンション | 説明 |
---|---|
Host |
処理ジョブの場合、このディメンションの値は トレーニングジョブの場合、このディメンションの値は バッチ変換ジョブの場合、このディメンションの値は |
SageMaker Ground Truth メトリクス
Ground Truth メトリクス
メトリクス | 説明 |
---|---|
ActiveWorkers |
プライベート作業チームの 1 人のアクティブなワーカーが、タスクを送信、リリース、または拒否しました。アクティブなワーカーの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の 単位:なし 有効な統計: Sum、Sample Coun |
DatasetObjectsAutoAnnotated |
ラベル付けジョブで自動注釈が付けられたデータセットオブジェクトの数。このメトリクスは、自動ラベル付けが有効になっている場合にのみ出力されます。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。 単位:なし 有効な統計: Max |
DatasetObjectsHumanAnnotated |
ラベル付けジョブで人間によって注釈が付けられたデータセットオブジェクトの数。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。 単位:なし 有効な統計: Max |
DatasetObjectsLabelingFailed |
ラベル付けジョブでラベリングに失敗したデータセットオブジェクトの数。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。 単位:なし 有効な統計: Max |
JobsFailed |
1 つのラベル付けジョブが失敗しました。失敗したラベル付けジョブの総数を取得するには、Sum 統計を使用します。 単位:なし 有効な統計: Sum、Sample Coun |
JobsSucceeded |
1 つのラベル付けジョブが成功しました。成功したラベル付けジョブの総数を取得するには、Sum 統計を使用します。 単位:なし 有効な統計: Sum、Sample Coun |
JobsStopped |
1 つのラベル付けジョブが停止されました。停止したラベル付けジョブの総数を取得するには、Sum 統計を使用します。 単位:なし 有効な統計: Sum、Sample Coun |
TasksAccepted |
1 つのタスクがワーカーによって受け入れられました。ワーカーによって受け入れられたタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の 単位:なし 有効な統計: Sum、Sample Coun |
TasksDeclined |
1 つのタスクがワーカーによって拒否されました。ワーカーによって拒否されたタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の 単位:なし 有効な統計: Sum、Sample Coun |
TasksReturned |
1 つのタスクが返されました。返されたタスクの合計数を取得するには、Sum 統計を使用します。Ground Truth は、個々の 単位:なし 有効な統計: Sum、Sample Coun |
TasksSubmitted |
1 つのタスクがプライベートワーカーによって送信/完了されました。ワーカーによって送信されたタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の 単位:なし 有効な統計: Sum、Sample Coun |
TimeSpent |
プライベートワーカーによって完了したタスクにかかった時間。このメトリクスには、ワーカーが一時停止または休憩した時間は含まれません。Ground Truth は、各 単位:Seconds 有効な統計: Sum、Sample Coun |
TotalDatasetObjectsLabeled |
ラベル付けジョブで正常にラベリングされたデータセットオブジェクトの数。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。 単位:なし 有効な統計: Max |
データセットオブジェクトメトリクスのディメンション
ディメンション | 説明 |
---|---|
LabelingJobName |
ラベル付けジョブのデータセットオブジェクト数メトリクスをフィルタリングします。 |
SageMaker Feature Store メトリクス
Feature Store メトリクス
メトリクス | 説明 |
---|---|
ConsumedReadRequestsUnits |
指定した期間に消費された読み取り単位の数。Feature Store のランタイム操作とそれに対応する特徴グループの消費された読み取り単位を取得できます。 単位:なし 有効な統計: すべて |
ConsumedWriteRequestsUnits |
指定した期間に消費された書き込み単位の数。Feature Store のランタイム操作とそれに対応する特徴グループの消費された書き込み単位を取得できます。 単位:なし 有効な統計: すべて |
Feature Store メトリクスのディメンション
ディメンション | 説明 |
---|---|
FeatureGroupName, OperationName |
指定した特徴グループの Feature Store ランタイム操作メトリクスをフィルタリングします。 |
SageMaker パイプラインメトリクス
AWS/Sagemaker/ModelBuildingPipeline
名前空間には、次のパイプライン実行のメトリクスが含まれます。
パイプライン実行メトリクスには、次の 2 つのカテゴリがあります。
-
すべてのパイプラインの実行メトリクス - アカウントレベルのパイプライン実行メトリクス (現在のアカウントのすべてのパイプライン)
-
パイプライン別の実行メトリクス - パイプラインごとのパイプライン実行メトリクス
メトリクスは、1 分間隔で利用できます。
パイプライン実行メトリクス
メトリクス | 説明 |
---|---|
ExecutionStarted |
開始されたパイプライン実行の数。 単位:カウント 有効な統計: Average、Sum |
ExecutionFailed |
失敗したパイプライン実行の数。 単位:カウント 有効な統計: Average、Sum |
ExecutionSucceeded |
成功したパイプライン実行の数。 単位:カウント 有効な統計: Average、Sum |
ExecutionStopped |
停止したパイプライン実行の数。 単位:カウント 有効な統計: Average、Sum |
ExecutionDuration |
パイプライン実行が実行された時間 (ミリ秒) 。 単位:ミリ秒 有効な統計: Average、Sum、Max、Sample Count |
パイプライン別の実行メトリクスのディメンション
ディメンション | 説明 |
---|---|
PipelineName |
指定したパイプラインのパイプライン実行メトリクスをフィルタリングします。 |
パイプラインステップメトリクス
AWS/Sagemaker/ModelBuildingPipeline
名前空間には、次のパイプラインステップのメトリクスが含まれます。
メトリクスは、1 分間隔で利用できます。
メトリクス | 説明 |
---|---|
StepStarted |
開始されたステップの数。 単位:カウント 有効な統計: Average、Sum |
StepFailed |
失敗したステップの数。 単位:カウント 有効な統計: Average、Sum |
StepSucceeded |
成功したステップの数。 単位:カウント 有効な統計: Average、Sum |
StepStopped |
停止したステップの数。 単位:カウント 有効な統計: Average、Sum |
StepDuration |
ステップが実行された時間 (ミリ秒) 。 単位:ミリ秒 有効な統計: Average、Sum、Max、Sample Count |
パイプラインステップメトリクスのディメンション
ディメンション | 説明 |
---|---|
PipelineName , StepName |
指定したパイプラインとステップのステップメトリクスをフィルタリングします。 |