トレーニングジョブのモニタリングと分析を行うための Amazon CloudWatch メトリクス

Amazon SageMaker トレーニングジョブは、トレーニングデータセットの例を提示することで、モデルに予測することを学習させる反復プロセスです。通常、トレーニングアルゴリズムは、トレーニングエラーや予測精度など、複数のメトリクスを計算します。これらのメトリクスは、モデルがうまく学習しているかどうかと、見えないデータについて予測を行うためにうまく一般化されるかどうかを診断するのに役立ちます。トレーニングアルゴリズムは、これらのメトリクスの値をログに書き込みます。ログは SageMaker AI がモニタリングし、Amazon CloudWatch にリアルタイムで送信します。トレーニングジョブのパフォーマンスを分析するため、CloudWatch でこれらのメトリクスのグラフを表示できます。トレーニングジョブが完了すると、DescribeTrainingJob 演算子を呼び出すことで最終的な反復作業で計算されるメトリクス値のリストを取得することもできます。

注記

Amazon CloudWatch は、高分解能カスタムメトリクスをサポートし、その最高分解能は 1 秒です。ただし、分解能が細かいほど、CloudWatch メトリクスの寿命は短くなります。1 秒の頻度の分解能の場合は、CloudWatch メトリックスを使用できるのは 3 時間です。CloudWatch メトリクスの分解能と寿命の詳細については、「Amazon CloudWatch API リファレンス」の「GetMetricStatistics」を参照してください。

ヒント

100 ミリ秒 (0.1 秒) の粒度まで細かい分解能でトレーニングジョブをプロファイリングし、トレーニングメトリクスをカスタム分析のためにいつでも無期限に Amazon S3 に保存する必要がある場合は、Amazon SageMaker デバッガーの使用を検討してください。SageMaker デバッガーには、一般的なトレーニングの問題を自動的に検出するルールが組み込まれており、ハードウェアリソース使用率の問題 (CPU、GPU、I/O のボトルネックなど) および非収束モデルの問題 (オーバーフィット、勾配消失、テンソルの爆発など) を検出します。SageMaker Debugger は、Studio Classic とそのプロファイリングレポートを通じて可視化機能も提供します。デバッガーの可視化機能を確認するには、「SageMaker デバッガーインサイトダッシュボードのチュートリアル」、「デバッガープロファイリングレポートのチュートリアル」、「SMDebug クライアントライブラリを使用してデータを分析する」を参照してください。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

SageMaker AI マネージドウォームプールを使用する

トレーニングメトリクスの定義