翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker トレーニングジョブを開始すると、SageMaker Debugger は Amazon EC2 インスタンスのリソース使用率のモニタリングをデフォルトで開始します。インサイトダッシュボードでは、システム使用率、統計概要、および組み込みルール分析を追跡できます。このガイドでは、次のタブにある SageMaker デバッガーインサイトダッシュボードの内容について説明します。[システムメトリクス] タブおよび [ルール] タブ。
注記
SageMaker Debugger Insights ダッシュボードは、ml.m5.4xlarge
インスタンス上で Studio Classic アプリケーションを実行し、可視化データを処理してレンダリングします。各 [SageMaker Debugger Insights] タブは、1 つの Studio Classic カーネルセッションを実行します。複数の [SageMaker Debugger Insights] タブに対する複数のカーネルセッションが 1 つのインスタンスで実行されます。[SageMaker Debugger Insights] タブを閉じると、対応するカーネルセッションも閉じられます。Studio Classic アプリケーションはアクティブな状態を維持し、その分の ml.m5.4xlarge
インスタンスの使用料が発生します。料金の詳細については、「Amazon SageMaker の料金
重要
SageMaker Debugger Insights ダッシュボードの使用が終了したら、料金が発生しないように ml.m5.4xlarge
インスタンスをシャットダウンします。インスタンスをシャットダウンする方法については、「Amazon SageMaker Debugger Insights インスタンスをシャットダウンする」を参照してください。
重要
レポートでは、プロットと推奨事項は情報提供のために提供され、決定的ではありません。お客様は、情報を独自に評価する責任があります。
システムメトリクス
[システムメトリクス] タブでは、サマリーテーブルと時系列プロットを使用してリソース利用率を把握できます。
リソース使用率の要約
この概要テーブルには、全ノード (algo-n と表記) のコンピューティングリソースの使用率メトリクスの統計が表示されます。リソース使用率メトリクスには、合計 CPU 使用率、合計 GPU 使用率、合計 CPU メモリ使用率、合計 GPU メモリ使用率、合計 I/O 待機時間、合計ネットワーク (バイト単位) が含まれます。表には、最小値と最大値、 p99、p90、p50 のパーセンタイルが表示されます。

リソース使用率の時系列プロット
時系列グラフを使用すると、リソース使用率の詳細を確認し、各インスタンスがどの時間間隔で望ましくない使用率 (GPU 使用率の低下や高価なインスタンスの浪費の原因となる CPU ボトルネックなど) を示しているかを特定できます。
時系列グラフコントローラーの UI
次のスクリーンショットは、時系列グラフを調整するための UI コントローラーを示しています。

-
[algo-1]: このドロップダウンメニューを使用して、調べたいノードを選択します。
-
[ズームイン]: このボタンを使用すると、時系列グラフを拡大したり、短い時間間隔を表示したりできます。
-
[ズームアウト]: このボタンを使用すると、時系列グラフをズームアウトして、より広い時間間隔を表示できます。
-
[左に移動]: 時系列グラフをより前の時間間隔に移動します。
-
[右に移動]: 時系列グラフをより後の時間間隔に移動します。
-
[タイムフレームの修正]: このチェックボックスを使用すると、時系列グラフを固定または元に戻し、最初のデータポイントから最後のデータポイントまで全体が表示されます。
CPU 使用率と I/O 待ち時間
最初の 2 つのグラフは、時間経過に伴う CPU 使用率と I/O 待機時間を示しています。デフォルトでは、グラフには CPU コアに費やされた CPU 使用率と I/O 待機時間の平均が表示されます。ラベルを選択して 1 つ以上の CPU コアを選択すると、単一のチャートでグラフ化し、コア間の使用率を比較することができます。ドラッグしてズームイン/アウトして、特定の時間間隔を詳しく見ることができます。

GPU 使用率と GPU メモリ使用率
次のグラフは、時間経過に伴う GPU 使用率と GPU メモリ使用率を示しています。デフォルトでは、グラフには時間経過に伴う平均使用率が表示されます。GPU コアラベルを選択して、各コアの使用率を確認できます。GPU コアの総数に対して使用率の平均をとると、ハードウェアシステムリソース全体の平均使用率がわかります。平均使用率を調べることで、Amazon EC2 インスタンスの全体的なシステムリソースの使用状況を確認できます。次の図は、8 つの GPU コアを持つ ml.p3.16xlarge
インスタンスでのトレーニングジョブの例を示しています。トレーニングジョブが適切に分散され、すべての GPU を十分に活用しているかどうかをモニタリングできます。

時間経過に伴うシステム全体の使用率
次のヒートマップは、2 次元プロットに投影された時間経過に伴う ml.p3.16xlarge
インスタンスのシステム全体の使用率を示しています。各 CPU と GPU コアは縦軸にリストされ、使用率がカラースキームで経時的に記録されています。明るい色は使用率が低いことを表し、暗い色は使用率が高いことを表しています。プロットの右側にあるラベル付きカラーバーを参照して、どのカラーレベルがどの使用率に対応しているかがわかります。

ルール
[ルール] タブは、トレーニングジョブのプロファイリングルール分析の概要を表示します。トレーニングジョブでプロファイリングルールが有効になっている場合、テキストは白いテキストで強調表示されます。非アクティブなルールはグレーのテキストで淡色表示されます。これらのルールを有効にするには、「Amazon SageMaker Debugger によって管理される組み込みプロファイラールールを使用する」の手順に従ってください。
![SageMaker Debugger Insights ダッシュボードの [ルール] タブ](images/debugger/debugger-insights-rules.png)