Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

Amazon SageMaker Debugger Insights ダッシュボードの詳細

フォーカスモード
Amazon SageMaker Debugger Insights ダッシュボードの詳細 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker トレーニングジョブを開始すると、SageMaker Debugger は Amazon EC2 インスタンスのリソース使用率のモニタリングをデフォルトで開始します。インサイトダッシュボードでは、システム使用率、統計概要、および組み込みルール分析を追跡できます。このガイドでは、次のタブにある SageMaker デバッガーインサイトダッシュボードの内容について説明します。[システムメトリクス] タブおよび [ルール] タブ。

注記

SageMaker Debugger Insights ダッシュボードは、ml.m5.4xlarge インスタンス上で Studio Classic アプリケーションを実行し、可視化データを処理してレンダリングします。各 [SageMaker Debugger Insights] タブは、1 つの Studio Classic カーネルセッションを実行します。複数の [SageMaker Debugger Insights] タブに対する複数のカーネルセッションが 1 つのインスタンスで実行されます。[SageMaker Debugger Insights] タブを閉じると、対応するカーネルセッションも閉じられます。Studio Classic アプリケーションはアクティブな状態を維持し、その分の ml.m5.4xlarge インスタンスの使用料が発生します。料金の詳細については、「Amazon SageMaker の料金」ページを参照してください。

重要

SageMaker Debugger Insights ダッシュボードの使用が終了したら、料金が発生しないように ml.m5.4xlarge インスタンスをシャットダウンします。インスタンスをシャットダウンする方法については、「Amazon SageMaker Debugger Insights インスタンスをシャットダウンする」を参照してください。

重要

レポートでは、プロットと推奨事項は情報提供のために提供され、決定的ではありません。お客様は、情報を独自に評価する責任があります。

システムメトリクス

[システムメトリクス] タブでは、サマリーテーブルと時系列プロットを使用してリソース利用率を把握できます。

リソース使用率の要約

この概要テーブルには、全ノード (algo-n と表記) のコンピューティングリソースの使用率メトリクスの統計が表示されます。リソース使用率メトリクスには、合計 CPU 使用率、合計 GPU 使用率、合計 CPU メモリ使用率、合計 GPU メモリ使用率、合計 I/O 待機時間、合計ネットワーク (バイト単位) が含まれます。表には、最小値と最大値、 p99、p90、p50 のパーセンタイルが表示されます。

リソース使用率の要約テーブル

リソース使用率の時系列プロット

時系列グラフを使用すると、リソース使用率の詳細を確認し、各インスタンスがどの時間間隔で望ましくない使用率 (GPU 使用率の低下や高価なインスタンスの浪費の原因となる CPU ボトルネックなど) を示しているかを特定できます。

時系列グラフコントローラーの UI

次のスクリーンショットは、時系列グラフを調整するための UI コントローラーを示しています。

SageMaker デバッガーインサイトダッシュボードの UI コントローラー。
  • [algo-1]: このドロップダウンメニューを使用して、調べたいノードを選択します。

  • [ズームイン]: このボタンを使用すると、時系列グラフを拡大したり、短い時間間隔を表示したりできます。

  • [ズームアウト]: このボタンを使用すると、時系列グラフをズームアウトして、より広い時間間隔を表示できます。

  • [左に移動]: 時系列グラフをより前の時間間隔に移動します。

  • [右に移動]: 時系列グラフをより後の時間間隔に移動します。

  • [タイムフレームの修正]: このチェックボックスを使用すると、時系列グラフを固定または元に戻し、最初のデータポイントから最後のデータポイントまで全体が表示されます。

CPU 使用率と I/O 待ち時間

最初の 2 つのグラフは、時間経過に伴う CPU 使用率と I/O 待機時間を示しています。デフォルトでは、グラフには CPU コアに費やされた CPU 使用率と I/O 待機時間の平均が表示されます。ラベルを選択して 1 つ以上の CPU コアを選択すると、単一のチャートでグラフ化し、コア間の使用率を比較することができます。ドラッグしてズームイン/アウトして、特定の時間間隔を詳しく見ることができます。

debugger-studio-insight-mockup

GPU 使用率と GPU メモリ使用率

次のグラフは、時間経過に伴う GPU 使用率と GPU メモリ使用率を示しています。デフォルトでは、グラフには時間経過に伴う平均使用率が表示されます。GPU コアラベルを選択して、各コアの使用率を確認できます。GPU コアの総数に対して使用率の平均をとると、ハードウェアシステムリソース全体の平均使用率がわかります。平均使用率を調べることで、Amazon EC2 インスタンスの全体的なシステムリソースの使用状況を確認できます。次の図は、8 つの GPU コアを持つ ml.p3.16xlarge インスタンスでのトレーニングジョブの例を示しています。トレーニングジョブが適切に分散され、すべての GPU を十分に活用しているかどうかをモニタリングできます。

debugger-studio-insight-mockup

時間経過に伴うシステム全体の使用率

次のヒートマップは、2 次元プロットに投影された時間経過に伴う ml.p3.16xlarge インスタンスのシステム全体の使用率を示しています。各 CPU と GPU コアは縦軸にリストされ、使用率がカラースキームで経時的に記録されています。明るい色は使用率が低いことを表し、暗い色は使用率が高いことを表しています。プロットの右側にあるラベル付きカラーバーを参照して、どのカラーレベルがどの使用率に対応しているかがわかります。

debugger-studio-insight-mockup

ルール

[ルール] タブは、トレーニングジョブのプロファイリングルール分析の概要を表示します。トレーニングジョブでプロファイリングルールが有効になっている場合、テキストは白いテキストで強調表示されます。非アクティブなルールはグレーのテキストで淡色表示されます。これらのルールを有効にするには、「Amazon SageMaker Debugger によって管理される組み込みプロファイラールールを使用する」の手順に従ってください。

SageMaker Debugger Insights ダッシュボードの [ルール] タブ
プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.