モデルパフォーマンスをデバッグして改善する

機械学習モデル、深層学習ニューラルネットワーク、トランスフォーマーモデルのトレーニングは、安定したモデル収束を実現するためのものです。そのため、モデルには数百万、 state-of-the-art数十億、数十億のモデルパラメータがあります。各反復中に膨大な数のモデルパラメータを更新するためのオペレーションの数は、天文学的なものになりがちです。モデル収束の問題を特定するには、最適化プロセス中に計算されたモデルのパラメータ、活性化、勾配にアクセスできることが重要です。

Amazon SageMaker には、このような収束の問題を特定し、モデルを可視化するのに役立つ 2 つのデバッグツールが用意されています。

SageMaker を使用した Amazon TensorBoard

トレーニングプラットフォーム内のオープンソースコミュニティツールとの互換性を高めるために SageMaker、はSageMaker ドメイン内のアプリケーション TensorBoard として SageMaker ホストします。トレーニングジョブをに取り込み SageMaker 、 TensorBoard 概要ライターを使用してモデル出力テンソルを収集し続けることができます。 TensorBoard はSageMaker ドメインに実装されるため、 AWS アカウントの SageMaker ドメインでユーザープロファイルを管理するオプションが増え、特定のアクションとリソースへのアクセスを許可することでユーザープロファイルを細かく制御できます。詳細については、「 TensorBoard を使用して Amazon のトレーニングジョブをデバッグおよび分析する SageMaker」を参照してください。

Amazon SageMaker デバッガー

Amazon SageMaker Debugger は、コールバックにフックを登録してモデル出力テンソルを抽出し、Amazon Simple Storage Service に保存するためのツール SageMaker を提供するの機能です。オーバーフィット、活性化関数の飽和、勾配の消失など、モデル収束の問題を検出するための組み込みルールを提供します。また、Amazon CloudWatch Events とを使用して、検出された問題に対して自動アクションを実行 AWS Lambda するための組み込みルールを設定し、E メールまたはテキスト通知を受信するように Amazon Simple Notification Service を設定することもできます。詳細については、「Amazon SageMaker Debugger を使用してモデルのパフォーマンスをデバッグおよび改善する」を参照してください。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

リリースノート

を使用する TensorBoard