Amazon SageMaker HyperPod でのチェックポイントレストレーニング

Amazon SageMaker HyperPod でのチェックポイントレストレーニングにより、トレーニングインフラストラクチャの障害からの迅速な復旧が可能になります。次のドキュメントは、NeMo がサポートするモデルのチェックポイントレストレーニングとファインチューニングを開始するのに役立ちます。

チェックポイントレストレーニングには、次の前提条件があります。

SageMaker HyperPod で Amazon EKS サポートを開始する
トレーニングオペレーターのインストール。 v1.2.0 以降をインストールする必要があります。

SageMaker HyperPod でのチェックポイントレストレーニングは、NVIDIA NeMo Framework ユーザーガイドの上に構築されています。事前に作成された SageMaker HyperPod レシピを使用してチェックポイントレストレーニングを実行できます。NeMo に精通している場合、チェックポイントレストレーニングレシピを使用するプロセスは似ています。軽微な変更を加えると、チェックポイントレストレーニング機能を使用してモデルのトレーニングを開始できます。これにより、トレーニングの障害から迅速に回復できます。

次の HyperPod レシピは、チェックポイントレストレーニングの最適化で事前設定されています。レシピの一部としてデータパスを指定し、関連する起動スクリプトを使用してトレーニングを実行できます (以下のクイックスタートガイドを参照）。

モデル	Method	サイズ	ノード	インスタンス	アクセラレーター	レシピ	スクリプト	チュートリアル
GPT OSS	完全な微調整の例	120b	16	p5.48xlarge	GPU H100	link	link	link
GPT OSS	LoRA の例	120b	2	p5.48xlarge	GPU H100	link	link	link
Llama3	事前トレーニングの例	70b	16	p5.48xlarge	GPU H100	link	link	link
Llama3	LoRA の例	70b	2	p5.48xlarge	GPU H100	link	link	link

次のクイックスタートガイドでは、チェックポイントレストレーニングレシピを使用するためのチュートリアルを示します。

開始方法の例

カスタムモデルを事前トレーニングまたは微調整する場合は、「」を参照してくださいチュートリアル - Amazon SageMaker HyperPod チェックポイントレス事前トレーニングまたはカスタムモデルの微調整。

特定のチェックポイントレストレーニングコンポーネントの組み込みの詳細については、「」を参照してくださいHyperPod チェックポイントレストレーニング機能。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

カスタム Kubernetes ラベルとテイント

トレーニングチュートリアル