Amazon SageMaker HyperPod でのチェックポイントレストレーニング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker HyperPod でのチェックポイントレストレーニング

Amazon SageMaker HyperPod でのチェックポイントレストレーニングにより、トレーニングインフラストラクチャの障害からの迅速な復旧が可能になります。次のドキュメントは、NeMo がサポートするモデルのチェックポイントレストレーニングとファインチューニングを開始するのに役立ちます。

チェックポイントレストレーニングには、次の前提条件があります。

SageMaker HyperPod でのチェックポイントレストレーニングは、NVIDIA NeMo Framework ユーザーガイドの上に構築されています。事前に作成された SageMaker HyperPod レシピを使用してチェックポイントレストレーニングを実行できます。NeMo に精通している場合、チェックポイントレストレーニングレシピを使用するプロセスは似ています。軽微な変更を加えると、チェックポイントレストレーニング機能を使用してモデルのトレーニングを開始できます。これにより、トレーニングの障害から迅速に回復できます。

次の HyperPod レシピは、チェックポイントレストレーニングの最適化で事前設定されています。レシピの一部としてデータパスを指定し、関連する起動スクリプトを使用してトレーニングを実行できます (以下のクイックスタートガイドを参照)。

モデル Method サイズ ノード インスタンス アクセラレーター レシピ スクリプト チュートリアル
GPT OSS 完全な微調整の例 120b 16 p5.48xlarge GPU H100 link link link
GPT OSS LoRA の例 120b 2 p5.48xlarge GPU H100 link link link
Llama3 事前トレーニングの例 70b 16 p5.48xlarge GPU H100 link link link
Llama3 LoRA の例 70b 2 p5.48xlarge GPU H100 link link link

次のクイックスタートガイドでは、チェックポイントレストレーニングレシピを使用するためのチュートリアルを示します。

開始方法の例

カスタムモデルを事前トレーニングまたは微調整する場合は、「」を参照してくださいチュートリアル - Amazon SageMaker HyperPod チェックポイントレス事前トレーニングまたはカスタムモデルの微調整

特定のチェックポイントレストレーニングコンポーネントの組み込みの詳細については、「」を参照してくださいHyperPod チェックポイントレストレーニング機能