リリースノート - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

リリースノート

SageMaker HyperPod チェックポイントレストレーニングの最新の更新を追跡するには、次のリリースノートを参照してください。

SageMaker HyperPod チェックポイントレストレーニング v1.0.0

日付: 2025 年 12 月 3 日

SageMaker HyperPod チェックポイントレストレーニング機能

  • Collective Communication Initialization の改善: NCCL と Gloo 用の新しい初期化方法、ルートレスと TCPStoreless を提供します。

  • メモリマップ (MMAP) データローダー: プリフェッチされたバッチをキャッシュ (永続化) して、障害によってトレーニングジョブが再起動された場合でもバッチを使用できるようにします。

  • チェックポイントレス: フレームワークレベルを最適化することで、大規模な分散トレーニング環境でのクラスタートレーニングの障害からの迅速な復旧を可能にします

  • Nvidia Nemo と PyTorch Lightning 上に構築: これらの強力なフレームワークを活用して、効率的で柔軟なモデルトレーニングを実現

SageMaker HyperPod チェックポイントレストレーニング Docker コンテナ

HyperPod でのチェックポイントレストレーニングは、NVIDIA NeMo フレームワーク上に構築されています。HyperPod チェックポイントレストレーニングは、NCCL と PyTorch 最適化を備えたベースイメージを含むベースコンテナで提供されるフレームワークレベルの最適化を行うことで、大規模な分散トレーニング環境でのクラスタートレーニングの障害からより迅速に復旧することを目指しています。

現在利用できるリージョン

現在、イメージは以下でのみ使用できます。

eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2

ただし、次の 3 つのオプトインリージョンでは使用できません。

ap-southeast-3 ap-southeast-4 eu-south-2

コンテナの詳細

CUDA v12.9 を使用した PyTorch v2.6.0 用のチェックポイントレストレーニング Docker コンテナ

963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0

プリインストールされたパッケージ

PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0