選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

Trainium Slurm 叢集預先訓練教學課程

焦點模式
Trainium Slurm 叢集預先訓練教學課程 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

下列教學課程會在 Slurm 叢集上設定 Trainium 環境,並在 Llama 80 億參數模型上啟動訓練任務。

必要條件

開始設定環境之前,請確定您已:

  • 設定 SageMaker HyperPod Trainium Slurm 叢集。

  • 共用儲存位置。它可以是可從叢集節點存取的 Amazon FSx 檔案系統或 NFS 系統。

  • 下列其中一個格式的資料:

    • JSON

    • JSONGZ (壓縮 JSON)

    • ARROW

  • (選用) 如果您使用 HuggingFace 的模型權重進行預先訓練或微調,則必須取得 HuggingFace 權杖。如需取得字符的詳細資訊,請參閱使用者存取字符

在 Slurm 叢集上設定 Trainium 環境

若要在 Slurm 叢集上啟動訓練任務,請執行下列動作:

  • SSH 進入 Slurm 叢集的主機節點。

  • 登入後,設定 Neuron 環境。如需設定 Neuron 的相關資訊,請參閱 Neuron 設定步驟。我們建議依賴預先安裝 Neuron 驅動程式的深度學習 AMI,例如 Ubuntu 20 搭配 DLAMI Pytorch

  • 將 SageMaker HyperPod 配方儲存庫複製到叢集中的共用儲存位置。共用儲存位置可以是可從叢集節點存取的 Amazon FSx 檔案系統或 NFS 系統。

    git clone --recursive https://github.com/aws/sagemaker-hyperpod-recipes.git cd sagemaker-hyperpod-recipes pip3 install -r requirements.txt
  • 完成下列教學課程:HuggingFace Llama3-8B 預先訓練

  • 準備模型組態。Neuron 儲存庫中可用的模型組態。如需本教學課程中使用 的模型組態,請參閱 llama3 8b 模型組態

在 Trainium 中啟動訓練任務

若要在 Trainium 中啟動訓練任務,請指定叢集組態和 Neuron 配方。例如,若要在 Trainium 中啟動 llama3 8b 預先訓練任務,請將啟動指令碼 設定為launcher_scripts/llama/run_hf_llama3_8b_seq8k_trn1x4_pretrain.sh下列:

  • MODEL_CONFIG:環境設定區段中的模型組態

  • (選用) 如果您需要從 HuggingFace 預先訓練的權重,您可以設定下列鍵值對,以提供 HuggingFace 權杖:

    recipes.model.hf_access_token=<your_hf_token>
#!/bin/bash #Users should set up their cluster type in /recipes_collection/config.yaml SAGEMAKER_TRAINING_LAUNCHER_DIR=${SAGEMAKER_TRAINING_LAUNCHER_DIR:-"$(pwd)"} COMPILE=0 TRAIN_DIR="${TRAIN_DIR}" # Location of training dataset MODEL_CONFIG="${MODEL_CONFIG}" # Location of config.json for the model HYDRA_FULL_ERROR=1 python3 "${SAGEMAKER_TRAINING_LAUNCHER_DIR}/main.py" \ base_results_dir="${SAGEMAKER_TRAINING_LAUNCHER_DIR}/results" \ instance_type="trn1.32xlarge" \ recipes.run.compile="$COMPILE" \ recipes.run.name="hf-llama3-8b" \ recipes.trainer.num_nodes=4 \ recipes=training/llama/hf_llama3_8b_seq8k_trn1x4_pretrain \ recipes.data.train_dir="$TRAIN_DIR" \ recipes.model.model_config="$MODEL_CONFIG"

若要啟動訓練任務,請執行下列命令:

bash launcher_scripts/llama/run_hf_llama3_8b_seq8k_trn1x4_pretrain.sh

如需 Slurm 叢集組態的詳細資訊,請參閱 在 HyperPod Slurm 上執行訓練任務

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。