本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
管理不同類型的執行個體本機儲存體的儲存路徑
在 中設定訓練任務的儲存路徑時,請考慮下列事項 SageMaker。
-
如果您想要將分散式訓練的訓練成品存放在
/opt/ml/output/data
目錄中,您必須透過模型定義或訓練指令碼正確附加子目錄或使用成品唯一的檔案名稱。如果未正確設定子目錄和檔案名稱,則所有分散式訓練工作者可能會將輸出寫入 Amazon S3 中相同輸出路徑中的相同檔案名稱。 -
如果您使用自訂訓練容器,請務必安裝SageMaker 訓練工具組
,以協助設定 SageMaker 訓練任務的環境。否則,您必須在 Dockerfile 中明確指定環境變數。如需詳細資訊,請參閱使用自有的演算法和模型建立容器。 -
將 ML 執行個體與NVMeSSD磁碟區 搭配使用時, SageMaker 不會佈建 Amazon EBS gp2 儲存體。可用的儲存體會固定為 NVMe類型的執行個體儲存容量。 SageMaker 設定訓練資料集、檢查點、模型成品和輸出的儲存路徑,以使用執行個體儲存體的整個容量。例如,具有 NVMe類型執行個體儲存體的 ML 執行個體系列包括
ml.p4d
、ml.g4dn
和ml.g5
。使用 ML 執行個體搭配 EBS僅 儲存選項,且沒有執行個體儲存時,您必須透過估算器類別中的volume_size
SageMaker 參數 (或VolumeSizeInGB
如果您使用的是ResourceConfig
) 來定義EBS磁碟區大小API。例如,使用EBS磁碟區的 ML 執行個體系列包括ml.c5
和ml.p2
。若要查詢執行個體類型及其執行個體儲存類型和磁碟區,請參閱 Amazon EC2執行個體類型。 -
SageMaker 訓練任務的預設路徑會掛載至 ML 執行個體的 Amazon EBS磁碟區或磁碟NVMeSSD區。當您將訓練指令碼調整為 時 SageMaker,請務必使用上一個主題中列出的有關 的預設路徑SageMaker 環境變數和訓練儲存位置的預設路徑。建議您在訓練期間使用
/tmp
目錄做為暫存空間,暫時存放任何大型物件。這表示您不得使用掛載到為系統配置之小型磁碟空間的目錄,例如/user
和/home
,以避免 out-of-space錯誤。
若要進一步了解,請參閱 AWS 機器學習部落格為 Amazon SageMaker 訓練任務選擇最佳資料來源