本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
支援的架構和演算法
下表顯示了調試器支持的 SageMaker 機器學習框架和算法。
SageMaker-supported frameworks and algorithms | Debugging output tensors |
---|---|
AWS TensorFlow 深度學習容器 |
|
AWS PyTorch 深度學習容器 |
|
AWS 深度 MXNet 習容器 |
|
1.0-1、1.2-1、 |
|
自訂訓練容器 (可用於 TensorFlow PyTorch、MXNet 和 XGBoost,並具有手動掛接註冊功能) |
-
偵錯輸出張量——追蹤並偵錯模型參數,例如訓練工作的權重、梯度、偏差和純量值。可用的深度學習架構包括: TensorFlow PyTorch
重要
對於使用 Keras 的 TensorFlow 架構, SageMaker 除錯器會棄用使用 TensorFlow 2.6 及更新版本模組建置的除錯
tf.keras
模型的零程式碼變更支援。這是因為 TensorFlow 2.6.0 版本說明中宣布的重大變更。如需如何更新訓練指令碼的指示,請參閱 調整您的 TensorFlow 訓練腳本。 重要
從 PyTorch v1.12.0 及更高版本, SageMaker 調試器棄用對調試模型的零代碼更改支持。
這是因為中斷變更,造成 SageMaker 偵錯工具干擾
torch.jit
功能。如需如何更新訓練指令碼的指示,請參閱 調整您的 PyTorch 訓練腳本。
如果表格中未列出您要訓練和偵錯的架構或演算法,請前往AWS 討論區
AWS 區域
Amazon 除 SageMaker 錯程式可在 Amazon SageMaker 服務的所有區域使用,但下列區域除外。
亞太區域 (雅加達):
ap-southeast-3
若要瞭解 Amazon SageMaker 是否在您的服務中 AWS 區域,請參閱AWS 區域服務
Debugger 和自訂訓練容器搭配使用
使用偵錯工具將您的訓練容器帶入訓練工作, SageMaker 並深入瞭解訓練工作。使用監控和偵錯功能,在 Amazon EC2 執行個體上最佳化模型,將您的工作效率最大化。
有關如何使用sagemaker-debugger
客户端庫,將其推送到 Amazon Elastic Container Registry (Amazon ECR),並監視和調試,請參閱Debugger 和自訂訓練容器搭配使用。
調試器開源 GitHub 存儲
除錯程式 API 是透過 SageMaker Python SDK 提供的,並設計用來建構和 DescribeTrainingJobAPI 作業的偵錯工具勾點 SageMaker CreateTrainingJob和規則設定。sagemaker-debugger
用戶端程式庫提供工具來註冊勾點,並透過其試用功能存取訓練資料,全部都透過具有彈性且功能強大的 API 操作進行。它支援機器學習架構 TensorFlow PyTorch、MXNet 和 Python 3.6 及更高版本。
有關調試器和sagemaker-debugger
API 操作,請參閱以下鏈接:
如果您使用 SDK for Java 來執行 SageMaker 訓練工作,並想要設定除錯程式 API,請參閱下列參考資料: