支援的架構和演算法 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的架構和演算法

下表顯示了調試器支持的 SageMaker 機器學習框架和算法。

SageMaker-supported frameworks and algorithms Debugging output tensors

TensorFlow

AWS TensorFlow 深度學習容器 1.15.4 或更新版本

PyTorch

AWS PyTorch 深度學習容器 1.5.0 或更新版本

MXNet

AWS 深度 MXNet 習容器 1.6.0 或更新版本

XGBoost

1.0-1、1.2-1、

SageMaker 通用估算器

自訂訓練容器 (可用於 TensorFlow PyTorch、MXNet 和 XGBoost,並具有手動掛接註冊功能)

  • 偵錯輸出張量——追蹤並偵錯模型參數,例如訓練工作的權重、梯度、偏差和純量值。可用的深度學習架構包括: TensorFlow PyTorch

    重要

    對於使用 Keras 的 TensorFlow 架構, SageMaker 除錯器會棄用使用 TensorFlow 2.6 及更新版本模組建置的除錯tf.keras模型的零程式碼變更支援。這是因為 TensorFlow 2.6.0 版本說明中宣布的重大變更。如需如何更新訓練指令碼的指示,請參閱 調整您的 TensorFlow 訓練腳本

    重要

    從 PyTorch v1.12.0 及更高版本, SageMaker 調試器棄用對調試模型的零代碼更改支持。

    這是因為中斷變更,造成 SageMaker 偵錯工具干擾torch.jit功能。如需如何更新訓練指令碼的指示,請參閱 調整您的 PyTorch 訓練腳本

如果表格中未列出您要訓練和偵錯的架構或演算法,請前往AWS 討論區並在除 SageMaker 錯程式上留下意見反應。

AWS 區域

Amazon 除 SageMaker 錯程式可在 Amazon SageMaker 服務的所有區域使用,但下列區域除外。

  • 亞太區域 (雅加達):ap-southeast-3

若要瞭解 Amazon SageMaker 是否在您的服務中 AWS 區域,請參閱AWS 區域服務

Debugger 和自訂訓練容器搭配使用

使用偵錯工具將您的訓練容器帶入訓練工作, SageMaker 並深入瞭解訓練工作。使用監控和偵錯功能,在 Amazon EC2 執行個體上最佳化模型,將您的工作效率最大化。

有關如何使用sagemaker-debugger客户端庫,將其推送到 Amazon Elastic Container Registry (Amazon ECR),並監視和調試,請參閱Debugger 和自訂訓練容器搭配使用

調試器開源 GitHub 存儲

除錯程式 API 是透過 SageMaker Python SDK 提供的,並設計用來建構和 DescribeTrainingJobAPI 作業的偵錯工具勾點 SageMaker CreateTrainingJob和規則設定。sagemaker-debugger 用戶端程式庫提供工具來註冊勾點,並透過其試用功能存取訓練資料,全部都透過具有彈性且功能強大的 API 操作進行。它支援機器學習架構 TensorFlow PyTorch、MXNet 和 Python 3.6 及更高版本。

有關調試器和sagemaker-debuggerAPI 操作,請參閱以下鏈接:

如果您使用 SDK for Java 來執行 SageMaker 訓練工作,並想要設定除錯程式 API,請參閱下列參考資料: