本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
aws/amazon-sagemaker-examples
我們建議您在 SageMaker Studio 或 SageMaker Notebook 執行個體上執行範例筆記本,因為大多數範例都是設計用於 SageMaker AI 生態系統中的訓練任務,包括 Amazon EC2、Amazon S3 和 Amazon SageMaker Python SDK。
若要將範例儲存庫複製到 SageMaker Studio,請遵循 Amazon SageMaker Studio 導覽中的指示進行操作。
若要在 SageMaker 筆記本執行個體中尋找範例,請遵循 SageMaker 筆記本執行個體範例筆記本中的指示進行操作。
重要
若要使用新的偵錯工具功能,您需要升級 SageMaker SDK 和 SMDebug
用戶端程式庫。在您的 iPython 核心、Jupyter 筆記本或 JupyterLab 環境中,執行以下程式碼以安裝最新版本的程式庫,並重新啟動核心。
import sys
import IPython
!{sys.executable} -m pip install -U sagemaker smdebug
IPython.Application.instance().kernel.do_shutdown(True)
分析訓練任務的偵錯工具範例筆記本
下列清單列出偵錯工具範例筆記本,說明偵錯工具針對不同機器學習模型、資料集和架構監控及分析訓練任務的適應性。
筆記本標題 | 架構 | 模型 | 資料集 | 描述 |
---|---|---|---|---|
TensorFlow |
Keras ResNet50 |
Cifar-10 |
本筆記本提供 SageMaker Debugger 擷取的分析資料之互動式分析的簡介。探索 |
|
TensorFlow |
一維卷積神經網路 |
IMDB 資料集 |
分析 TensorFlow 1-D CNN,以便對 IMDB 資料進行情緒分析,其中包含標籤為具備正面或負面情緒的電影評論。瀏覽 Studio 偵錯工具深入分析和偵錯工具分析報告。 |
|
TensorFlow |
ResNet50 | Cifar-10 |
使用各種分散式訓練設定執行 TensorFlow 訓練任務、監控系統資源使用率,並使用偵錯工具分析模型效能。 |
|
PyTorch |
ResNet50 |
Cifar-10 |
使用各種分散式訓練設定執行 PyTorch 訓練任務、監控系統資源使用率,並使用偵錯工具分析模型效能。 |
偵錯工具範例筆記本,用於分析模型參數
下列清單列出偵錯工具範例筆記本,說明偵錯工具針對不同機器學習模型、資料集和架構對訓練任務進行偵錯的適應性。
筆記本標題 | 架構 | 模型 | 資料集 | 描述 |
---|---|---|---|---|
TensorFlow |
卷積神經網路 |
MNIST |
使用 Amazon SageMaker Debugger 內建規則進行 TensorFlow 模型偵錯。 |
|
TensorFlow |
ResNet50 |
Cifar-10 |
使用 Amazon SageMaker Debugger 勾點組態和內建規則,以便透過 Tensorflow 2.1 架構進行模型偵錯。 |
|
MXNet |
Gluon 卷積神經網路 |
Fashion MNIST |
執行訓練任務並設定 SageMaker Debugger 以儲存此任務的所有張量,然後在筆記本中視覺化這些張量。 |
|
MXNet |
Gluon 卷積神經網路 |
Fashion MNIST |
了解偵錯工具如何從 Spot 執行個體上的訓練任務收集張量資料,以及如何搭配受管 Spot 訓練使用偵錯工具內建規則。 |
|
解釋使用 Amazon SageMaker Debugger 預測個人收入的 XGBoost 模型 |
XGBoost |
XGBoost 迴歸 |
了解如何使用偵錯工具勾點和內建規則,從 XGBoost 迴歸模型收集和視覺化張量資料,例如損失值、功能和 SHAP 值。 |
要查找模型參數和用例的進階視覺化,請參閱Debugger 進階示範和視覺化。