本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
偵錯工具範例筆記本
SageMaker 在 aws/ amazon-sagemaker-examples
我們建議您在工作 SageMaker 室或筆記本執行個體上執行範例 SageMaker 筆記本,因為大多數範例都是針對 SageMaker 生態系統中的訓練任務而設計的,包括 Amazon EC2、Amazon S3 和 Amazon SageMaker Python 開發套件。
要將示例存儲庫克隆到 SageMaker 工作室,請按照 Amazon 工作 SageMaker 室導覽中的說明進行操作
若要在記事本執行個體中尋找範例,請遵循 SageMaker 記事本執行個體範例SageMaker 筆記本中的指示。
重要
若要使用新的偵錯工具功能,您需要升級 SageMaker Python SDK 和用SMDebug
戶端程式庫。在 IPython 內核,Jupyter 筆記本或 JupyterLab環境中,運行以下代碼以安裝最新版本的庫並重新啟動內核。
import sys import IPython !{sys.executable} -m pip install -U sagemaker smdebug IPython.Application.instance().kernel.do_shutdown(True)
分析訓練任務的偵錯工具範例筆記本
下列清單列出偵錯工具範例筆記本,說明偵錯工具針對不同機器學習模型、資料集和架構監控及分析訓練任務的適應性。
筆記本標題 | 架構 | 模型 | 資料集 | 描述 |
---|---|---|---|---|
TensorFlow |
喀拉斯 50 ResNet |
Cifar-10 |
本筆記本提供了一個互動式分析由 SageMaker 偵錯工具擷取的效能分析資料的簡介。探索 |
|
TensorFlow |
一維卷積神經網路 |
IMDB 資料集 |
分析一個 TensorFlow 1-D CNN,用於 IMDB 數據的情緒分析,該數據包括標記為正面或負面情緒的電影評論。瀏覽 Studio 偵錯工具深入分析和偵錯工具分析報告。 |
|
TensorFlow |
ResNet50 | Cifar-10 |
使用偵錯工具執行 TensorFlow 各種分散式訓練設定的訓練工作、監控系統資源使用率,以及設定檔模型效能。 |
|
PyTorch |
ResNet50 |
Cifar-10 |
使用偵錯工具執行 PyTorch 各種分散式訓練設定的訓練工作、監控系統資源使用率,以及設定檔模型效能。 |
分析模型參數的偵錯工具範例筆記本
下列清單列出偵錯工具範例筆記本,說明偵錯工具針對不同機器學習模型、資料集和架構對訓練任務進行偵錯的適應性。
筆記本標題 | 架構 | 模型 | 資料集 | 描述 |
---|---|---|---|---|
TensorFlow |
卷積神經網路 |
MNIST |
使用 Amazon SageMaker 偵錯工具內建規則來偵錯 TensorFlow模型。 |
|
TensorFlow |
ResNet50 |
Cifar-10 |
使用 Amazon SageMaker 偵錯工具掛接組態和內建規則,透過 Tensorflow 2.1 架構來偵錯模型。 |
|
MXNet |
Gluon 卷積神經網路 |
Fashion MNIST |
執行訓練工作並設定 SageMaker 偵錯工具以儲存此工作中的所有張量,然後將這些張量視覺化為筆記型電腦。 |
|
MXNet |
Gluon 卷積神經網路 |
Fashion MNIST |
了解偵錯工具如何從 Spot 執行個體上的訓練任務收集張量資料,以及如何搭配受管 Spot 訓練使用偵錯工具內建規則。 |
|
解釋一個 XGBoost 模型,該模型可以使用 Amazon 調試器預測個人收入 SageMaker |
XGBoost |
XGBoost 迴歸 |
了解如何使用偵錯工具勾點和內建規則,從 XGBoost 迴歸模型收集和視覺化張量資料,例如損失值、功能和 SHAP 值。 |
要查找模型參數和用例的高級可視化,請參閱偵錯工具進階示範和視覺化。