偵錯和改善模型效能

訓練機器學習模型、深度學習神經網路、轉換器模型的核心在於實現穩定的模型收斂，因此，最先進的模型具有數百萬、數十億或數兆個模型參數。在每次反覆執行期間，更新龐大數量的模型參數的操作次數很容易變成天文數字。若要識別模型收斂問題，必須能夠存取最佳化程序期間運算的模型參數、啟用和漸層。

Amazon SageMaker AI 提供兩種偵錯工具，可協助識別此類收斂問題，並取得模型的可見性。

Amazon SageMaker AI 搭配 TensorBoard

為了與 SageMaker AI Training 平台中的開放原始碼社群工具提供更高的相容性，SageMaker AI 將 TensorBoard 託管為 SageMaker AI 網域中的應用程式。您可以將訓練任務帶到 SageMaker AI，並繼續使用 TensorBoard 摘要寫入器來收集模型輸出張量。由於 TensorBoard 已實作至 SageMaker AI 網域，因此它也提供您更多選項來管理您 AWS 帳戶中 SageMaker AI 網域下的使用者設定檔，並透過授予對特定動作和資源的存取權，對使用者設定檔提供精細的控制。如需進一步了解，請參閱 Amazon SageMaker AI 中的 TensorBoard 。

Amazon SageMaker Debugger

Amazon SageMaker Debugger 是 SageMaker AI 的一項功能，提供工具來註冊回呼的勾點，以擷取模型輸出張量並將其儲存在 Amazon Simple Storage Service 中。它為偵測模型收斂問題提供內建規則，例如過度擬合、飽和啟動函式、消失梯度等。您也可以使用 Amazon CloudWatch Events 設定內建規則 AWS Lambda ，並針對偵測到的問題採取自動動作，以及設定 Amazon Simple Notification Service 接收電子郵件或簡訊通知。如需進一步了解，請參閱Amazon SageMaker Debugger。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

版本備註

SageMaker AI 中的 TensorBoard