本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
偵錯和改善模型效能
訓練機器學習模型、深度學習神經網路、轉換器模型的核心在於實現穩定的模型收斂,因此,最先進的模型具有數百萬、數十億或數兆個模型參數。在每次反覆執行期間,更新龐大數量的模型參數的操作次數很容易變成天文數字。若要識別模型收斂問題,必須能夠存取最佳化程序期間運算的模型參數、啟用和漸層。
Amazon SageMaker AI 提供兩種偵錯工具,可協助識別此類收斂問題,並取得模型的可見性。
Amazon SageMaker AI 搭配 TensorBoard
為了與 SageMaker AI Training 平台中的開放原始碼社群工具提供更高的相容性,SageMaker AI 將 TensorBoard 託管為 SageMaker AI 網域中的應用程式。您可以將訓練任務帶到 SageMaker AI,並繼續使用 TensorBoard 摘要寫入器來收集模型輸出張量。由於 TensorBoard 已實作至 SageMaker AI 網域,因此它也提供您更多選項來管理您 AWS 帳戶中 SageMaker AI 網域下的使用者設定檔,並透過授予對特定動作和資源的存取權,對使用者設定檔提供精細的控制。如需進一步了解,請參閱 Amazon SageMaker AI 中的 TensorBoard 。
Amazon SageMaker Debugger
Amazon SageMaker Debugger 是 SageMaker AI 的一項功能,提供工具來註冊回呼的勾點,以擷取模型輸出張量並將其儲存在 Amazon Simple Storage Service 中。它為偵測模型收斂問題提供內建規則,例如過度擬合、飽和啟動函式、消失梯度等。您也可以使用 Amazon CloudWatch Events 設定內建規則 AWS Lambda ,並針對偵測到的問題採取自動動作,以及設定 Amazon Simple Notification Service 接收電子郵件或簡訊通知。如需進一步了解,請參閱Amazon SageMaker Debugger。