偵錯並改善模型效能 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

偵錯並改善模型效能

訓練機器學習模型、深度學習神經網路、變壓器模型的本質在於實現穩定的模型融合,因此,模 state-of-the-art型具有數百萬、數十億或數兆個模型參數。在每次反覆執行期間,更新龐大數量的模型參數的操作次數很容易變成天文數字。若要識別模型收斂問題,必須能夠存取最佳化程序期間運算的模型參數、啟用和漸層。

Amazon SageMaker 提供兩種偵錯工具,可協助識別此類融合問題並取得模型的可見度。

Amazon SageMaker 與 TensorBoard

TensorBoard 為了提供與 SageMaker培訓平台中SageMaker 的開源社區工具更好的兼容性,請以域中的應用程序形式 SageMaker 託管。您可以將訓練工作帶到 SageMaker 並繼續使用 TensorBoard 摘要寫入器來收集模型輸出張量。由 TensorBoard 於已實作至SageMaker 網域中,因此它也提供了更多選項,可讓您在 AWS 帳戶中的 SageMaker 網域下管理使用者設定檔,並透過授與特定動作和資源的存取權來提供對使用者設定檔的精細控制。如需進一步了解,請參閱 用 TensorBoard 於偵錯和分析 Amazon 中的訓練任務 SageMaker

Amazon SageMaker 調試

Amazon SageMaker 調試器是一種功能,它提供 SageMaker 了一種工具來註冊鉤子到回調,以提取模型輸出張量並將其保存在 Amazon 簡單存儲服務中。它為偵測模型收斂問題提供內建規則,例如過度擬合、飽和啟動函數、消失梯度等。您也可以使用 Amazon E CloudWatch vents 設定內建規則,並 AWS Lambda 針對偵測到的問題採取自動化動作,並設定 Amazon 簡單通知服務以接收電子郵件或文字通知。如需進一步了解,請參閱使用 Amazon SageMaker 偵錯工具偵錯並改善模型效能