3. 可觀察性和模型管理 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

3. 可觀察性和模型管理

檢查清單的可觀察性和模型管理部分包含整個 ML 系統的模型版本控制和線程追蹤。模型版本控制有助於追蹤和控制套用至模型的所有變更,以便您可以在需要時復原先前的版本。歷程追蹤可讓您檢視模型流入和流出量。歷程追蹤的另一個主要好處是point-in-time復原 (PITR),可自動化部署和系統復原。

3.1 版本化的模型註冊表

一般而言,模型登錄支援模型元件的版本控制和歷程追蹤。良好的註冊表可以將元數據與版本化模型相關聯,包括以下內容:

  • 使用的數據

  • 關於模型的信息

  • 評估量度結果

  • 關聯的模型代碼

3.2 偏見,公平和解釋性

至少,ML 系統應該具有一個過程,即模型的預測可以向其他方解釋。用戶應該能夠根據每個功能檢查結果是否存在偏差。理想情況下,在將資料輸入 ML 模型之前測量資料偏差,並記錄這些指標以供模型卡和稽核之用。

3.3 歷程追蹤:資料輸入和輸出

追蹤功能可追蹤系統內外的資料流程 (例如,從資料湖執行至訓練管線)。此追蹤作為可重新建立所有系統處理作業的記錄,並提供稽核追蹤以供分析。

3.4 歷程追蹤:環境資訊

此追蹤會擷取執行階段環境設定的相關資訊,例如所有模型程式碼的容器映像,以及容器關聯的相依性。

3.5 血統追蹤:模型

此追蹤會擷取有關模型的資訊。它包括從模型演算法的資訊到進入模型的參數和超參數等所有內容。

3.6 與部署和監控整合

系統應與 PITR 的監控和部署子系統直接連結。對於監控,這意味著根據訓練執行測試模型的效能,以偵測模型品質的劣化情況。對於部署,這支援 PITR,並可視需要復原至先前的模型版本。

3.7 管道參數配置

從技術上講,管線參數配置屬於歷程跟踪和實驗跟踪,因為管道配置必須進行版本化並直接與模型相關聯。本節列出了 Pipeline 參數組態,因為必須追蹤所有系統協調設定並對其進行版本。

3.8 問題是可追蹤、可除錯且可重現的。

工程師可以輕鬆追蹤、偵錯和重現系統內的所有問題。這意味著足夠的可觀測性水平已經到位。此檢查主要衍生自履行「可觀測性與模型管理」區段下的其他項目。

3.9 效能視覺化

系統可以擷取記錄並收集成時間序列資料庫類型格式,並將其直接擷取到儀表板中。儀表板提供模型和電腦指標的整體檢視,並具備深入研究和查詢功能。