3. 可觀測性和模型管理 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

3. 可觀測性和模型管理

檢查清單的可觀測性與模型管理區段包含整個 ML 系統的模型版本控制和拼貼追蹤。模型版本控制有助於追蹤和控制套用至模型的所有變更,以便您可以在需要時復原先前的版本。譜系追蹤提供模型流入和流出的檢視。譜系追蹤的另一個主要優點是point-in-time(PITR),可自動化部署和系統復原。

3.1 版本化模型登錄

一般而言,模型登錄檔支援模型元件的版本控制和譜系追蹤。良好的登錄檔可以將中繼資料與版本控制模型建立關聯,包括下列項目:

  • 使用的資料

  • 模型的相關資訊

  • 評估指標結果

  • 關聯的模型程式碼

3.2 偏差、公平性和可解釋性

ML 系統至少應該有一個程序,讓模型的預測可以向其他方解釋。使用者應該能夠檢查每個功能的結果是否有偏差。理想情況下,在將資料輸入 ML 模型之前測量資料偏差,並記錄模型卡和稽核的這些指標。

3.3 Lineage 追蹤:資料輸入和輸出

有適當的追蹤,以遵循進出系統的資料流程 (例如,從資料湖執行到訓練管道)。此追蹤會做為記錄,可從中重新建立所有系統程序,並提供稽核線索以供分析。

3.4 Lineage 追蹤:環境資訊

此追蹤會擷取執行期環境設定的相關資訊,例如所有模型程式碼的容器映像,以及容器的相關相依性。

3.5 Lineage 追蹤:模型

此追蹤會擷取模型的相關資訊。它包含從模型演算法的資訊到進入模型的參數和超參數。

3.6 與部署和監控整合

系統應該直接與 PITR 的監控和部署子系統連結。對於監控,這表示針對模型的訓練執行測試模型的效能,以偵測模型品質的劣化。對於部署,這支援 PITR 和視需要復原至先前模型版本的功能。

3.7 管道參數組態

在技術上,管道參數組態同時屬於譜系追蹤和實驗追蹤,因為管道組態必須進行版本控制,並直接與模型建立關聯。管道參數組態列於本節中,因為追蹤所有系統協調組態並對其進行版本非常重要。

3.8 問題可追蹤、可偵錯和可重現。

工程師可以追蹤、偵錯和重現系統中的所有問題,而不需耗費太多心力。這表示有足夠程度的可觀測性。此檢查主要衍生自滿足可觀測性和模型管理區段下的其他項目。

3.9 效能視覺化

系統可以將日誌擷取為時間序列資料庫類型格式,並直接擷取至儀表板。儀表板提供模型和電腦指標的整體檢視,並能夠深入探索和查詢。