6. 持續監控 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

6. 持續監控

在持續監控中,自動化程序會觀察並偵測效能問題和模型問題。然後,所有者可以實時識別潛在問題和威脅,以快速解決這些問題。

持續監控表面可能出現的模型問題,例如資料品質、分佈偏移、模型概念轉移和模型品質降級。持續監控還包括對傳統系統措施的全面記錄,例如飽和度、延遲、流量和錯誤。設置實用的通知和警報策略,以便在出現問題時通知所有者。

6.1 模型監控:數據質量檢測

基於規則的監控可以知道傳入的資料何時偏離模型訓練資料。這種類型的監視會從訓練資料建立結構描述、根據該結構描述設定條件約束,然後在發生違規時執行例外狀況。

6.2 模型監控:分佈偏移

將監視設定為查看傳入的資料分佈,並檢查其是否未偏離模型訓練資料分佈。例如,對引入資料進行取樣作為移動窗口超過推論資料。然後會執行工作以測試取樣的散發和訓練發行版,以查看它們是否相同。

6.3 模型監控:模型概念漂移

概念漂移檢查會尋找模型輸入與目標變數之間的關係,使其與訓練資料保持不變。另外檢查是確認相對功能及其重要性不會改變。

6.4 模型監控:模型評估檢查

這是一項監測檢查,用於評估模型的品質是否降低。模型評估檢查會將訓練時間的基準評估指標與傳入的結果進行比較,以評估新資料上模型的準確度是否降低。因為它會計算準確度量,因此此檢查需要在推論後提供新資料的基本真相。

6.5 系統擷取:輸入結構描述

ML 系統會擷取訓練、測試和驗證資料的結構描述。除了提供有關輸入的資訊外,結構描述還提供有關其偏斜和完整性的統計資料。  結構描述用於在生產中立即測試和數據質量監控檢查。

6.6 系統捕獲:評估結果和統計

ML 系統會輸出有關驗證和訓練資料的準確性資訊。它可以從驗證和訓練運行中輸出預測和真實標籤。這些可用作即時生產模型的監視限制。

6.7 系統捕獲:異常

有一種追蹤機制可標記傳入資料串流中的異常情況。如果傳入資料中發生異常值,或者在指定的時間範圍內發生了變更,則系統會將其識別為異常值並將其標記為異常值。

6.8 日誌記錄:飽和度和資源

有登錄到位,以了解系統的完整程度。資源和飽和度指標應著重於 CPU 使用率、圖形處理單元 (GPU) 使用率、記憶體使用率和磁碟使用率。這些指標應以時間序列格式提供,並且能夠以百分位數進行測量。對於批次工作,這會提供輸送量的相關資訊,顯示系統在每個時間內可以處理多少個資訊單位。

6.9 日誌記錄:延遲

記錄應該到位來衡量網絡通信的延遲或服務請求所花費的時間。工程師應該能夠判斷推論模型需要多長時間來提供預測,以及模型載入所需的時間。

6.10 記錄日誌記錄:流量

流量的記錄設定會測量每個執行個體上的流量。流量是根據 HTTP 要求數量以及在特定時間內傳送或接收的位元組或封包數量來衡量。記錄流量提供了放置在系統上的總工作負載的見解。

6.11 記錄檔案:發生錯誤

錯誤的記錄設定會擷取失敗的要求數目。失敗有以下幾種類型:

  • 明確的 (例如,HTTP 500 錯誤)

  • 隱含(例如,與錯誤內容相結合的 HTTP 200 成功響應)

  • 原則 (例如,如果您提交至一秒鐘的回應時間,超過一秒的任何要求都是錯誤)

當通訊協定回應碼不足以表示所有失敗狀況時,輔助 (內部) 通訊協定可能需要追蹤部分失敗模式。

6.12 通知與警示

通知和警示是透過監視設定的。通知包括取得 Slack、電子郵件通知、頁面和短訊服務 (SMS) 訊息的功能。警示並不意味著針對所有可能的違規傳送通知。相反,這意味著將警報設置為對開發團隊有意義且重要的特定異常狀況。通過這種方式,可以避免警報疲勞。