本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
6. 持續監控
在持續監控中,自動化程序會觀察和偵測效能問題和模型問題。然後,擁有者可以即時識別潛在的問題和威脅,以快速解決這些問題和威脅。
持續監控表面可能存在的模型問題,例如資料品質、分佈轉移、模型概念轉移和模型品質降低。持續監控也包括傳統系統測量的全面記錄,例如飽和度、延遲、流量和錯誤。實際的通知和提醒策略會設定為在發生問題時通知擁有者。
6.1 模型監控:資料品質偵測 |
規則型監控是用來了解傳入資料何時偏離模型訓練資料。這種類型的監控會從訓練資料建立結構描述,根據該結構描述設定限制,然後在發生違規時執行例外狀況。 |
6.2 模型監控:分佈轉移 |
監控設定為查看傳入的資料分佈,並檢查它是否未偏離模型訓練資料分佈。例如,傳入的資料會在 中取樣,做為推論資料的移動時段 |
6.3 模型監控:模型概念偏離 |
概念偏離檢查會尋找模型輸入與目標變數之間的關係,以與訓練資料保持不變。另一個檢查是確認相對功能及其重要性不會變更。 |
6.4 模型監控:模型評估檢查 |
這是監控檢查,可評估模型的品質是否已降低。模型評估檢查會將訓練時間的基準評估指標與傳入結果進行比較,以評估模型的準確度水準是否在新資料上降低。由於它會運算準確性指標,因此此檢查需要新資料的地面真相,才能在推論後使用。 |
6.5 系統擷取:輸入結構描述 |
ML 系統會擷取訓練、測試和驗證資料的結構描述。除了提供有關輸入的資訊,結構描述還提供有關其扭曲和完整性的統計資料。 結構描述用於生產環境中的立即測試和資料品質監控檢查。 |
6.6 系統擷取:評估結果和統計資料 |
ML 系統會輸出驗證和訓練資料的準確性資訊。它可以從驗證和訓練執行中輸出預測和真實標籤。這些會做為即時生產模型的監控限制條件。 |
6.7 系統擷取:異常 |
有適當的追蹤機制來標記傳入資料串流中的異常。如果傳入資料中發生極端值,或如果在指定的時間範圍內,金鑰特徵分佈變更,系統會將此視為異常並予以標記。 |
6.8 記錄:飽和和資源 |
已針對系統的完整程度進行記錄。資源和飽和指標應著重於 CPU 使用率、圖形處理單元 (GPU) 使用率、記憶體使用率和磁碟使用率。這些指標應該以時間序列格式提供,並能夠以百分位數為單位進行測量。對於批次任務,這提供輸送量的資訊,顯示系統在每個時間量中可以處理的資訊單位數量。 |
6.9 記錄:延遲 |
應建立日誌記錄,以測量網路通訊的延遲,或是服務請求所需的時間。工程師應該能夠判斷推論模型提供預測所需的時間,以及模型載入所需的時間。 |
6.10 記錄:流量 |
流量的記錄設定會測量每個執行個體上的流量。流量的測量方式是 HTTP 請求數量,以及在特定時間內傳送或接收的位元組或封包數量。記錄流量可提供對放置在系統上之總工作負載的洞見。 |
6.11 記錄:錯誤 |
錯誤的記錄設定會擷取失敗的請求數目。失敗類型如下:
如果通訊協定回應代碼不足以表達所有失敗條件,則可能需要次要 (內部) 通訊協定來追蹤部分失敗模式。 |
6.12 通知和提醒 |
通知和提醒是從監控設定。通知包括取得 Slack、電子郵件通知、頁面和簡訊服務 (SMS) 訊息的功能。提醒並不表示傳送所有可能違規的通知。相反地,這表示將提醒設定為對開發團隊有意義且重要的特定例外狀況。如此一來,可避免警示疲勞。 |