7. 持續部署 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

7. 持續部署

若要讓 ML 系統持續部署,它必須能夠將流量從即時模型轉移或在即時模型之間轉移。持續部署的系統具有至少一種提升模型生產的方式:Canary、陰影、藍/綠或 A/B。 確認在 ML 系統中,您至少有一個復原模型的方法。

7.1 模型切換

系統可以在預備和生產中切換版本化模型。它可以一次將所有流量全部轉移或累加轉移到新的生產變體。

7.2 模型提升程序

模型提升有階段式驗證程序。程序使用不影響生產系統的離線測試,例如在預備環境中針對驗證資料執行 。已設定模型提升的 Runbook 和指標。提升遵循其中一個推展策略。

7.3 回復策略

復原策略存在,因此當發生錯誤或模型偏離預期行為時,會發生復原、復原或復原。在復原中,模型會還原至先前的部署版本。在後援中,模型會替換為強烈的啟發式。滾動到 會將下一個模型提升為生產,並滾動到先前的模型。所有這些策略都有 Runbook。

7.4 Canary 部署

系統可以使用 Canary 部署。一小部分流量一開始會傳送至新模型。隨著時間的推移,所有流量都會轉移到新模型。此轉移會受到密切監控,因為測試發生在生產環境中。

7.5 模型陰影部署

系統可以執行陰影部署,其中新模型可與現有模型搭配使用。這兩種模型都會接收流量,但只會接收較早的模型輸出推論。與現有模型相比,評估會在新模型上執行,然後手動提升新模型。

7.6 藍/綠部署

系統可以使用新模型 (綠色,這是預備) 和較早模型 (藍色,也就是生產) 部署,兩者同時執行。測試完成後,流量會從藍色環境轉移到綠色環境。此策略可避免停機時間,因為相同的環境已完好無損。

7.7 支援 A/B 測試或更高

系統支援在部署的環境中使用模型版本,對傳入流量執行 A/B 測試。這可能包括根據較新的模型在測試中獲勝來自動提升的能力。更進階的設定將使用多設防綁定程序。