7. 持續部署 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

7. 持續部署

若要持續部署 ML 系統,它必須能夠在即時模型之間轉移流量。持續部署的系統至少有一種將模型升級為生產環境的方式:Canary、陰影、藍/綠或 A/B。請確認在 ML 系統中,您至少有一種倒回模型的方式。

7.1 模型切換

系統可以在暫存和生產過程中在版本化模型之間切換。它可以一次將流量全部轉移,也可以逐步轉移到新的生產變體。

7.2 模型推廣流程

已針對模型促銷進行暫存驗證處理。此程序使用不會影響生產系統的離線測試,例如針對測試環境中的驗證資料執行。設置了模型推廣的手冊和指標。推廣遵循其中一個推出策略。

7.3 回滾策略

存在復原策略,因此當發生錯誤或模型偏離預期的行為時,就會發生回復、後援或滾存。在復原中,模型會還原為先前的部署版本。在後援中,模型會被強式啟發式取代。翻閱會將下一個模型推進到生產環境中,並在之前的模型中滾動。手冊適用於所有這些策略。

7.4 金絲雀部署

系統可以使用初期測試進行部署。一小部分流量最初會傳送至新模型。隨著時間的推移,所有流量都會轉移到新模型。由於測試是在生產環境中進行的,因此受到密切監控此變化。

7.5 模型陰影部署

系統可以執行陰影部署,其中新模型與現有模型一起運作。這兩個模型都會接收流量,但只有先前的模型輸出推論。系統會在新模型上執行與現有模型進行比較的評估,然後手動升級新模型。

7.6 藍色/綠色部署

系統可以使用新模型(綠色,即暫存模型)和較早的模型(藍色,即生產模式)進行部署,兩者都同時運行。測試完成後,流量將從藍色環境轉移到綠色環境。這種策略可以防止停機,因為相同的環境會站起來。

7.7 支援 A/B 測試或以上

系統支援在部署的環境中使用模型版本,對傳入流量執行 A/B 測試。這可能包括根據在測試中獲勝的較新模型自動提升的能力。更高級的設置將使用多臂土匪過程。