4. 強大的管道和推廣 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

4. 強大的管道和推廣

管線為超參數調整、AutoML 和處理常式提供了許多選項。管道從端到端記錄。強大的管道可以在多個執行個體和架構之間平行執行訓練,並視需要調整負載大小。強大的管道可以將模型推進到生產環境中、即時部署、串流和批次處理。這些部署可支援單一模型或多模型推論。

4.1 大規模和分佈式培訓

成熟的 ML 系統支援在大型運算最佳化執行個體上同時執行訓練的能力。它具有適當的工具,可協助確保這些資源已完全使用,並且訓練可在整個運算叢集中平均擴充。

4.2 支援多種架構

開發人員可以移植不同的平台框架,例如PyTorch或亞麻,運行培訓和推論工作。同樣,支持和可用的不同語言和版本。切換到另一個框架不會破壞系統。

4.3 超參數調整

超參數調整步驟是訓練管線的一部分。已部署的模型會調整其超參數。有多個選項可用於調整超參數。為了提高精度,至少有一個調整選項應具有貝葉斯推論或方法。

4.4 自動 ML 選項

為了減少手動實驗和比較,成熟的 ML 系統支援執行 AutoML,自動選取最佳的特徵管線、超參數和模型。請注意,AutoML 是務實使用的功能,但它不是萬能藥。

4.5 推論支持:實時

這通常被稱為模型即服務(MaaS)。系統支援使用 REST API 作業的即時推論,可依需求提供推論要求。它能夠運送 MaaS 基礎結構,該模型可以水平和垂直擴展為獨立 API 或作為與其他應用程序關聯的端點。或者,也可以使用無伺服器技術進行部署。

4.6 推論支援:串流

模型可以提升為即時推論格式,例如 Amazon Kinesis 或適用於 Apache Kafka 的亞馬遜受管串流,藉此推論會在模型上以串流方式執行。這需要至少 90% 的檢查清單才能完成,因為護欄、可觀測性和監控對於即時推論至關重要。

4.7 推論支援:批次

系統支援以排程或起始工作的形式批次部署模型。系統可以在擷取、轉換和載入 (ETL) 程序中或隔離執行模型。批次處理作業會記錄每個步驟的狀態,並以排序模式執行,例如有向的無循環圖。或者,工作可以寫入資料庫,該資料庫充當模型推論的伺服器。

4.8 預處理和後處理常式

需要時,資料會特徵化為模型導入程序或批次工作的一部分。如果有多個模型或多個步驟正在播放,後處理常式會處理資料的特徵化。

4.9 能夠調用分層或同時模型

ML 系統可以部署許多模型在一起或以連續的方式運行它們。前者表示託管跨資源的單一模型端點。後者意味著多個模型需要一個接一個地以鏈接的方式運行。該系統可以彈性地處理這兩種類型的複雜性。

4.10 水平和垂直縮放策略

管道應該能夠支援這兩種類型的擴展策略,以進行訓練和推論。ML 系統可以增加其大小,並在延遲或輸送量增加時將流量分配到多台機器之間。這種行為類型的策略已設置,並考慮最佳的資源配置。

4.11 端對端記錄

開發團隊應該在所有管線代碼中設置日誌記錄,以便日誌記錄可以捕獲系統中的輸入,輸出和中間步驟。記錄應支援管線中的追蹤執行和偵錯錯誤。