本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
4. 強大的管道和提升
管道提供許多超參數調校、AutoML 和處理常式的選項。管道會從端對端記錄。強大的管道可以在多個執行個體和架構之間平行執行訓練,並視需要擴展負載大小。強大的管道可以將模型提升為生產、即時部署、串流和批次處理。這些部署可以支援單一模型或多模型推論。
4.1 大規模和分散式訓練 |
成熟 ML 系統支援在大型運算最佳化執行個體上平行執行訓練。它具有適當的工具,有助於確保這些資源已完全使用,並且訓練平均地擴展到運算叢集。 |
4.2 支援多個架構 |
開發人員可以移植不同的平台架構,例如 PyTorch 或 Flax,以執行訓練和推論任務。同樣地,也支援和使用不同的語言和版本。切換到另一個架構不會中斷系統。 |
4.3 超參數調校 |
超參數調校步驟是訓練管道的一部分。部署的模型會調校超參數。有多種選項可用於調校超參數。為了提高準確性,至少一個調校選項應該具有貝葉斯推論或方法。 |
4.4 AutoML 選項 |
為了減少手動實驗和比較,成熟 ML 系統支援執行 AutoML,自動選取最佳的特徵管道、超參數和模型。請注意,AutoML 是一項實用使用的功能,但它不是槌類。 |
4.5 推論支援:即時 |
這通常稱為模型即服務 (MaaS)。系統支援使用 REST API 操作進行即時推論,以隨需進行推論請求。它可以運送 MaaS 基礎設施,模型可以在其上以獨立 API 或與其他應用程式相關聯的端點水平和垂直擴展。或者,您可以使用無伺服器技術進行部署。 |
4.6 推論支援:串流 |
模型可以提升為即時推論格式,例如 Amazon Kinesis 或 Amazon Managed Streaming for Apache Kafka,藉此在模型上以串流方式執行推論。這需要至少 90% 的檢查清單才能完成,因為護欄、可觀測性和監控對於即時推論至關重要。 |
4.7 推論支援:批次 |
系統支援將模型批次部署為排程或啟動的任務。系統可在擷取、轉換和載入 (ETL) 程序或隔離中執行模型。批次任務會記錄每個步驟的狀態,並以有序模式執行,例如定向非循環圖形。或者,任務可以寫入資料庫,做為模型推論的伺服器。 |
4.8 預處理和後處理常式 |
需要時,資料會作為模型接收程序或批次任務的一部分進行特徵化。如果有多個模型或多個步驟正在播放,後置處理常式會負責將資料化。 |
4.9 能夠調用階層或同時模型 |
ML 系統可以一起部署許多模型,或以循序方式執行這些模型。前者表示在資源機群的單一模型端點上託管。後者表示多個模型需要依序以鏈結方式執行。系統可以彈性地處理這兩種類型的複雜性。 |
4.10 水平和垂直擴展策略 |
管道應能夠支援兩種類型的擴展策略,以進行訓練和推論。ML 系統可以增加其大小,並在延遲或輸送量增加時將流量分散到多個機器。已設定此類型行為的政策,並考慮最佳資源配置。 |
4.11 End-to-end記錄 |
開發團隊應該在所有管道程式碼內設定記錄,以便記錄可以擷取系統中的輸入、輸出和中繼步驟。記錄應支援管道中的追蹤執行和偵錯錯誤。 |