4. 強大的管道和提升 - AWS 方案指引

4. 強大的管道和提升

管道提供許多超參數調校、AutoML 和處理常式的選項。管道會從端對端記錄。強大的管道可以在多個執行個體和架構之間平行執行訓練，並視需要擴展負載大小。強大的管道可以將模型提升為生產、即時部署、串流和批次處理。這些部署可以支援單一模型或多模型推論。

4.1 大規模和分散式訓練	成熟 ML 系統支援在大型運算最佳化執行個體上平行執行訓練。它具有適當的工具，有助於確保這些資源已完全使用，並且訓練平均地擴展到運算叢集。
4.2 支援多個架構	開發人員可以移植不同的平台架構，例如 PyTorch 或 Flax，以執行訓練和推論任務。同樣地，也支援和使用不同的語言和版本。切換到另一個架構不會中斷系統。
4.3 超參數調校	超參數調校步驟是訓練管道的一部分。部署的模型會調校超參數。有多種選項可用於調校超參數。為了提高準確性，至少一個調校選項應該具有貝葉斯推論或方法。
4.4 AutoML 選項	為了減少手動實驗和比較，成熟 ML 系統支援執行 AutoML，自動選取最佳的特徵管道、超參數和模型。請注意，AutoML 是一項實用使用的功能，但它不是槌類。
4.5 推論支援：即時	這通常稱為模型即服務 (MaaS)。系統支援使用 REST API 操作進行即時推論，以隨需進行推論請求。它可以運送 MaaS 基礎設施，模型可以在其上以獨立 API 或與其他應用程式相關聯的端點水平和垂直擴展。或者，您可以使用無伺服器技術進行部署。
4.6 推論支援：串流	模型可以提升為即時推論格式，例如 Amazon Kinesis 或 Amazon Managed Streaming for Apache Kafka，藉此在模型上以串流方式執行推論。這需要至少 90% 的檢查清單才能完成，因為護欄、可觀測性和監控對於即時推論至關重要。
4.7 推論支援：批次	系統支援將模型批次部署為排程或啟動的任務。系統可在擷取、轉換和載入 (ETL) 程序或隔離中執行模型。批次任務會記錄每個步驟的狀態，並以有序模式執行，例如定向非循環圖形。或者，任務可以寫入資料庫，做為模型推論的伺服器。
4.8 預處理和後處理常式	需要時，資料會作為模型接收程序或批次任務的一部分進行特徵化。如果有多個模型或多個步驟正在播放，後置處理常式會負責將資料化。
4.9 能夠調用階層或同時模型	ML 系統可以一起部署許多模型，或以循序方式執行這些模型。前者表示在資源機群的單一模型端點上託管。後者表示多個模型需要依序以鏈結方式執行。系統可以彈性地處理這兩種類型的複雜性。
4.10 水平和垂直擴展策略	管道應能夠支援兩種類型的擴展策略，以進行訓練和推論。ML 系統可以增加其大小，並在延遲或輸送量增加時將流量分散到多個機器。已設定此類型行為的政策，並考慮最佳資源配置。
4.11 End-to-end記錄	開發團隊應該在所有管道程式碼內設定記錄，以便記錄可以擷取系統中的輸入、輸出和中繼步驟。記錄應支援管道中的追蹤執行和偵錯錯誤。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

3. 可觀測性和模型管理

5. 持續整合