部署和自動化 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

部署和自動化

問題

回應範例

擴展和負載平衡有哪些需求?

智慧請求路由;自動擴展系統;透過採用模型快取、延遲載入和分散式儲存系統等技術來最佳化快速冷啟動;設計系統來處理爆量、無法預測的流量模式。

更新和推出新版本有哪些要求?

藍/綠部署、金絲雀版本、滾動更新等。

災難復原和業務持續性有哪些要求?

備份和還原程序、容錯移轉機制、高可用性組態等。

自動化生成式 AI 模型的訓練、部署和管理有哪些需求?

自動化訓練管道、持續部署、自動擴展等。

當有新資料可用時,如何更新和重新訓練生成式 AI 模型?

透過定期重新訓練、增量學習、遷移學習等。

自動化監控和管理的需求是什麼?

自動化提醒、自動擴展、自我修復等。

對於生成式 AI 工作負載,您偏好的部署環境是什麼?

一種混合方法,使用 AWS 進行模型訓練,使用我們的內部部署基礎設施進行推論,以滿足資料駐留需求。

是否有任何您偏好用於生成式 AI 部署的特定雲端平台?

AWS 服務,特別是用於模型開發和部署的 Amazon SageMaker AI,以及用於基礎模型的 Amazon Bedrock。

您正在考慮將哪些容器化技術用於生成式 AI 工作負載?

我們希望標準化與 Kubernetes 協調的 Docker 容器,以確保混合環境中的可攜性和可擴展性。

在生成式 AI 管道中,您是否有任何偏好的 CI/CD 工具?

用於版本控制和 CI/CD 管道的 GitLab,與 Jenkins 整合,用於自動化測試和部署。

您考慮使用哪些協同運作工具來管理生成式 AI 工作流程?

工作流程協同運作的 Apache Airflow,特別是資料預先處理和模型訓練管道。

對於支援生成式 AI 工作負載的內部部署基礎設施,您是否有任何特定需求?

我們投資於 GPU 加速伺服器和高速聯網,以支援內部部署推論工作負載。

您打算如何管理跨不同環境的模型版本控制和部署?

我們計劃使用 MLflow 進行模型追蹤和版本控制,並將其與 Kubernetes 基礎設施整合,以跨環境無縫部署。

您正在考慮哪些用於生成式 AI 部署的監控和可觀測性工具?

用於指標收集的 Prometheus 和用於視覺化的 Grafana,以及用於模型特定監控的其他自訂記錄解決方案。

您如何解決混合部署模型中的資料移動和同步問題?

我們將使用 在現場部署儲存與 之間進行有效率 AWS DataSync 的資料傳輸 AWS,以及根據我們的訓練週期排程的自動同步任務。

您要針對跨不同環境的生成式 AI 部署實作哪些安全措施?

我們會將 IAM 用於雲端資源,與內部部署 Active Directory 整合,以實作end-to-end加密和網路分割,以保護資料流程。