本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
部署和自動化
問題 |
回應範例 |
---|---|
擴展和負載平衡有哪些需求? |
智慧請求路由;自動擴展系統;透過採用模型快取、延遲載入和分散式儲存系統等技術來最佳化快速冷啟動;設計系統來處理爆量、無法預測的流量模式。 |
更新和推出新版本有哪些要求? |
藍/綠部署、金絲雀版本、滾動更新等。 |
災難復原和業務持續性有哪些要求? |
備份和還原程序、容錯移轉機制、高可用性組態等。 |
自動化生成式 AI 模型的訓練、部署和管理有哪些需求? |
自動化訓練管道、持續部署、自動擴展等。 |
當有新資料可用時,如何更新和重新訓練生成式 AI 模型? |
透過定期重新訓練、增量學習、遷移學習等。 |
自動化監控和管理的需求是什麼? |
自動化提醒、自動擴展、自我修復等。 |
對於生成式 AI 工作負載,您偏好的部署環境是什麼? |
一種混合方法,使用 AWS 進行模型訓練,使用我們的內部部署基礎設施進行推論,以滿足資料駐留需求。 |
是否有任何您偏好用於生成式 AI 部署的特定雲端平台? |
AWS 服務,特別是用於模型開發和部署的 Amazon SageMaker AI,以及用於基礎模型的 Amazon Bedrock。 |
您正在考慮將哪些容器化技術用於生成式 AI 工作負載? |
我們希望標準化與 Kubernetes 協調的 Docker 容器,以確保混合環境中的可攜性和可擴展性。 |
在生成式 AI 管道中,您是否有任何偏好的 CI/CD 工具? |
用於版本控制和 CI/CD 管道的 GitLab,與 Jenkins 整合,用於自動化測試和部署。 |
您考慮使用哪些協同運作工具來管理生成式 AI 工作流程? |
工作流程協同運作的 Apache Airflow,特別是資料預先處理和模型訓練管道。 |
對於支援生成式 AI 工作負載的內部部署基礎設施,您是否有任何特定需求? |
我們投資於 GPU 加速伺服器和高速聯網,以支援內部部署推論工作負載。 |
您打算如何管理跨不同環境的模型版本控制和部署? |
我們計劃使用 MLflow 進行模型追蹤和版本控制,並將其與 Kubernetes 基礎設施整合,以跨環境無縫部署。 |
您正在考慮哪些用於生成式 AI 部署的監控和可觀測性工具? |
用於指標收集的 Prometheus 和用於視覺化的 Grafana,以及用於模型特定監控的其他自訂記錄解決方案。 |
您如何解決混合部署模型中的資料移動和同步問題? |
我們將使用 在現場部署儲存與 之間進行有效率 AWS DataSync 的資料傳輸 AWS,以及根據我們的訓練週期排程的自動同步任務。 |
您要針對跨不同環境的生成式 AI 部署實作哪些安全措施? |
我們會將 IAM 用於雲端資源,與內部部署 Active Directory 整合,以實作end-to-end加密和網路分割,以保護資料流程。 |