部署和自动化 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

部署和自动化

问题

响应示例

扩展和负载平衡的要求是什么?

智能请求路由;自动扩展系统;通过采用模型缓存、延迟加载和分布式存储系统等技术来优化快速冷启动;设计系统以处理突发的、不可预测的流量模式。

更新和推出新版本有什么要求?

蓝/绿部署、金丝雀版本、滚动更新等。

灾难恢复和业务连续性的要求是什么?

Backup 和恢复程序、故障转移机制、高可用性配置等。

自动化生成式 AI 模型的训练、部署和管理有哪些要求?

自动训练管道、持续部署、自动扩展等。

随着新数据的出现,生成式人工智能模型将如何更新和重新训练?

通过定期再训练、增量学习、迁移学习等。

自动化监控和管理的要求是什么?

自动警报、自动扩展、自我修复等。

对于生成式 AI 工作负载,您首选的部署环境是什么?

一种混合方法,它使用 AWS 进行模型训练,使用我们的本地基础设施进行推理,以满足数据驻留要求。

对于生成式 AI 部署,你更喜欢哪些特定的云平台吗?

AWS 服务,尤其是用于模型开发和部署的 SageMaker Amazon AI,以及用于基础模型的 Amazon Bedrock。

对于生成式 AI 工作负载,您正在考虑使用哪些容器化技术?

我们希望在使用 Kubernetes 编排的 Docker 容器上实现标准化,以确保混合环境中的可移植性和可扩展性。

在你的生成人工智能管道中,你有首选的 CI/CD 工具吗?

GitLab 用于版本控制和 CI/CD 管道,与 Jenkins 集成,用于自动测试和部署。

您正在考虑使用哪些编排工具来管理生成式 AI 工作流程?

Apache Airflow 用于工作流程编排,特别是用于数据预处理和模型训练管道。

您对支持生成式 AI 工作负载的本地基础设施有什么具体要求吗?

我们正在投资 GPU 加速的服务器和高速网络,以支持本地推理工作负载。

您计划如何管理不同环境中的模型版本控制和部署?

我们计划使用 MLflow 模型跟踪和版本控制,并将其与我们的 Kubernetes 基础架构集成,以便跨环境进行无缝部署。

您正在考虑使用哪些监控和可观察性工具进行生成式 AI 部署?

Prometheus 用于指标收集,Grafana 用于可视化,还有用于特定模型监控的其他自定义日志解决方案。

您如何解决混合部署模式中的数据移动和同步问题?

我们将使用 AWS DataSync 本地存储和根据训练周期安排的自动同步作业 AWS,在本地存储之间进行高效的数据传输。

您正在为跨不同环境的生成式 AI 部署实施哪些安全措施?

我们将将 IAM 用于云资源,并将其与本地 Active Directory 集成,以实现 end-to-end加密和网络分段,以保护数据流。