帮助改进此页面
要帮助改进本用户指南,请选择位于每个页面右侧窗格中的在 GitHub 上编辑此页面链接。
在 Amazon EKS 上开始使用人工智能/机器学习的资源
要在 EKS 上部署机器学习,首先要从这些规范模式中进行选择,让 EKS 集群和机器学习软件和硬件快速准备就绪,以开始运行机器学习工作负载。
研讨会
Amazon EKS 上的生成式人工智能讲习会
了解如何在 Amazon EKS 上开始使用大语言模型(LLM)应用程序和推理。探索如何部署和管理生产级 LLM 工作负载。通过动手实验,您将探索如何利用 Amazon EKS 以及 AWS 服务和开源工具来创建强大的 LLM 解决方案。讲习会环境提供了所有必要的基础设施和工具,使您可以专注于学习和实施。
使用神经元在 Amazon EKS 上实现生成式人工智能
了解如何在 Amazon EKS 上开始使用大语言模型(LLM)应用程序和推理。探索如何部署和管理生产级 LLM 工作负载,使用向量数据库实现高级 RAG 模式,以及如何使用开源框架构建数据支持的 LLM 应用程序。通过动手实验,您将探索如何利用 Amazon EKS 以及 AWS 服务和开源工具来创建强大的 LLM 解决方案。讲习会环境提供了所有必要的基础设施和工具,使您可以专注于学习和实施。
最佳实践
Amazon EKS 最佳实践指南中重点介绍人工智能/机器学习的主题提供了以下领域的详细建议,以优化您在 Amazon EKS 上的人工智能/机器学习工作负载。
人工智能/机器学习计算和自动扩展
本节概述了在 Amazon EKS 中优化人工智能/机器学习计算和自动扩展的最佳实践,重点介绍 GPU 资源管理、节点恢复能力和应用程序扩展。内容包括各种策略,例如调度带有知名标签和节点亲和性的工作负载、使用机器学习容量块或按需容量预留,以及使用 EKS 节点监控代理等工具实施节点运行状况检查。
人工智能/机器学习联网
本节概述了优化 Amazon EKS 中的人工智能/机器学习联网以提高性能和可扩展性的最佳实践,包括选择网络带宽更高或支持 Elastic Fabric Adapter(EFA)的实例进行分布式训练、安装 MPI 和 NCCL 等工具,以及启用前缀委派以增加 IP 地址和缩短容器组(pod)启动时间等策略。
人工智能/机器学习安全性
本节重点介绍如何保护数据存储和确保 Amazon EKS 上人工智能/机器学习工作负载的合规性,包括以下实践:使用带有 AWS Key Management Service(KMS)的 Amazon S3 进行服务器端加密(SSE-KMS),使用区域 KMS 密钥和 S3 存储桶密钥配置存储桶以降低成本,授予 EKS 容器组(pod)解密等 KMS 操作的 IAM 权限,以及使用 AWS CloudTrail 日志进行审计。
人工智能/机器学习存储
本节提供在 Amazon EKS 上的人工智能/机器学习工作负载中优化存储的最佳实践,包括以下实践:使用 CSI 驱动程序部署模型以将 S3、FSx for Lustre 或 EFS 等服务挂载为持久性卷,根据工作负载需求选择存储(例如,使用 FSx for Lustre 进行分布式训练,并提供 Scratch-SSD 或 Persistent-SSD 等选项),以及启用数据压缩和条带化等功能。
人工智能/机器学习可观测性
本节重点介绍如何监控和优化 Amazon EKS 上人工智能/机器学习工作负载的 GPU 利用率以提高效率和降低成本,包括针对高 GPU 使用率使用 CloudWatch Container Insights 以及与 Prometheus 和 Grafana 集成的 NVIDIA DCGM-Exporter 等工具的策略,以及我们建议您为人工智能/机器学习工作负载分析的指标。
人工智能/机器学习性能
本节重点介绍如何通过容器映像管理和启动优化来增强 Amazon EKS 上人工智能/机器学习工作负载的应用程序扩展和性能,包括以下实践:使用小型轻量级基础映像或具有多阶段构建的 AWS Deep Learning Containers,通过 EBS 快照预加载映像或使用 DaemonSet 或部署将映像预拉入运行时缓存。
参考架构
探索这些 GitHub 存储库,获取参考架构、示例代码和实用工具,以便在 Amazon EKS 和其他 AWS 服务上对人工智能/机器学习工作负载实现分布式训练和推理。
AWSome 分布式训练
该存储库提供了一系列最佳实践、参考架构、模型训练示例和实用工具,用于在 AWS 上训练大型模型。它支持使用 Amazon EKS 进行分布式训练,包括 EKS 集群的 CloudFormation 模板、自定义 AMI 和容器构建、PyTorch(DDP/FSDP、MegaTronLM、NeMo)和 JAX 等框架的测试用例,以及用于验证、可观测性和性能监控的工具,例如 EFA Prometheus 导出器和 Nvidia Nsight Systems。
AWSome 推理
该存储库提供在 AWS 上用于优化推理解决方案的参考架构和测试用例,重点介绍 Amazon EKS 和加速 EC2 实例。它包括 VPC 和 EKS 集群的基础设施设置;NVIDIA NIM、TensorRT-LLM、Triton Inference Server 和 RayService 等框架的项目,以及 Llama3-8B 和 Llama 3.1 405B 等模型的示例。具有使用 K8s LeaderWorkerSet、EKS 自动扩展、多实例 GPU(MIG)的多节点部署功能,以及用于 ASR、推理和 TTS 的音频机器人等实际使用案例。
教程
如果您有兴趣在 EKS 中设置机器学习平台和框架,请浏览本节中所述的教程。此类教程涵盖了所有内容,包括充分利用 GPU 处理器的模式、选择建模工具以及为专业行业构建框架。
在 EKS 上构建生成式人工智能平台
在 EKS 上运行专用的生成式人工智能框架
最大限度提高 NVIDIA GPU 在 EKS 上部署机器学习的性能
-
实现 GPU 共享,以便为 EKS 集群高效使用 NVIDIA GPU:
-
使用多实例 GPU(MIG)和 NIM 微服务,让每个 EKS 集群上的 GPU 运行更多容器组(pod):
在 Amazon EKS 上使用 NVIDIA 的多实例 GPU(MIG),最大限度地提高 GPU 利用率:让每个 GPU 运行更多容器组(pod)以增强性能