在 Amazon EKS 上開始使用 AI/ML 的資源 - Amazon EKS

協助改善此頁面

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

若要提供此使用者指南,請選擇位於每個頁面右窗格中的在 GitHub 上編輯此頁面連結。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon EKS 上開始使用 AI/ML 的資源

若要開始使用 Machine Learning on EKS,請先從這些規範模式中選擇,以快速取得 EKS 叢集和 ML 軟體和硬體,準備好開始執行 ML 工作負載。

研討會

Amazon EKS 上的生成式 AI 研討會

了解如何在 Amazon EKS 上開始使用大型語言模型 (LLM) 應用程式和推論。探索如何部署和管理生產級 LLM 工作負載。透過實作實驗室,您將探索如何利用 Amazon EKS 以及 AWS 服務和開放原始碼工具來建立強大的 LLM 解決方案。研討會環境提供所有必要的基礎設施和工具,可讓您專注於學習和實作。

使用 Neuron 在 Amazon EKS 上生成 AI

了解如何在 Amazon EKS 上開始使用大型語言模型 (LLM) 應用程式和推論。探索如何部署和管理生產級 LLM 工作負載、使用向量資料庫實作進階 RAG 模式,以及使用開放原始碼架構建置資料支援的 LLM 應用程式。透過實作實驗室,您將探索如何利用 Amazon EKS 以及 AWS 服務和開放原始碼工具來建立強大的 LLM 解決方案。研討會環境提供所有必要的基礎設施和工具,可讓您專注於學習和實作。

最佳實務

Amazon EKS 最佳實務指南中的 AI/ML 重點主題提供下列領域的詳細建議,以最佳化 Amazon EKS 上的 AI/ML 工作負載。

AI/ML 運算和自動擴展

本節概述在 Amazon EKS 中最佳化 AI/ML 運算和自動擴展的最佳實務,著重於 GPU 資源管理、節點彈性和應用程式擴展。它提供策略,例如使用已知的標籤和節點親和性來排程工作負載、使用 ML 容量區塊或隨需容量保留,以及使用 EKS 節點監控代理程式等工具實作節點運作狀態檢查。

AI/ML 網路

本節概述在 Amazon EKS 中最佳化 AI/ML 聯網以增強效能和可擴展性的最佳實務,包括選擇具有較高網路頻寬或 Elastic Fabric Adapter (EFA) 的執行個體以進行分散式訓練、安裝 MPI 和 NCCL 等工具,以及啟用字首委派以增加 IP 地址並改善 Pod 啟動時間等策略。

AI/ML 安全性

本節著重於保護資料儲存的安全並確保 Amazon EKS 上 AI/ML 工作負載的合規性,包括使用 Amazon S3 搭配 AWS Key Management Service (KMS) 進行伺服器端加密 (SSE-KMS)、使用區域 KMS 金鑰和 S3 儲存貯體金鑰設定儲存貯體以降低成本、授予 IAM 許可給 EKS Pod 解密等 KMS 動作,以及使用 AWS CloudTrail 日誌稽核。

AI/ML 儲存體

本節提供最佳化 Amazon EKS 上 AI/ML 工作負載中儲存體的最佳實務,包括使用 CSI 驅動程式部署模型以掛載 S3、FSx for Lustre 或 EFS 等服務作為持久性磁碟區、根據工作負載需求選取儲存體 (例如 FSx for Lustre 用於使用 Scratch-SSD 或 Persistent-SSD 等選項進行分散式訓練),以及啟用資料壓縮和分割等功能。

AI/ML 可觀測性

本節著重於監控和最佳化 Amazon EKS 上 AI/ML 工作負載的 GPU 使用率,以提高效率和降低成本,包括策略,例如使用 CloudWatch Container Insights 和與 Prometheus 和 Grafana 整合的 NVIDIA DCGM-Exporter 等工具鎖定高 GPU 使用率,以及我們建議您分析 AI/ML 工作負載的指標。

AI/ML 效能

本節著重於透過容器映像管理和啟動最佳化,增強 Amazon EKS 上 AI/ML 工作負載的應用程式擴展和效能,包括使用小型輕量型基礎映像或具有多階段建置的 AWS 深度學習容器、透過 EBS 快照預先載入映像,或使用 DaemonSets 或 部署預先提取至執行階段快取等實務。

參考架構

探索這些 GitHub 儲存庫的參考架構、範例程式碼和公用程式,以在 Amazon EKS 和其他 AWS 服務上實作 AI/ML 工作負載的分散式訓練和推論。

AWSome 分散式訓練

此儲存庫提供用於訓練大型模型的最佳實務、參考架構、模型訓練範例和公用程式的集合 AWS。它支援 Amazon EKS 的分散式訓練,包括適用於 EKS 叢集的 CloudFormation 範本、自訂 AMI 和容器建置、適用於 PyTorch (DDP/FSDP、MegatronLM、NeMo) 和 JAX 等架構的測試案例,以及用於驗證、可觀測性和效能監控的工具,例如 EFA Prometheus 匯出程式和 Nvidia Nsight Systems。

AWSome 推論

此儲存庫提供參考架構和測試案例,以最佳化 上的推論解決方案 AWS,並著重於 Amazon EKS 和加速 EC2 執行個體。它包含 VPC 和 EKS 叢集的基礎設施設定、NVIDIA NIMs、TensorRT-LLM、Triton Inference Server 和 RayService 等架構的專案,以及 Llama3-8B 和 Llama 3.1 405B 等模型的範例。具有使用 K8s LeaderWorkerSet、EKS Autoscaling、多執行個體 GPUs (MIG) 的多節點部署,以及 ASR、推論和 TTS 的音訊機器人等實際使用案例。

教學課程

如果您有興趣在 EKS 中設定Machine Learning平台和架構,請探索本節所述的教學課程。這些教學課程涵蓋從善用 GPU 處理器到選擇建模工具,再到為專業產業建置架構的各種模式。

在 EKS 上建置生成式 AI 平台

在 EKS 上執行專用生成式 AI 架構

最大化 ML on EKS 的 NVIDIA GPU 效能

在 EKS 上執行影片編碼工作負載

加速推論工作負載的影像載入

監控 ML 工作負載