이 페이지 개선에 도움 주기
이 사용자 가이드에 기여하려면 모든 페이지의 오른쪽 창에 있는 GitHub에서 이 페이지 편집 링크를 선택합니다.
Amazon EKS에서 AI/ML을 시작하기 위한 리소스
EKS의 기계 학습으로 이동하려면 먼저 이러한 권장 패턴 중에서 선택하여 ML 워크로드 실행을 시작할 수 있도록 EKS 클러스터와 ML 소프트웨어 및 하드웨어를 빠르게 가져옵니다.
워크숍
Amazon EKS의 생성형 AI 워크숍
Amazon EKS에서 대규모 언어 모델(LLM) 애플리케이션 및 추론을 시작하는 방법을 알아봅니다. 프로덕션급 LLM 워크로드를 배포하고 관리하는 방법을 알아봅니다. 실습을 통해 AWS 서비스 및 오픈 소스 도구와 함께 Amazon EKS를 활용하여 강력한 LLM 솔루션을 만드는 방법을 알아봅니다. 워크숍 환경은 필요한 모든 인프라와 도구를 제공하므로, 학습 및 구현에 집중할 수 있습니다.
Neuron을 사용한 Amazon EKS의 생성형 AI
Amazon EKS에서 대규모 언어 모델(LLM) 애플리케이션 및 추론을 시작하는 방법을 알아봅니다. 오픈 소스 프레임워크를 사용하여 프로덕션급 LLM 워크로드를 배포 및 관리하고, 벡터 데이터베이스로 고급 RAG 패턴을 구현하고, 데이터 지원 LLM 애플리케이션을 빌드하는 방법을 알아봅니다. 실습을 통해 AWS 서비스 및 오픈 소스 도구와 함께 Amazon EKS를 활용하여 강력한 LLM 솔루션을 만드는 방법을 알아봅니다. 워크숍 환경은 필요한 모든 인프라와 도구를 제공하므로, 학습 및 구현에 집중할 수 있습니다.
모범 사례
Amazon EKS 모범 사례 가이드에서 AI/ML에 초점을 맞춘 주제는 Amazon EKS에서 AI/ML 워크로드를 최적화하기 위해 다음 영역에 대한 자세한 권장 사항을 제공합니다.
AI/ML 컴퓨팅 및 오토 스케일링
이 섹션에서는 GPU 리소스 관리, 노드 복원력 및 애플리케이션 스케일링에 중점을 두고, Amazon EKS에서 AI/ML 컴퓨팅 및 오토 스케일링을 최적화하는 모범 사례를 간략하게 설명합니다. 잘 알려진 레이블 및 노드 선호도를 통해 워크로드를 예약하고, ML 용량 블록 또는 온디맨드 용량 예약을 사용하고, EKS 노드 모니터링 에이전트와 같은 도구를 사용하여 노드 상태 확인을 구현하는 등의 전략이 제공됩니다.
AI/ML 네트워킹
이 섹션에서는 분산 훈련을 위해 네트워크 대역폭 또는 Elastic Fabric Adapter(EFA)가 더 높은 인스턴스 선택, MPI 및 NCCL과 같은 도구 설치, IP 주소를 늘리고 포드 시작 시간을 개선하기 위한 접두사 위임 활성화와 같은 전략을 포함하여 성능과 확장성 개선을 위해 Amazon EKS에서 AI/ML 네트워킹을 최적화하는 모범 사례를 간략하게 설명합니다.
AI/ML 보안
이 섹션에서는 서버 측 암호화(SSE-KMS)를 위해 AWS Key Management Service(KMS)에서 Amazon S3 사용, 비용을 절감하기 위한 리전 KMS 키 및 S3 버킷 키로 버킷 구성, EKS 포드에 대한 복호화 등 KMS 작업에 대한 IAM 권한 부여, AWS CloudTrail 로그 감사와 같은 관행을 포함하여 Amazon EKS에서 데이터 스토리지 보호와 AI/ML 워크로드 규정 준수에 초점을 맞춥니다.
AI/ML 스토리지
이 섹션에서는 영구 볼륨으로서 S3, FSx for Lustre 또는 EFS와 같은 서비스를 탑재하기 위해 CSI 드라이버를 사용하여 모델을 배포하고, 워크로드 요구 사항을 기반으로 스토리지를 선택하고(예: Scratch-SSD 또는 Persistent-SSD와 같은 옵션을 사용한 분산 훈련용 FSx for Lustre), 데이터 압축 및 스트라이핑과 같은 기능을 활성화하는 등 Amazon EKS에서 AI/ML 워크로드 스토리지 최적화 모범 사례를 제공합니다.
AI/ML 관찰성
이 섹션에서는 Amazon EKS의 AI/ML 워크로드에 대한 GPU 사용률을 모니터링 및 최적화하여 효율성을 개선하고 비용을 절감하는 데 중점을 둡니다. 여기에는 CloudWatch Container Insights와 Prometheus 및 Grafana와 통합된 NVIDIA의 DCGM-Exporter 등의 도구를 사용하여 높은 GPU 사용량을 목표로 하는 등의 전략과 AI/ML 워크로드 분석에 권장하는 지표가 포함됩니다.
AI/ML 성능
이 섹션에서는 다단계 빌드에서 소형 경량 기본 이미지 또는 AWS Deep Learning Containers 사용, EBS 스냅샷을 통한 이미지 사전 로드 또는 DaemonSet 또는 배포를 사용하여 런타임 캐시로 사전 풀링과 같은 관행을 포함하여 컨테이너 이미지 관리 및 시작 최적화를 통해 Amazon EKS에서 AI/ML 워크로드의 애플리케이션 스케일링 및 성능 개선에 중점을 둡니다.
참조 아키텍처
Amazon EKS 및 기타 AWS 서비스에서 AI/ML 워크로드에 대한 분산 훈련 및 추론을 구현하기 위한 참조 아키텍처, 샘플 코드 및 유틸리티는 GitHub 리포지토리를 살펴보세요.
AWSome Distributed Training
이 리포지토리는 AWS에서 대규모 모델을 훈련하기 위한 모범 사례, 참조 아키텍처, 모델 훈련 예시 및 유틸리티 컬렉션을 제공합니다. EKS 클러스터용 CloudFormation 템플릿, 사용자 지정 AMI 및 컨테이너 빌드, PyTorch(DDP/FSDP, MegatronLM, NeMo) 및 JAX와 같은 프레임워크의 테스트 사례, EFA Prometheus 익스포터 및 Nvidia Nsight Systems와 같은 검증, 관찰성 및 성능 모니터링 도구를 포함하여 Amazon EKS를 사용한 분산 훈련을 지원합니다.
AWSome Inference
이 리포지토리는 Amazon EKS 및 가속화된 EC2 인스턴스에 중점을 두고 AWS에서 추론 솔루션을 최적화하기 위한 참조 아키텍처 및 테스트 사례를 제공합니다. VPC 및 EKS 클러스터에 대한 인프라 설정, NVIDIA NIM, TensorRT-LLM, Triton Inference Server 및 RayService와 같은 프레임워크용 프로젝트, 그리고 Llama3-8B 및 Llama 3.1 405B와 같은 모델의 예시가 포함됩니다. K8s LeaderWorkerSet, EKS 오토 스케일링, 다중 인스턴스 GPU(MIG)를 사용한 다중 노드 배포와 ASR, 추론 및 TTS용 오디오 봇과 같은 실제 사용 사례를 제공합니다.
자습서
EKS에서 기계 학습 플랫폼 및 프레임워크를 설정하는 데 관심이 있다면 이 섹션에서 설명한 자습서를 살펴보세요. 이 자습서에서는 GPU 프로세서를 최대한 활용하기 위한 패턴부터 모델링 도구 선택, 특수 산업을 위한 프레임워크 구축에 이르기까지 모든 것을 다룹니다.
EKS에서 생성형 AI 플랫폼 구축
EKS에서 특수 생성형 AI 프레임워크 실행
EKS에서 ML용 NVIDIA GPU 성능 극대화
-
GPU 공유를 구현하여 EKS 클러스터에 NVIDIA GPU를 효율적으로 사용합니다.
-
다중 인스턴스 GPU(MIG) 및 NIM 마이크로서비스를 사용하여 EKS 클러스터에서 GPU당 더 많은 포드를 실행합니다.
Amazon EKS에서 NVIDIA의 다중 인스턴스 GPU(MIG)를 사용하여 GPU 사용률 극대화: 성능 향상을 위해 GPU당 더 많은 포드 실행