기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker HyperPod는 장기 실행 및 복원력이 뛰어난 컴퓨팅 클러스터에서 파운데이션 모델을 대규모로 훈련할 수 있도록 하여 HyperPod 컴퓨팅 리소스를 오케스트레이션하기 위해 Amazon EKS와 통합하는 SageMaker AI 관리형 서비스입니다. 다양한 하드웨어 장애를 확인하고 결함이 있는 노드를 자동으로 복구하는 HyperPod 복원력 기능을 갖춘 Amazon EKS 클러스터를 사용하여 몇 주 또는 몇 달에 걸쳐 중단 없는 훈련 작업을 대규모로 실행할 수 있습니다.
클러스터 관리자 사용자의 주요 기능에는 다음이 포함됩니다.
-
탄력적 HyperPod 클러스터 프로비저닝 및 EKS 제어 영역에 연결
-
노드 추가, 소프트웨어 업데이트, 클러스터 삭제와 같은 동적 용량 관리 활성화
-
kubectl
또는 SSM/SSH를 통해 클러스터 인스턴스에 대한 직접 액세스 활성화 -
기본 상태 확인, 심층 상태 확인, 상태 모니터링 에이전트, PyTorch 작업 자동 재개 지원을 포함한 복원력 기능 제공
-
Amazon CloudWatch Container Insights, Amazon Managed Service for Prometheus 및 Amazon Managed Grafana와 같은 관찰 가능성 도구와 통합
데이터 사이언티스트 사용자의 경우 HyperPod의 EKS 지원을 통해 다음을 수행할 수 있습니다.
-
HyperPod 클러스터에서 파운데이션 모델 훈련을 위한 컨테이너화된 워크로드 실행
-
EKS 클러스터에서 추론 실행, HyperPod와 EKS 간의 통합 활용
-
Kubeflow PyTorch 훈련(PyTorchJob)
에 대한 작업 자동 재개 기능 활용
참고
Amazon EKS를 사용하면 Amazon EKS 제어 플레인을 통해 SageMaker HyperPod에서 태스크 및 인프라를 사용자 관리형으로 오케스트레이션할 수 있습니다. Kubernetes API Server 엔드포인트를 통해 클러스터에 대한 사용자 액세스가 최소 권한 원칙을 따르고 HyperPod 클러스터에서 네트워크 송신이 보호되는지 확인합니다.
Amazon EKS API 서버에 대한 액세스 보안에 대한 자세한 내용은 클러스터 API 서버 엔드포인트에 대한 네트워크 액세스 제어를 참조하세요.
HyperPod에서 네트워크 액세스를 보호하는 방법에 대한 자세한 내용은 섹션을 참조하세요Amazon VPC를 사용하여 SageMaker HyperPod 설정.
HyperPod에서 Amazon EKS 지원의 상위 수준 아키텍처에는 다음 다이어그램과 같이 EKS 클러스터(제어 영역)와 VPC 내의 HyperPod 클러스터(작업자 노드) 간의 1대1 매핑이 포함됩니다.
