HyperPod 훈련 연산자 사용

Amazon SageMaker HyperPod 훈련 운영자는 대규모 GPU 클러스터에서 분산 훈련을 효율적으로 관리하여 생성형 AI 모델 개발을 가속화하는 데 도움이 됩니다. 지능형 장애 복구, 중단 작업 감지 및 프로세스 수준 관리 기능을 도입하여 훈련 중단을 최소화하고 비용을 절감합니다. 장애가 발생할 때 전체 작업을 다시 시작해야 하는 기존 훈련 인프라와 달리이 운영자는 수술 프로세스 복구를 구현하여 훈련 작업을 원활하게 실행합니다.

또한 운영자는 HyperPod의 상태 모니터링 및 관찰성 함수와 함께 작동하여 훈련 실행에 대한 실시간 가시성을 제공하고 손실 스파이크 및 처리량 저하와 같은 중요한 지표를 자동으로 모니터링합니다. 코드 변경 없이 간단한 YAML 구성을 통해 복구 정책을 정의할 수 있으므로 복구할 수 없는 훈련 상태에 신속하게 대응하고 복구할 수 있습니다. 이러한 모니터링 및 복구 기능은 함께 작동하여 운영 오버헤드를 최소화하면서 최적의 훈련 성능을 유지합니다.

이 훈련 운영자에는 Kueue가 필요하지 않지만 클러스터 관리자는 향상된 작업 예약 기능을 위해 Kueue를 설치하고 구성할 수 있습니다. 자세한 내용은 Kueue 공식 설명서를 참조하세요.

참고

훈련 연산자를 사용하려면 최신 HyperPod AMI 릴리스를 사용해야 합니다. 업그레이드하려면 UpdateClusterSoftware API 작업을 사용합니다. HyperPod 작업 거버넌스를 사용하는 경우 최신 버전이어야 합니다.

지원되는 버전

HyperPod 훈련 운영자는 특정 버전의 Kubernetes, Kueue 및 HyperPod에서만 작동합니다. 호환되는 버전의 전체 목록은 아래 목록을 참조하세요.

지원되는 Kubernetes 버전 – 1.28, 1.29, 1.30, 1.31 또는 1.32
제안된 Kueue 버전 – v.0.12.2 및 v.0.12.3
최신 HyperPod AMI 릴리스입니다. 최신 AMI 릴리스로 업그레이드하려면 UpdateClusterSoftware API를 사용합니다.
PyTorch 2.4.0~2.7.1

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

를 사용하여 작업 실행 kubectl

설치