SageMaker HyperPod

SageMaker HyperPod 머신 러닝 (ML) 워크로드를 실행하고 대형 언어 모델 (LLM), 확산 모델, 기초 state-of-the-art 모델 (FM) 과 같은 모델을 개발하기 위한 탄력적인 클러스터를 프로비저닝할 수 있도록 지원합니다. AWS Trainium, NVIDIA A100 및 H100 그래픽 처리 장치 (GPU) 와 같은 수천 개의 가속기로 구동되는 대규모 컴퓨팅 클러스터를 구축하고 유지 관리하는 데 수반되는 차별화되지 않은 번거로움을 제거하여 FM 개발을 가속화합니다. 가속기에 장애가 발생하면 자가 복구 클러스터가 결함이 있는 하드웨어를 즉시 자동으로 감지하고 교체하므로 몇 주, 몇 달 동안 중단 없이 ML 워크로드를 실행하는 데 집중할 수 있습니다. 또한 를 사용하면 요구 사항에 가장 적합하도록 컴퓨팅 환경을 사용자 지정하고 Amazon SageMaker 분산 교육 라이브러리로 구성하여 최적의 성능을 달성할 수 AWS있습니다. SageMaker HyperPod

운영 클러스터

SageMaker HyperPod 클러스터는 콘솔 UI (사용자 인터페이스) 를 통해 그래픽 방식으로, CLI ( AWS 명령줄 인터페이스) 를 통해 프로그래밍 방식으로 생성, 구성 및 유지 관리할 수 있습니다. AWS SDK for Python (Boto3) Amazon VPC를 사용하면 클러스터 네트워크를 보호하고 가장 빠른 처리량을 제공하는 Amazon FSx for Lustre와 같은 VPC의 리소스로 클러스터를 구성할 수 있습니다. 또한 클러스터 인스턴스 그룹에 서로 다른 IAM 역할을 부여하고 클러스터 리소스 및 사용자가 수행할 수 있는 작업을 제한할 수 있습니다. 자세한 내용은 작동 SageMaker HyperPod 섹션을 참조하세요.

ML 환경 구성

SageMaker HyperPod SageMaker HyperPod 들라미를 실행하여 HyperPod 클러스터에 ML 환경을 설정합니다. 사용 사례를 지원하는 수명 주기 스크립트를 제공하여 DLAMI에 대한 추가 사용자 지정을 구성할 수 있습니다. 수명 주기 스크립트를 설정하는 방법에 대한 자세한 내용은 및 을 참조하십시오. 시작하기 SageMaker HyperPod SageMaker HyperPod 수명 주기 구성 모범 사례

작업 예약

클러스터를 성공적으로 생성한 후 HyperPod 클러스터 사용자는 클러스터 노드 (예: 헤드 또는 컨트롤러 노드, 로그인 노드, 작업자 노드) 에 로그인하여 기계 학습 워크로드를 실행하기 위한 작업을 예약할 수 있습니다. 자세한 내용은 SageMaker HyperPod 클러스터에서 작업 실행 섹션을 참조하세요.

하드웨어 장애에 대한 복원력

SageMaker HyperPod 클러스터 노드에서 상태 점검을 실행하고 워크로드 자동 재개 기능을 제공합니다. 의 HyperPod 클러스터 복구 기능을 사용하면 16개 이상의 노드가 있는 클러스터에서 결함이 있는 노드를 정상 노드로 교체한 후 마지막으로 저장한 체크포인트에서 워크로드를 재개할 수 있습니다. 자세한 내용은 SageMaker HyperPod 클러스터 레질리언스 섹션을 참조하세요.

클러스터 로깅 및 관리

Amazon에서 SageMaker HyperPod 리소스 사용률 지표와 라이프사이클 로그를 찾고 CloudWatch, 태그를 지정하여 SageMaker HyperPod 리소스를 관리할 수 있습니다. 각 CreateCluster API 실행은 <cluster-name>-<timestamp> 형식에 따라 이름이 지정된 고유한 로그 스트림을 생성합니다. 로그 스트림에서 호스트 이름, 실패한 라이프사이클 스크립트의 이름, 실패한 스크립트의 출력 (예: 및) 을 확인할 수 stderr 있습니다. stdout 자세한 정보는 SageMaker HyperPod 클러스터 관리을 참조하세요.

SageMaker 도구와 호환됩니다.

를 사용하면 SageMaker HyperPod SageMaker분산 데이터 병렬화 (SMDDP) 라이브러리와 같이 에서 제공하는 AWS SageMaker 최적화된 집단 통신 라이브러리로 클러스터를 구성할 수 있습니다. SMDDP 라이브러리는 NVIDIA A100 GPU로 구동되는 가장 성능이 뛰어난 SageMaker 기계 학습 인스턴스를 위한 AWS 컴퓨팅 및 네트워크 인프라에 최적화된 AllGather 작업을 구현합니다. 자세한 내용은 Slurm을 켠 상태에서 분산 교육 워크로드를 실행하세요. SageMaker HyperPod 단원을 참조하세요.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

사용자에게 사용자 지정 이미지에 대한 액세스 권한 제공

필수 조건