제한된 인스턴스 그룹(RIG)을 사용하여 HyperPod EKS 클러스터 생성 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

제한된 인스턴스 그룹(RIG)을 사용하여 HyperPod EKS 클러스터 생성

이 주제에서는 제한된 인스턴스 그룹(RIG)으로 Amazon SageMaker HyperPod EKS 클러스터를 생성하는 단계를 다룹니다. SageMaker HyperPod EKS 클러스터의 RIG 구성은 Amazon Nova 모델 훈련을 위한 특수 환경을 제공합니다. RIG에는 다음과 같은 제한이 있습니다.

  • RIG 워크로드는 인터넷이 없는 VPC에서 실행되며 모든 수신 및 송신은 엄격하게 규제됩니다.

  • RIG에는 Nova 모델 훈련을 위한 보안 환경을 보장하기 위해 Kubectl exec 및 로그와 같은 Kubernetes 함수의 관찰성에 대한 제한이 있습니다.

  • RIG는 Nova 사용자 지정 이미지만 허용하며 다른 이미지와 함께 실행되는 작업은 거부됩니다.

HyperPod EKS 클러스터에서 인스턴스 그룹을 설정할 때 RIGs를 생성할 수 있습니다. 이러한 리소스의 크기와 규모를 제어할 수 있지만 작업자 노드에 직접 액세스할 수는 없습니다. 이 아키텍처는 Nova 구성 요소(모델 가중치, 체크포인트, 훈련 데이터 및 코드)가 규제 채널 및 서비스 관리형 계정 시스템을 통해서만 액세스할 수 있도록 합니다.

SageMaker HyperPod의 Nova 모델 사용자 지정은 서비스 관리형 FSx for Lustre 파일 시스템을 사용하여 최적의 성능을 달성합니다. RIG를 생성할 때 인스턴스 그룹의 모든 작업자 노드에 마운트될 FSx for Lustre 파일 시스템의 볼륨 크기와 처리량을 지정해야 합니다. FSx for Lustre는 분산 훈련 중에 중간 체크포인트와 내부 모델 상태를 저장하는 데 사용됩니다. 레시피에 제공된 지침에 따라 적절한 볼륨 크기와 처리량을 선택하여 충분한 용량과 성능을 보장합니다. FSx for Lustre 사용 비용이에 적용됩니다 AWS 계정.

HyperPod EKS 클러스터의 RIG에 대한 중요 참고 사항

  • RIG는 권한에 대한 실행 역할 사용만 지원합니다. 실행 역할에 Amazon S3에 대한 액세스와 같은 필요한 IAM 권한이 포함되어 있는지 확인합니다.

  • 서비스 관리형 Amazon FSx for Lustre 및 Amazon S3를 사용하는 경우 FSx for Lustre 파일 시스템이 워크로드에 적합한 크기인지 확인합니다. 훈련 데이터 매니페스트는 실행 역할이 액세스할 수 있어야 하는 Amazon S3에 업로드됩니다.

  • RIG는 2025년 7월 16일 이후에 생성된 새 SageMaker HyperPod EKS 클러스터에서 생성되거나 업데이트되어야 합니다. 이 날짜 이전에 생성된 클러스터에는 RIG에서 지원하지 않는 호환되지 않는 소프트웨어 버전 또는 구성이 포함될 수 있습니다.

RIG를 사용하여 HyperPod EKS 클러스터 생성(콘솔)

다음 지침에 따라 HyperPod 콘솔을 사용하여 RIG로 HyperPod EKS 클러스터를 생성합니다.

RIG를 사용하여 HyperPod EKS 클러스터 생성(CLI)

다음 지침에 따라를 사용하여 RIG로 HyperPod EKS 클러스터를 생성합니다 AWS CLI.