Amazon EKS 오케스트레이션을 사용하여 SageMaker HyperPod 클러스터 생성 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EKS 오케스트레이션을 사용하여 SageMaker HyperPod 클러스터 생성

다음 자습서에서는 새 SageMaker HyperPod 클러스터를 생성하고 SageMaker AI 콘솔 UI를 통해 Amazon EKS 오케스트레이션으로 설정하는 방법을 보여줍니다.

클러스터 생성

SageMaker HyperPod 클러스터 페이지로 이동하여 Amazon EKS 오케스트레이션을 선택하려면 다음 단계를 따르세요.

  1. https://console.aws.amazon.com/sagemaker/ Amazon SageMaker AI 콘솔을 엽니다.

  2. 왼쪽 탐색 창에서 HyperPod 클러스터를 선택한 다음 클러스터 관리를 선택합니다.

  3. SageMaker HyperPod 클러스터 페이지에서 HyperPod 클러스터 생성을 선택합니다.

  4. HyperPod 클러스터 생성 드롭다운에서 Amazon EKS에서 오케스트레이션을 선택합니다.

  5. EKS 클러스터 생성 페이지에는 두 가지 옵션이 표시됩니다. 필요에 가장 적합한 옵션을 선택합니다.

    1. 빠른 설정 - 기본 설정을 즉시 시작하려면 빠른 설정을 선택합니다. 이 옵션을 사용하면 SageMaker AI는 클러스터를 생성하는 과정에서 VPC, 서브넷, 보안 그룹, Amazon S3 버킷, IAM 역할 및 FSx for Lustre와 같은 새 리소스를 생성합니다.

    2. 사용자 지정 설정 - 기존 AWS 리소스와 통합하거나 특정 네트워킹, 보안 또는 스토리지 요구 사항이 있는 경우 사용자 지정 설정을 선택합니다. 이 옵션을 사용하면 기존 리소스를 사용하거나 새 리소스를 생성하도록 선택할 수 있으며 필요에 가장 적합한 구성을 사용자 지정할 수 있습니다.

빠른 설정

빠른 설정 섹션에서 다음 단계에 따라 Amazon EKS 오케스트레이션을 사용하여 HyperPod 클러스터를 생성합니다.

새 클러스터의 이름을 지정합니다. 클러스터가 생성된 후에는 이름을 변경할 수 없습니다.

인스턴스 그룹을 추가하려면 그룹 추가를 선택합니다. 각 인스턴스 그룹을 다르게 구성할 수 있으며 다양한 인스턴스 유형을 가진 여러 인스턴스 그룹으로 구성된 이종 클러스터를 생성할 수 있습니다. 클러스터를 배포하려면 인스턴스 그룹을 하나 이상 추가해야 합니다. 다음 단계에 따라 인스턴스 그룹을 추가합니다.

  1. 인스턴스 그룹 유형에서 표준 또는 제한된 인스턴스 그룹(RIG)을 선택합니다. 일반적으로 추가 보안 제한 없이 범용 컴퓨팅 환경을 제공하는 표준을 선택합니다. 제한된 인스턴스 그룹(RIG)은 Amazon Nova와 같은 기본 모델 사용자 지정을 위한 특수 환경입니다. Amazon Nova 모델 사용자 지정을 위한 RIG 설정에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker HyperPod의 Amazon Nova 사용자 지정 HyperPod.

  2. 이름에 인스턴스 그룹의 이름을 지정합니다.

  3. 인스턴스 용량에서 온디맨드 용량 또는 훈련 계획을 선택하여 컴퓨팅 리소스를 예약합니다.

  4. 인스턴스 유형에서 인스턴스 그룹의 인스턴스를 선택합니다. 계정에 충분한 할당량이 있는 인스턴스 유형을 선택하거나 SageMaker HyperPod 할당량에서 다음을 수행하여 추가 할당량을 요청해야 합니다.

  5. 인스턴스 수량에서 클러스터 사용량에 대한 인스턴스 할당량을 초과하지 않는 정수를 지정합니다. 이 자습서에서는 세 그룹 모두에 대해 1을 입력합니다.

  6. 대상 가용 영역에서 인스턴스를 프로비저닝할 가용 영역을 선택합니다. 가용 영역은 가속화된 컴퓨팅 용량의 위치와 일치해야 합니다.

  7. 인스턴스당 추가 스토리지 볼륨(GB) - 선택 사항인 경우 1~16384 사이의 정수를 지정하여 추가 Elastic Block Store(EBS) 볼륨의 크기를 기가바이트(GB) 단위로 설정합니다. EBS 볼륨은 인스턴스 그룹의 각 인스턴스에 연결됩니다. 추가 EBS 볼륨의 기본 탑재 경로는 /opt/sagemaker입니다. 클러스터가 성공적으로 생성된 후 클러스터 인스턴스(노드)에 SSH를 넣고 df -h 명령을 실행하여 EBS 볼륨이 올바르게 마운트되었는지 확인할 수 있습니다. 추가 EBS 볼륨을 연결하면 Amazon Elastic Block Store 사용 설명서Amazon EBS 볼륨 섹션에 설명된 대로 안정적이고 인스턴스가 아니며 독립적으로 지속되는 스토리지가 제공됩니다.

  8. 인스턴스 심층 상태 확인에서 옵션을 선택합니다. 심층 상태 확인은 생성 중 및 소프트웨어 업데이트 후 인스턴스 상태를 모니터링하여 활성화되면 재부팅 또는 교체를 통해 결함이 있는 인스턴스를 자동으로 복구합니다.

  9. 인스턴스 그룹 추가를 선택합니다.

이 섹션에는 클러스터 생성 프로세스 중에 생성될 모든 새 AWS 리소스를 포함하여 클러스터 생성에 대한 모든 기본 설정이 나열됩니다. 기본 설정을 검토합니다.

사용자 지정 설정

사용자 지정 설정 섹션에서 다음 단계에 따라 Amazon EKS 오케스트레이션을 사용하여 첫 번째 HyperPod 클러스터를 생성합니다.

새 클러스터의 이름을 지정합니다. 클러스터가 생성된 후에는 이름을 변경할 수 없습니다.

인스턴스 복구에서 자동 - 권장 또는 없음을 선택합니다.

클러스터 내부 및 클러스터 in-and-out에서 네트워크 설정을 구성합니다. Amazon EKS와 SageMaker HyperPod 클러스터를 오케스트레이션하려면 VPC가 선택한 EKS 클러스터로 구성된 VPC로 자동 설정됩니다.

  1. VPC의 경우 SageMaker AI에 VPC에 대한 액세스 권한을 부여하는 VPC가 이미 있는 경우 자체 VPC를 선택합니다. 새 VPC를 생성하려면 Amazon Virtual Private Cloud 사용 설명서VPC 생성의 지침을 따르세요. 기본 SageMaker AI VPC를 사용하려면 없음으로 둘 수 있습니다.

  2. VPC IPv4 CIDR 블록에 VPC의 시작 IP를 입력합니다.

  3. 가용 영역에서 HyperPod가 클러스터에 대한 서브넷을 생성할 가용 영역(AZ)을 선택합니다. 가속화된 컴퓨팅 용량의 위치와 일치하는 AZs를 선택합니다.

  4. 보안 그룹(Security group)에서 Amazon EKS 클러스터에 연결되거나 Amazon EKS 클러스터와 연결된 보안 그룹에서 인바운드 트래픽이 허용되는 보안 그룹을 선택합니다. 새 보안 그룹을 생성하려면 Amazon VPC 콘솔로 이동합니다.

다음 단계에 따라 오케스트레이터로 사용할 Amazon EKS 클러스터를 생성하거나 선택합니다.

  1. EKS 클러스터에서 새 Amazon EKS 클러스터를 생성하거나 기존 클러스터를 사용합니다.

    새 EKS 클러스터를 생성해야 하는 경우 Amazon EKS 콘솔을 열지 않고도 EKS 클러스터 섹션에서 클러스터를 생성할 수 있습니다.

    참고

    HyperPod에 대해 선택한 VPC 서브넷은 프라이빗이어야 합니다.

    새 EKS 클러스터 생성 요청을 제출한 후 EKS 클러스터가이 될 때까지 기다립니다Active.

  2. Kubernetes 버전의 경우 드롭다운 메뉴에서 버전을 선택합니다. Kubernetes 버전에 대한 자세한 내용은 Amazon EKS 사용 설명서의 EKS의 Kubernetes 버전 수명 주기 이해를 참조하세요.

  3. 연산자의 경우 기본 차트 Helm 및 추가 기능 사용 또는 연산자 설치 안 함을 선택합니다. 옵션은 기본적으로 기본 차트 Helm 및 추가 기능을 사용합니다.이 차트 및 추가 기능은 EKS 클러스터에 연산자를 설치하는 데 사용됩니다. 기본 차트 Helm 및 추가 기능에 대한 자세한 내용은 GitHub 리포지토리helm_chart의 섹션을 참조하세요. 자세한 내용은 Helm을 사용하여 Amazon EKS 클러스터에 패키지 설치 단원을 참조하십시오.

  4. 활성화된 연산자의 경우 활성화된 연산자 목록을 봅니다. 연산자를 편집하려면 상단의 확인란을 선택 취소하고 연산자를 선택하여 EKS 클러스터에 대해를 활성화합니다.

    참고

    HyperPod를 EKS와 함께 사용하려면 EKS 클러스터에서 연산자를 활성화하는 차트 및 추가 기능을 Helm에 설치해야 합니다. 이러한 구성 요소는 EKS를 HyperPod의 컨트롤 플레인으로 구성하고 워크로드 관리 및 오케스트레이션에 필요한 설정을 제공합니다.

인스턴스 그룹을 추가하려면 그룹 추가를 선택합니다. 각 인스턴스 그룹을 다르게 구성할 수 있으며 다양한 인스턴스 유형을 가진 여러 인스턴스 그룹으로 구성된 이종 클러스터를 생성할 수 있습니다. 클러스터를 배포하려면 인스턴스 그룹을 하나 이상 추가해야 합니다. 다음 단계에 따라 인스턴스 그룹을 추가합니다.

  1. 인스턴스 그룹 유형에서 표준 또는 제한된 인스턴스 그룹(RIG)을 선택합니다. 일반적으로 추가 보안 제한 없이 범용 컴퓨팅 환경을 제공하는 표준을 선택합니다. 제한된 인스턴스 그룹(RIG)은 Amazon Nova와 같은 기본 모델 사용자 지정을 위한 특수 환경입니다. Amazon Nova 모델 사용자 지정을 위한 RIG 설정에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker HyperPod의 Amazon Nova 사용자 지정 HyperPod.

  2. 이름에 인스턴스 그룹의 이름을 지정합니다.

  3. 인스턴스 용량에서 온디맨드 용량 또는 훈련 계획을 선택하여 컴퓨팅 리소스를 예약합니다.

  4. 인스턴스 유형에서 인스턴스 그룹의 인스턴스를 선택합니다. 계정에 충분한 할당량이 있는 인스턴스 유형을 선택하거나 SageMaker HyperPod 할당량에서 다음을 수행하여 추가 할당량을 요청해야 합니다.

  5. 인스턴스 수량에서 클러스터 사용량에 대한 인스턴스 할당량을 초과하지 않는 정수를 지정합니다. 이 자습서에서는 세 그룹 모두에 대해 1을 입력합니다.

  6. 대상 가용 영역에서 인스턴스를 프로비저닝할 가용 영역을 선택합니다. 가용 영역은 가속화된 컴퓨팅 용량의 위치와 일치해야 합니다.

  7. 인스턴스당 추가 스토리지 볼륨(GB) - 선택 사항인 경우 1~16384 사이의 정수를 지정하여 추가 Elastic Block Store(EBS) 볼륨의 크기를 기가바이트(GB) 단위로 설정합니다. EBS 볼륨은 인스턴스 그룹의 각 인스턴스에 연결됩니다. 추가 EBS 볼륨의 기본 탑재 경로는 /opt/sagemaker입니다. 클러스터가 성공적으로 생성된 후 클러스터 인스턴스(노드)에 SSH를 넣고 df -h 명령을 실행하여 EBS 볼륨이 올바르게 마운트되었는지 확인할 수 있습니다. 추가 EBS 볼륨을 연결하면 Amazon Elastic Block Store 사용 설명서Amazon EBS 볼륨 섹션에 설명된 대로 안정적이고 인스턴스가 아니며 독립적으로 지속되는 스토리지가 제공됩니다.

  8. 인스턴스 심층 상태 확인에서 옵션을 선택합니다. 심층 상태 확인은 생성 중 및 소프트웨어 업데이트 후 인스턴스 상태를 모니터링하여 활성화되면 재부팅 또는 교체를 통해 결함이 있는 인스턴스를 자동으로 복구합니다. 자세한 내용은 심층 상태 확인 섹션을 참조하세요.

  9. 인스턴스 그룹 추가를 선택합니다.

Amazon S3 버킷에 저장될 기본 수명 주기 스크립트 또는 사용자 지정 수명 주기 스크립트를 사용하도록 선택할 수 있습니다. Awesome Distributed Training GitHub 리포지토리에서 기본 수명 주기 스크립트를 볼 수 있습니다. 수명 주기 스크립트에 대한 자세한 내용은 섹션을 참조하세요수명 주기 스크립트를 사용하여 SageMaker HyperPod 클러스터 사용자 지정.

  1. 수명 주기 스크립트에서 기본 또는 사용자 지정 수명 주기 스크립트를 사용하도록 선택합니다.

  2. 수명 주기 스크립트용 S3 버킷의 경우 새 버킷을 생성하거나 기존 버킷을 사용하여 수명 주기 스크립트를 저장하도록 선택합니다.

HyperPod가 사용자를 대신하여 필요한 AWS 리소스를 실행하고 액세스할 수 있도록 허용하는 IAM 역할을 선택하거나 생성합니다. 자세한 내용은 SageMaker HyperPod의 IAM 역할 단원을 참조하십시오.

HyperPod 클러스터에 프로비저닝되도록 FSx for Lustre 파일 시스템을 구성합니다.

  1. 파일 시스템에서 기존 FSx for Lustre 파일 시스템을 선택하여 새 FSx for Lustre 파일 시스템을 생성하거나 FSx for Lustre 파일 시스템을 프로비저닝하지 않습니다.

  2. 스토리지 단위당 처리량에서 프로비저닝된 스토리지의 TiB당 사용할 수 있는 처리량을 선택합니다.

  3. 스토리지 용량에 용량 값을 TB 단위로 입력합니다.

  4. 데이터 압축 유형에서 LZ4를 선택하여 데이터 압축을 활성화합니다.

  5. Lustre 버전의 경우 새 파일 시스템에 권장되는 값을 확인합니다.

태그 - 선택 사항 경우 키 및 값 페어를 새 클러스터에 추가하고 클러스터를 AWS 리소스로 관리합니다. 자세한 내용은 AWS 리소스 태그 지정 섹션을 참조하세요.

리소스 배포

빠른 설정 또는 사용자 지정 설정을 사용하여 클러스터 구성을 완료한 후 다음 옵션을 선택하여 리소스 프로비저닝 및 클러스터 생성을 시작합니다.

  • Submit-SageMaker AI는 기본 구성 리소스를 프로비저닝하고 클러스터를 생성하기 시작합니다.

  • CloudFormation 템플릿 파라미터 다운로드 - 구성 파라미터 JSON 파일을 다운로드하고 AWS CLI 명령을 실행하여 CloudFormation 스택을 배포하여 구성 리소스를 프로비저닝하고 클러스터를 생성합니다. 필요한 경우 다운로드한 파라미터 JSON 파일을 편집할 수 있습니다. 이 옵션을 선택하는 경우의 추가 지침을 참조하세요AWS CloudFormation 템플릿을 사용하여 SageMaker HyperPod 클러스터 생성.