SageMaker HyperPod 콘솔 UI 사용 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker HyperPod 콘솔 UI 사용

SageMaker HyperPod 콘솔 UI를 사용하여 첫 번째 SageMaker HyperPod 클러스터를 생성합니다.

Slurm으로 첫 번째 SageMaker HyperPod 클러스터를 만드세요.

다음 자습서는 콘솔 UI를 통해 새 SageMaker HyperPod 클러스터를 생성하고 Slurm으로 설정하는 방법을 보여줍니다. SageMaker 자습서를 따라 세 개의 Slurm 노드,,, 를 포함하는 HyperPod 클러스터를 생성합니다. my-controller-group my-login-group worker-group-1

  1. https://console.aws.amazon.com/sagemaker/ 에서 아마존 SageMaker 콘솔을 엽니다.

  2. 왼쪽 탐색 창에서 HyperPod 클러스터를 선택합니다.

  3. SageMaker HyperPod 클러스터 페이지에서 클러스터 생성을 선택합니다.

  4. 1단계: 클러스터 설정에서 새 클러스터의 이름을 지정합니다. 태그 섹션은 건너뛰세요.

  5. 2단계: 인스턴스 그룹에서 인스턴스 그룹을 추가합니다. 각 인스턴스 그룹을 다르게 구성할 수 있으며, 다양한 인스턴스 유형의 여러 인스턴스 그룹으로 구성된 이기종 클러스터를 만들 수 있습니다. 클러스터를 생성하는 동안 인스턴스 그룹에서 수명 주기 구성 스크립트를 실행하려면 Awsome Distributed Training 리포지토리에 제공된 샘플 수명 주기 스크립트를 사용하여 시작할 수 있습니다. GitHub

    1. 인스턴스 그룹 이름에는 인스턴스 그룹 이름을 지정합니다. 이 자습서에서는, my-controller-groupmy-login-group, 라는 이름의 인스턴스 그룹 3개를 만드십시오worker-group-1.

    2. 인스턴스 유형 선택에서 인스턴스 그룹의 인스턴스를 선택합니다. 이 자습서에서는 ml.c5.xlarge formy-controller-group, ml.m5.4xlarge formy-login-group, ml.trn1.32xlarge for를 선택하십시오worker-group-1.

      계정에 충분한 할당량이 있는 인스턴스 유형을 선택하거나 에 따라 추가 할당량을 요청해야 합니다. SageMaker HyperPod 할당량

    3. Quantity에는 클러스터 사용에 대한 인스턴스 할당량을 초과하지 않는 정수를 지정하십시오. 이 자습서에서는 세 그룹 모두에 대해 1을 입력하십시오.

    4. 수명 주기 스크립트 파일의 S3 경로에는 수명 주기 스크립트가 저장된 Amazon S3 경로를 입력합니다. 수명 주기 스크립트가 없는 경우 다음 하위 단계를 수행하여 SageMaker HyperPod 서비스 팀에서 제공하는 기본 수명 주기 스크립트를 사용하십시오.

      1. 멋진 분산 교육 GitHub 리포지토리를 복제하세요.

        git clone https://github.com/aws-samples/awsome-distributed-training/
      2. 아래에서 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config기본 라이프사이클 스크립트 세트를 찾을 수 있습니다. 라이프사이클 스크립트에 대한 자세한 내용은 을 참조하십시오Slurm을 설정하기 위한 라이프사이클 스크립트를 준비하십시오. SageMaker HyperPod .

      3. Slurm 구성 파일을 작성하고 다른 이름으로 저장합니다. provisioning_params.json 파일에서 기본 Slurm 구성 파라미터를 지정하여 Slurm 노드를 클러스터 인스턴스 그룹에 적절하게 할당합니다. SageMaker HyperPod 예를 들어 이전 단계 5a, 5b, 5c를 통해 구성된 HyperPod 클러스터 인스턴스 그룹을 기준으로 하면 다음과 provisioning_params.json 비슷해야 합니다.

        { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "my-controller-group", "login_group": "my-login-group", "worker_groups": [ { "instance_group_name": "worker-group-1", "partition_name": "partition-1" } ] }
      4. Amazon S3 버킷에 스크립트를 업로드합니다. 다음 형식의 경로가 있는 S3 버킷을 생성합니다s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src. Amazon S3 콘솔을 사용하여 이 버킷을 생성할 수 있습니다.

        참고

        with를 사용하면 보안 AmazonSageMakerClusterInstanceRolePolicy 주체만 이 특정 접두사를 sagemaker- IAM 역할: SageMaker HyperPod 가진 S3 버킷에 액세스할 수 있으므로 S3 버킷 경로에 접두사를 붙여야 합니다.

    5. 생성 시 수명 주기 스크립트의 디렉터리 경로에는 수명 주기 스크립트 파일의 S3 경로 아래에 수명 주기 스크립트의 파일 이름을 입력합니다.

    6. IAM 역할의 경우 섹션을 사용하여 생성한 IAM 역할을 선택합니다. AmazonSageMakerClusterInstanceRolePolicy IAM 역할: SageMaker HyperPod

    7. 고급 구성에서 다음과 같은 선택적 구성을 설정할 수 있습니다.

      1. (선택 사항) 코어당 스레드의 1 경우 멀티스레딩을 비활성화하고 2 멀티스레딩을 활성화하도록 지정합니다. 멀티스레딩을 지원하는 인스턴스 유형을 찾으려면 Amazon Elastic Compute Cloud 사용 설명서에서 인스턴스 유형별 CPU 코어 및 CPU 코어당 스레드의 참조 표를 참조하십시오.

      2. (선택 사항) 추가 인스턴스 스토리지 구성의 경우 1~16384 사이의 정수를 지정하여 추가 Elastic Block Store (EBS) 볼륨의 크기를 기가바이트 (GB) 단위로 설정합니다. EBS 볼륨은 인스턴스 그룹의 각 인스턴스에 연결됩니다. 추가 EBS 볼륨의 기본 탑재 경로는 입니다. /opt/sagemaker 클러스터가 성공적으로 생성되면 SSH로 클러스터 인스턴스 (노드) 에 연결하고 명령을 실행하여 EBS 볼륨이 올바르게 마운트되었는지 확인할 수 있습니다. df -h 추가 EBS 볼륨을 연결하면 Amazon Elastic Block Store 사용 설명서의 Amazon EBS 볼륨 섹션에 설명된 대로 안정적이고 인스턴스가 아닌 독립적으로 지속되는 스토리지가 제공됩니다.

  6. 3단계: 고급 구성에서는 클러스터 내부 및 클러스터 외부 네트워크 설정을 설정합니다. VPC에 대한 SageMaker 액세스 권한을 부여하는 VPC가 이미 있는 경우 자체 VPC를 선택하십시오. 계정이 없지만 새 VPC를 생성하려는 경우 Amazon Virtual Private Cloud 사용 설명서의 VPC 생성에 나와 있는 지침을 따르십시오. 기본 VPC를 사용하려면 VPC가 없는 상태로 둘 수 있습니다. SageMaker

  7. 4단계: 검토 및 생성에서 1단계부터 3단계까지 설정한 구성을 검토하고 클러스터 생성 요청 제출을 완료합니다.

  8. 새 클러스터는 SageMaker HyperPod 콘솔 기본 창의 클러스터 아래에 나타나야 합니다. 상태 열에 표시된 상태를 확인할 수 있습니다.

  9. 클러스터 상태가 켜지면 클러스터 노드에 로그인을 시작할 수 있습니다. InService 클러스터 노드에 액세스하고 ML 워크로드 실행을 시작하려면 을 참조하십시오 SageMaker HyperPod 클러스터에서 작업 실행.

클러스터를 삭제하고 리소스를 정리하세요.

SageMaker HyperPod 클러스터 생성을 성공적으로 테스트한 후에는 클러스터를 삭제할 때까지 해당 InService 상태로 계속 실행됩니다. 온디맨드 요금에 따라 계속 서비스 요금이 부과되지 않도록 온디맨드 SageMaker 인스턴스를 사용하여 만든 클러스터를 사용하지 않을 때는 삭제하는 것이 좋습니다. 이 자습서에서는 두 개의 인스턴스 그룹으로 구성된 클러스터를 생성했습니다. 그 중 하나는 C5 인스턴스를 사용하므로 의 지침에 따라 클러스터를 삭제해야 합니다. SageMaker HyperPod 클러스터 삭제

하지만 예약된 컴퓨팅 파워로 클러스터를 생성한 경우 클러스터의 상태는 서비스 청구에 영향을 주지 않습니다.

이 자습서에 사용된 S3 버킷에서 수명 주기 스크립트를 정리하려면 클러스터를 생성할 때 사용한 S3 버킷으로 이동하여 파일을 완전히 제거하십시오.

클러스터에서 워크로드 실행을 테스트한 경우 데이터를 업로드했는지 또는 작업에서 Amazon FSx for Lustre 및 Amazon Elastic File System과 같은 다른 S3 버킷 또는 파일 시스템 서비스에 아티팩트를 저장했는지 확인하십시오. 요금 발생을 방지하려면 스토리지 또는 파일 시스템에서 모든 아티팩트와 데이터를 삭제하십시오.