SageMaker HyperPod 자주 묻는 질문 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker HyperPod 자주 묻는 질문

다음과 같은 자주 묻는 질문을 참조하여 사용 관련 문제를 해결하십시오. SageMaker HyperPod

Q. CloudWatch Amazon에서 SageMaker HyperPod 클러스터의 로그 그룹을 찾을 수 없는 이유는 무엇입니까?

기본적으로 에이전트 로그와 인스턴스 시작 로그는 HyperPod 플랫폼 계정으로 전송됩니다. CloudWatch 사용자 라이프사이클 스크립트의 경우 라이프사이클 구성 로그가 사용자 계정으로 전송됩니다. CloudWatch

HyperPod 서비스 팀에서 제공하는 샘플 수명 주기 스크립트를 사용하면 기록된 수명 주기 구성 로그를 찾을 수 있지만 이 문제는 발생하지 않을 것입니다. /var/log/provision/provisioning.log

하지만 수명 주기 프로비저닝에서 로그를 수집하는 데 사용자 지정 경로를 사용하지만 계정에 나타나는 로그 그룹을 찾을 수 없는 경우 수명 주기 스크립트에 지정된 로그 파일 경로와 HyperPod 클러스터 인스턴스에서 실행되는 CloudWatch 에이전트가 찾는 경로가 일치하지 않기 때문일 수 있습니다. CloudWatch 이 경우 에이전트에 로그를 전송하도록 수명 주기 스크립트를 적절하게 설정하고 CloudWatch CloudWatch 에이전트 구성도 그에 따라 설정해야 합니다. 문제를 해결하려면 다음 옵션 중 하나를 선택하십시오.

  • 옵션 1: 로그를 기록할 라이프사이클 스크립트를 업데이트하십시오/var/log/provision/provisioning.log.

  • 옵션 2: 수명 주기 프로비저닝 로깅을 위한 사용자 지정 경로를 찾도록 CloudWatch 에이전트를 업데이트하세요.

    1. 각 HyperPod 클러스터 인스턴스에는 에서 JSON 형식의 CloudWatch 에이전트 구성 파일이 포함되어 있습니다. /opt/aws/amazon-cloudwatch-agent/sagemaker_cwagent_config.json 구성 파일에서 필드 이름을 logs.logs_collected.files.collect_list.file_path 찾습니다. 디폴트 설정으로 키-값 쌍은 에 설명된 "file_path": "/var/log/provision/provisioning.log" 것과 같아야 합니다. HyperPod 인스턴스 SageMaker HyperPod 수준 로깅 다음 코드 스니펫은 기본 구성에서 JSON 파일이 어떻게 보이는지 보여줍니다. HyperPod

      "logs": { "logs_collected": { "files": { "collect_list": [ { "file_path": "/var/log/provision/provisioning.log", "log_group_name": "/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]", "log_stream_name": "LifecycleConfig/[InstanceGroupName]/{instance_id}", "retention_in_days": -1 } ] } }, "force_flush_interval": 3 }
    2. "file_path"필드 이름 값을 라이프사이클 스크립트에서 사용하는 사용자 지정 경로로 바꾸십시오. 예를 들어, 쓰기 대상으로 라이프사이클 스크립트를 설정한 경우 다음과 같이 값을 업데이트하여 해당 값과 일치하도록 하십시오. /var/log/custom-provision/custom-provisioning.log

      "file_path": "/var/log/custom-provision/custom-provisioning.log"
    3. 구성 파일을 사용하여 CloudWatch 에이전트를 다시 시작하여 사용자 지정 경로 적용을 완료하십시오. 예를 들어, 다음 CloudWatch 명령은 1단계의 CloudWatch CloudWatch 에이전트 구성 파일을 사용하여 에이전트를 다시 시작하는 방법을 보여줍니다. 자세한 내용은 CloudWatch 에이전트 문제 해결도 참조하십시오.

      sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl \ -a fetch-config -m ec2 -s -c \ file:/opt/aws/amazon-cloudwatch-agent/sagemaker_cwagent_config.json

Q. Slurm 구성 파일에서 HyperPod 관리하는 특정 구성 (예: 및) 은 무엇입니까? slurm.conf gres.conf

Slurm 클러스터를 생성하면 HyperPod 에이전트는 클러스터 생성 요청 slurm.conf및 라이프사이클 스크립트를 기반으로 Slurm 클러스터를 관리하기 /opt/slurm/etc/ 위해 및 gres.conf파일을 설정합니다. HyperPod HyperPod 다음 목록은 HyperPod 에이전트가 처리하고 덮어쓰는 특정 매개 변수를 보여줍니다.

중요

관리 대상이 되는 이러한 매개 변수는 변경하지 않는 것이 좋습니다. HyperPod

  • 에서는 slurm.conf, ClusterName SlurmctldHostPartitionName, 및 같은 기본 매개변수를 HyperPod 설정합니다NodeName.

    또한 이 자동 재개 기능을 HyperPod 활성화하려면 다음과 같이 TaskPluginSchedulerParameters 매개변수를 설정해야 합니다. HyperPod 에이전트는 기본적으로 이 두 매개 변수를 필수 값으로 설정합니다.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • gres.conf에서는 GPU 노드를 HyperPod 관리합니다NodeName.

Q. Slurm 노드에서 Docker를 실행하려면 어떻게 해야 합니까? HyperPod

실행 중인 Slurm 노드에서 Docker를 실행할 수 있도록 HyperPod 서비스 팀은 클러스터 생성을 위한 수명 주기 구성의 일부로 포함할 수 있는 설정 스크립트를 제공합니다. HyperPod 자세한 내용은 에서 제공하는 기본 수명 주기 스크립트로 시작합니다. HyperPod의 Slurm 컴퓨팅 노드에서 Docker 컨테이너 실행 HyperPod 섹션을 참조하세요.

Q: Slurm과 함께 Docker 또는 Enroot 컨테이너를 시작할 때 P 인스턴스의 로컬 NVMe 스토어를 사용하려면 어떻게 해야 합니까?

헤드 노드의 기본 루트 볼륨은 일반적으로 100GB EBS 볼륨으로 제한되기 때문에 로컬 NVMe 인스턴스 스토어를 사용하려면 Docker 및 Enroot를 설정해야 합니다. NVMe 스토어를 설정하고 Docker 컨테이너를 시작하는 데 사용하는 방법을 알아보려면 을 참조하십시오. 의 Slurm 컴퓨팅 노드에서 Docker 컨테이너 실행 HyperPod

Q: EFA 보안 그룹을 설정하는 방법은 무엇입니까?

EFA 지원 인스턴스가 포함된 HyperPod 클러스터를 생성하려면 보안 그룹 자체에서 들어오고 나가는 모든 인바운드 및 아웃바운드 트래픽을 허용하도록 보안 그룹을 설정해야 합니다. 자세한 내용은 Amazon EC2 사용 설명서의 1단계: EFA 지원 보안 그룹 준비를 참조하십시오.

Q: 클러스터 노드를 모니터링하려면 어떻게 해야 합니까? HyperPod 에서 HyperPod 내보낸 CloudWatch 지표가 있습니까?

HyperPod 클러스터의 리소스 사용률을 관찰 가능하게 하려면 클러스터를 Amazon Managed Grafana 및 Prometheus용 Amazon Managed Service와 통합하는 것이 좋습니다. HyperPod 다양한 오픈 소스 Grafana 대시보드 및 익스포터 패키지를 사용하여 클러스터 리소스와 관련된 메트릭을 내보내고 시각화할 수 있습니다. HyperPod Amazon Managed Grafana 및 Prometheus용 Amazon Managed Service를 SageMaker HyperPod 사용하여 설정하는 방법에 대한 자세한 내용은 을 참조하십시오. SageMaker HyperPod 클러스터 리소스 모니터링 참고로, SageMaker HyperPod 현재는 Amazon으로 시스템 메트릭을 내보내는 기능을 지원하지 않습니다. CloudWatch

Q: 클러스터 노드에 스토리지를 더 HyperPod 추가할 수 있습니까? 클러스터 인스턴스의 로컬 인스턴스 스토어는 제한되어 있습니다.

기본 인스턴스 스토리지가 워크로드에 충분하지 않은 경우 인스턴스당 추가 스토리지를 구성할 수 있습니다. 2024년 6월 20일 릴리스부터 클러스터의 각 인스턴스에 Amazon Elastic Block Store (EBS) 볼륨을 추가할 수 있습니다. SageMaker HyperPod 2024년 6월 20일 이전에 생성된 SageMaker HyperPod 클러스터의 기존 인스턴스 그룹에는 이 기능을 적용할 수 없다는 점에 유의하십시오. 2024년 6월 20일 이전에 생성된 기존 SageMaker HyperPod 클러스터를 패치하고 새 인스턴스 그룹을 추가하여 이 기능을 활용할 수 있습니다. 이 기능은 2024년 6월 20일 이후에 생성된 모든 SageMaker HyperPod 클러스터에 완전히 유효합니다.