쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

Studio의 HyperPod 탭

포커스 모드
Studio의 HyperPod 탭 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker Studio에서 HyperPod 클러스터(컴퓨팅 아래)의 클러스터 중 하나로 이동하여 클러스터 목록을 볼 수 있습니다. 표시된 클러스터에는 작업, 하드웨어 지표, 설정 및 메타데이터 세부 정보와 같은 정보가 포함되어 있습니다. 이러한 가시성은 팀이 사전 훈련 또는 미세 조정 워크로드에 적합한 후보를 식별하는 데 도움이 될 수 있습니다. 다음 섹션에서는 각 정보 유형에 대한 정보를 제공합니다.

업무

Amazon SageMaker HyperPod는 클러스터 작업에 대한 보기를 제공합니다. 작업은 클러스터로 전송되는 작업 또는 작업입니다. 훈련, 실험 실행 또는 추론과 같은 기계 학습 작업일 수 있습니다. 다음 섹션에서는 HyperPod 클러스터 작업에 대한 정보를 제공합니다.

Amazon SageMaker Studio에서 HyperPod 클러스터(컴퓨팅 아래)의 클러스터 중 하나로 이동하여 클러스터의 작업 정보를 볼 수 있습니다. 작업 보기에 문제가 있는 경우 섹션을 참조하세요문제 해결.

작업 테이블에는 다음이 포함됩니다.

For Slurm clusters

Slurm 클러스터의 경우 현재 Slurm 작업 스케줄러 대기열에 있는 작업이 테이블에 표시됩니다. 각 작업에 대해 표시되는 정보에는 작업 이름, 상태, 작업 ID, 파티션, 런타임, 노드, 생성자 및 작업이 포함됩니다.

과거 작업에 대한 목록 및 세부 정보는 JupyterLab 또는 코드 편집기 터미널에서 sacct 명령을 사용합니다. 이 sacct 명령은 시스템에서 완료되었거나 완료된 작업에 대한 기록 정보를 보는 데 사용됩니다. 메모리 및 종료 상태와 같은 작업 리소스 사용을 포함한 회계 정보를 제공합니다.

기본적으로 모든 Studio 사용자는 사용 가능한 모든 Slurm 작업을 보고 관리하고 상호 작용할 수 있습니다. 보기 가능한 작업을 Studio 사용자로 제한하려면 섹션을 참조하세요Studio for Slurm 클러스터에서 작업 보기 제한.

For Amazon EKS clusters

Amazon EKS 클러스터의 경우 kubeflow(PyTorch, MPI, TensorFlow) 작업이 테이블에 표시됩니다. PyTorch 작업은 기본적으로 표시됩니다. 작업 유형에서 PyTorch, MPI 및 TensorFlow를 정렬할 수 있습니다. 각 작업에 대해 표시되는 정보에는 작업 이름, 상태, 네임스페이스, 우선순위 클래스 및 생성 시간이 포함됩니다.

기본적으로 모든 사용자는 모든 네임스페이스에서 작업을 볼 수 있습니다. Studio 사용자가 볼 수 있는 Kubernetes 네임스페이스를 제한하려면 섹션을 참조하세요Studio for EKS 클러스터에서 작업 보기 제한. 사용자가 작업을 볼 수 없고 네임스페이스를 제공하도록 요청받는 경우 관리자에게 해당 정보를 받아야 합니다.

Slurm 클러스터의 경우 현재 Slurm 작업 스케줄러 대기열에 있는 작업이 테이블에 표시됩니다. 각 작업에 대해 표시되는 정보에는 작업 이름, 상태, 작업 ID, 파티션, 런타임, 노드, 생성자 및 작업이 포함됩니다.

과거 작업에 대한 목록 및 세부 정보는 JupyterLab 또는 코드 편집기 터미널에서 sacct 명령을 사용합니다. 이 sacct 명령은 시스템에서 완료되었거나 완료된 작업에 대한 기록 정보를 보는 데 사용됩니다. 메모리 및 종료 상태와 같은 작업 리소스 사용을 포함한 회계 정보를 제공합니다.

기본적으로 모든 Studio 사용자는 사용 가능한 모든 Slurm 작업을 보고 관리하고 상호 작용할 수 있습니다. 보기 가능한 작업을 Studio 사용자로 제한하려면 섹션을 참조하세요Studio for Slurm 클러스터에서 작업 보기 제한.

Metrics

Amazon SageMaker HyperPod는 Slurm 또는 Amazon EKS 클러스터 사용률 지표에 대한 보기를 제공합니다. 다음은 HyperPod 클러스터 지표에 대한 정보를 제공합니다.

다음 지표를 보려면 Amazon EKS 추가 기능을 설치해야 합니다. 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 설치를 참조하세요.

Amazon SageMaker Studio에서 HyperPod 클러스터(컴퓨팅 아래)의 클러스터 중 하나로 이동하여 클러스터의 지표 세부 정보를 볼 수 있습니다. 지표는 하드웨어, 팀 및 작업 지표를 포함한 클러스터 사용률 지표에 대한 포괄적인 보기를 제공합니다. 여기에는 컴퓨팅 가용성 및 사용량, 팀 할당 및 사용률, 작업 실행 및 대기 시간 정보가 포함됩니다.

설정

Amazon SageMaker HyperPod는 클러스터 설정을 보여줍니다. 다음은 HyperPod 클러스터 설정에 대한 정보를 제공합니다.

Amazon SageMaker Studio에서 HyperPod 클러스터(컴퓨팅 아래)의 클러스터 중 하나로 이동하여 클러스터의 설정 정보를 볼 수 있습니다. 정보에는 다음이 포함됩니다.

  • 인스턴스 ID, 상태, 인스턴스 유형 및 인스턴스 그룹을 포함한 인스턴스 세부 정보

  • 인스턴스 그룹 이름, 유형, 개수 및 컴퓨팅 정보를 포함한 인스턴스 그룹 세부 정보

  • 오케스트레이터, 버전 및 인증 기관을 포함한 오케스트레이션 세부 정보

  • 클러스터 복원력 세부 정보

  • 서브넷 및 보안 그룹을 포함한 보안 세부 정보

세부 사항

Amazon SageMaker HyperPod는 클러스터 메타데이터 세부 정보를 보여줍니다. 다음 단락에서는 HyperPod 클러스터 세부 정보를 가져오는 방법에 대한 정보를 제공합니다.

Amazon SageMaker Studio에서 HyperPod 클러스터(컴퓨팅 아래)의 클러스터 중 하나로 이동하여 클러스터의 세부 정보를 볼 수 있습니다. 여기에는 태그, 로그 및 메타데이터가 포함됩니다.

이 페이지에서

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.