기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker Studio에서 HyperPod 클러스터(컴퓨팅 아래)의 클러스터 중 하나로 이동하여 클러스터 목록을 볼 수 있습니다. 표시된 클러스터에는 작업, 하드웨어 지표, 설정 및 메타데이터 세부 정보와 같은 정보가 포함되어 있습니다. 이러한 가시성은 팀이 사전 훈련 또는 미세 조정 워크로드에 적합한 후보를 식별하는 데 도움이 될 수 있습니다. 다음 섹션에서는 각 정보 유형에 대한 정보를 제공합니다.
업무
Amazon SageMaker HyperPod는 클러스터 작업에 대한 보기를 제공합니다. 작업은 클러스터로 전송되는 작업 또는 작업입니다. 훈련, 실험 실행 또는 추론과 같은 기계 학습 작업일 수 있습니다. 다음 섹션에서는 HyperPod 클러스터 작업에 대한 정보를 제공합니다.
Amazon SageMaker Studio에서 HyperPod 클러스터(컴퓨팅 아래)의 클러스터 중 하나로 이동하여 클러스터의 작업 정보를 볼 수 있습니다. 작업 보기에 문제가 있는 경우 섹션을 참조하세요문제 해결.
작업 테이블에는 다음이 포함됩니다.
Slurm 클러스터의 경우 현재 Slurm 작업 스케줄러 대기열에 있는 작업이 테이블에 표시됩니다. 각 작업에 대해 표시되는 정보에는 작업 이름, 상태, 작업 ID, 파티션, 런타임, 노드, 생성자 및 작업이 포함됩니다.
과거 작업에 대한 목록 및 세부 정보는 JupyterLab 또는 코드 편집기 터미널에서 sacct
sacct
명령은 시스템에서 완료되었거나 완료된 작업에 대한 기록 정보를 보는 데 사용됩니다. 메모리 및 종료 상태와 같은 작업 리소스 사용을 포함한 회계 정보를 제공합니다.
기본적으로 모든 Studio 사용자는 사용 가능한 모든 Slurm 작업을 보고 관리하고 상호 작용할 수 있습니다. 보기 가능한 작업을 Studio 사용자로 제한하려면 섹션을 참조하세요Studio for Slurm 클러스터에서 작업 보기 제한.
Metrics
Amazon SageMaker HyperPod는 Slurm 또는 Amazon EKS 클러스터 사용률 지표에 대한 보기를 제공합니다. 다음은 HyperPod 클러스터 지표에 대한 정보를 제공합니다.
다음 지표를 보려면 Amazon EKS 추가 기능을 설치해야 합니다. 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 설치를 참조하세요.
Amazon SageMaker Studio에서 HyperPod 클러스터(컴퓨팅 아래)의 클러스터 중 하나로 이동하여 클러스터의 지표 세부 정보를 볼 수 있습니다. 지표는 하드웨어, 팀 및 작업 지표를 포함한 클러스터 사용률 지표에 대한 포괄적인 보기를 제공합니다. 여기에는 컴퓨팅 가용성 및 사용량, 팀 할당 및 사용률, 작업 실행 및 대기 시간 정보가 포함됩니다.
설정
Amazon SageMaker HyperPod는 클러스터 설정을 보여줍니다. 다음은 HyperPod 클러스터 설정에 대한 정보를 제공합니다.
Amazon SageMaker Studio에서 HyperPod 클러스터(컴퓨팅 아래)의 클러스터 중 하나로 이동하여 클러스터의 설정 정보를 볼 수 있습니다. 정보에는 다음이 포함됩니다.
-
인스턴스 ID, 상태, 인스턴스 유형 및 인스턴스 그룹을 포함한 인스턴스 세부 정보
-
인스턴스 그룹 이름, 유형, 개수 및 컴퓨팅 정보를 포함한 인스턴스 그룹 세부 정보
-
오케스트레이터, 버전 및 인증 기관을 포함한 오케스트레이션 세부 정보
-
클러스터 복원력 세부 정보
-
서브넷 및 보안 그룹을 포함한 보안 세부 정보
세부 사항
Amazon SageMaker HyperPod는 클러스터 메타데이터 세부 정보를 보여줍니다. 다음 단락에서는 HyperPod 클러스터 세부 정보를 가져오는 방법에 대한 정보를 제공합니다.
Amazon SageMaker Studio에서 HyperPod 클러스터(컴퓨팅 아래)의 클러스터 중 하나로 이동하여 클러스터의 세부 정보를 볼 수 있습니다. 여기에는 태그, 로그 및 메타데이터가 포함됩니다.