기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon EKS에서 오케스트레이션한 SageMaker HyperPod 클러스터의 스토리지 구성
클러스터 관리자는 SageMaker HyperPod 클러스터에 대한 훈련 중에 데이터 과학자 사용자가 입력 및 출력 데이터를 관리하고 체크포인트를 저장할 수 있도록 스토리지를 구성해야 합니다.
대규모 데이터세트 처리(입력/출력 데이터)
-
데이터 액세스 및 관리: 데이터 과학자는 기계 학습 모델을 훈련하는 데 필요한 대규모 데이터세트로 작업하는 경우가 많습니다. 작업 제출에서 스토리지 파라미터를 지정하면 이러한 데이터세트의 위치(예: Amazon S3 버킷, Kubernetes의 영구 볼륨)와 작업 실행 중 액세스 방법을 정의할 수 있습니다.
-
성능 최적화: 입력 데이터에 액세스하는 효율성은 훈련 작업의 성능에 상당한 영향을 미칠 수 있습니다. 데이터 과학자는 스토리지 파라미터를 최적화하여 데이터를 효율적으로 읽고 쓰도록 하여 I/O 병목 현상을 줄일 수 있습니다.
체크포인트 저장
-
훈련의 체크포인트: 장기 실행 훈련 작업 중에 모델의 중간 상태인 체크포인트를 저장하는 것이 일반적인 방법입니다. 이를 통해 데이터 과학자는 처음부터 시작하는 대신 장애가 발생할 경우 특정 시점에서 훈련을 재개할 수 있습니다.
-
데이터 복구 및 실험: 데이터 과학자는 체크포인트의 스토리지 위치를 지정하여 이러한 체크포인트가 잠재적으로 중복성과 고가용성을 제공하는 분산 스토리지 시스템에 안전하게 저장되도록 할 수 있습니다. 이는 중단으로부터 복구하고 다양한 훈련 전략을 실험하는 데 매우 중요합니다.
작은 정보
Amazon EKS로 오케스트레이션된 SageMaker HyperPod 클러스터의 스토리지를 설정하는 방법에 대한 실습 경험 및 지침은 SageMaker HyperPod 워크숍의 Amazon EKS 지원