컴퓨팅 성능 프로파일링 및 최적화

규모가 빠르게 커지는 최첨단 딥 러닝 모델을 훈련할 때 이러한 모델의 훈련 작업을 대규모 GPU 클러스터로 확장하고 경사 하강 프로세스의 모든 반복에서 수십억, 수조 건의 작업 및 통신으로 인한 계산 성능 문제를 파악하는 것은 어려운 일이 됩니다.

SageMaker AI는 AWS 클라우드 컴퓨팅 리소스에서 훈련 작업을 실행하여 발생하는 복잡한 컴퓨팅 문제를 시각화하고 진단하는 프로파일링 도구를 제공합니다. SageMaker AI가 제공하는 두 가지 프로파일링 옵션은 Amazon SageMaker Profiler와 Amazon SageMaker Studio Classic의 리소스 활용 모니터입니다. 다음 두 기능에 대한 소개를 참조하여 빠르게 인사이트를 얻고 필요에 따라 어떤 기능을 사용해야 하는지 알아보세요.

Amazon SageMaker Profiler

Amazon SageMaker Profiler는 딥 러닝 모델을 훈련하는 동안 프로비저닝된 컴퓨팅 리소스를 심층 분석하고 운영 수준 세부 정보를 파악할 수 있는 SageMaker AI의 프로파일링 기능입니다. SageMaker Profiler는 PyTorch 또는 TensorFlow 훈련 스크립트 전체에 주석을 추가하고 SageMaker Profiler를 활성화하기 위한 Python 모듈을 제공합니다. SageMaker Python SDK 및 AWS 딥 러닝 컨테이너를 통해 모듈에 액세스할 수 있습니다.

SageMaker Profiler를 사용하면 CPU 및 GPU 사용률, GPU에서의 커널 실행, CPU에서의 커널 실행, CPU에서의 커널 실행, 동기화 작업, CPU와 GPU에서의 메모리 작업, 커널 실행과 해당 실행 사이의 지연 시간, CPU와 GPU 간 데이터 전송과 같은 CPU와 GPU의 모든 활동을 추적할 수 있습니다.

또한, SageMaker Profiler는 프로필을 시각화하는 사용자 인터페이스(UI), 프로파일링된 이벤트의 통계 요약, GPU와 CPU 간 이벤트의 시간 관계를 추적하고 이해하기 위한 훈련 작업 타임라인을 제공합니다.

SageMaker Profiler에 대해 자세히 알아보려면 Amazon SageMaker Profiler을 참조하세요.

Amazon SageMaker Studio Classic에서 AWS 컴퓨팅 리소스 모니터링

또한 SageMaker AI는 Studio Classic에서 사용자 인터페이스를 제공하여 리소스 사용률을 높은 수준으로 모니터링하지만 SageMaker AI에서 CloudWatch로 수집된 기본 사용률 지표에 비해 더 세분화됩니다.

SageMaker Python SDK를 사용하여 SageMaker AI에서 실행하는 모든 훈련 작업에 대해 SageMaker AI는 CPU 사용률, GPU 사용률, GPU 메모리 사용률, 네트워크 및 I/O 대기 시간과 같은 기본 리소스 사용률 지표를 프로파일링하기 시작합니다. 이러한 리소스 사용률 지표를 500밀리초마다 수집합니다.

1초 간격으로 지표를 수집하는 Amazon CloudWatch 지표에 비해 SageMaker AI의 모니터링 기능은 리소스 사용률 지표를 100밀리초(0.1초) 간격으로 더 세밀하게 세분화하므로 작업 또는 단계의 수준에서 지표를 자세히 살펴볼 수 있습니다.

훈련 작업의 리소스 사용률 지표를 모니터링하기 위한 대시보드에 액세스하려면 SageMaker Studio Experiments의 SageMaker AI Debugger UI를 참조하세요.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

릴리스 정보

SageMaker Profiler