쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

컴퓨팅 성능 프로파일링 및 최적화

포커스 모드
컴퓨팅 성능 프로파일링 및 최적화 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

규모가 빠르게 커지는 최첨단 딥 러닝 모델을 훈련할 때 이러한 모델의 훈련 작업을 대규모 GPU 클러스터로 확장하고 경사 하강 프로세스의 모든 반복에서 수십억, 수조 건의 작업 및 통신으로 인한 계산 성능 문제를 파악하는 것은 어려운 일이 됩니다.

SageMaker AI는 AWS 클라우드 컴퓨팅 리소스에서 훈련 작업을 실행하여 발생하는 복잡한 컴퓨팅 문제를 시각화하고 진단하는 프로파일링 도구를 제공합니다. SageMaker AI가 제공하는 두 가지 프로파일링 옵션은 Amazon SageMaker Profiler와 Amazon SageMaker Studio Classic의 리소스 활용 모니터입니다. 다음 두 기능에 대한 소개를 참조하여 빠르게 인사이트를 얻고 필요에 따라 어떤 기능을 사용해야 하는지 알아보세요.

Amazon SageMaker Profiler

Amazon SageMaker Profiler는 SageMaker AI의 프로파일링 기능으로, 딥 러닝 모델을 훈련하는 동안 프로비저닝된 컴퓨팅 리소스를 심층적으로 살펴보고 운영 수준 세부 정보를 파악할 수 있습니다. SageMaker Profiler는 PyTorch 또는 TensorFlow 훈련 스크립트 전체에 주석을 추가하고 SageMaker Profiler를 활성화하기 위한 Python 모듈을 제공합니다. SageMaker Python SDK 및 AWS 딥 러닝 컨테이너를 통해 모듈에 액세스할 수 있습니다.

SageMaker Profiler를 사용하면 CPU 및 GPU 사용률, GPU에서의 커널 실행, CPU에서의 커널 실행, CPU에서의 커널 실행, 동기화 작업, CPU와 GPU에서의 메모리 작업, 커널 실행과 해당 실행 사이의 지연 시간, CPU와 GPU 간 데이터 전송과 같은 CPU와 GPU의 모든 활동을 추적할 수 있습니다.

또한, SageMaker Profiler는 프로필을 시각화하는 사용자 인터페이스(UI), 프로파일링된 이벤트의 통계 요약, GPU와 CPU 간 이벤트의 시간 관계를 추적하고 이해하기 위한 훈련 작업 타임라인을 제공합니다.

SageMaker Profiler에 대해 자세히 알아보려면 Amazon SageMaker Profiler을 참조하세요.

Amazon SageMaker Studio Classic에서 AWS 컴퓨팅 리소스 모니터링

또한 SageMaker AI는 Studio Classic에서 사용자 인터페이스를 제공하여 리소스 사용률을 높은 수준으로 모니터링하지만 SageMaker AI에서 CloudWatch로 수집된 기본 사용률 지표에 비해 더 세분화됩니다.

SageMaker Python SDK를 사용하여 SageMaker AI에서 실행하는 모든 훈련 작업에 대해 SageMaker AI는 CPU 사용률, GPU 사용률, GPU 메모리 사용률, 네트워크 및 I/O 대기 시간과 같은 기본 리소스 사용률 지표를 프로파일링하기 시작합니다. 이러한 리소스 사용률 지표를 500밀리초마다 수집합니다.

1초 간격으로 지표를 수집하는 Amazon CloudWatch 지표에 비해 SageMaker AI의 모니터링 기능은 리소스 사용률 지표를 100밀리초(0.1초) 간격으로 더 세밀하게 세분화하므로 작업 또는 단계의 수준에서 지표를 자세히 살펴볼 수 있습니다.

훈련 작업의 리소스 사용률 지표를 모니터링하기 위한 대시보드에 액세스하려면 SageMaker Studio Experiments의 SageMaker AI Debugger UI를 참조하세요.

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.