Amazon SageMaker 스튜디오 클래식에서 AWS 컴퓨팅 리소스 사용률을 모니터링합니다. - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker 스튜디오 클래식에서 AWS 컴퓨팅 리소스 사용률을 모니터링합니다.

교육 작업의 컴퓨팅 리소스 사용률을 추적하려면 Amazon SageMaker Debugger에서 제공하는 모니터링 도구를 사용하십시오.

SageMaker Python SDK를 SageMaker 사용하여 실행하는 모든 교육 작업의 경우 Debugger는 CPU 사용률, GPU 사용률, GPU 메모리 사용률, 네트워크 및 I/O 대기 시간과 같은 기본 리소스 사용률 메트릭을 500밀리초마다 수집합니다. 교육 작업의 리소스 사용률 메트릭의 대시보드를 보려면 Studio Experments의 디버거 UI를 사용하면 됩니다. SageMaker SageMaker

딥 러닝 작업 및 단계는 밀리초 간격으로 작동할 수 있습니다. 1초 간격으로 CloudWatch 지표를 수집하는 Amazon 지표와 비교하여 디버거는 100밀리초 (0.1초) 간격으로 리소스 사용률 지표를 더 세밀하게 분석하므로 작업 또는 단계 수준에서 지표를 자세히 살펴볼 수 있습니다.

지표 수집 시간 간격을 변경하려는 경우 프로파일링 구성을 위한 파라미터를 훈련 작업 시작 프로그램에 추가할 수 있습니다. 예를 들어 SageMaker Python SDK를 사용하는 경우 추정기 객체를 만들 때 profiler_config 파라미터를 전달해야 합니다. 리소스 사용률 지표 수집 간격을 조정하는 방법을 알아보려면 Python SDK의 SageMaker 디버거 Python 모듈을 사용하여 SageMaker 추정기 객체를 구성하기 위한 코드 템플릿 SageMaker를 확인한 후에 시스템 리소스 사용률의 기본 프로파일링을 위한 설정 구성를 확인하십시오.

또한 Debugger에서 제공하는 내장 프로파일링 규칙이라는 이슈 감지 도구를 추가할 수 있습니다. SageMaker 기본 제공 프로파일링 규칙은 리소스 사용률 지표에 대한 분석을 실행하고 계산 성능 문제를 감지합니다. 자세한 설명은 Amazon Debugger에서 관리하는 내장 프로파일러 규칙을 구성합니다. SageMaker 섹션을 참조하세요. SageMaker Studio Experimments의 SageMaker 디버거 UI 또는 디버거 프로파일링 보고서를 통해 규칙 분석 결과를 받을 수 있습니다. SageMaker SageMaker Python SDK를 사용하여 사용자 지정 프로파일링 규칙을 만들 수도 있습니다.

SageMaker Debugger에서 제공하는 모니터링 기능에 대한 자세한 내용은 다음 항목을 참조하십시오.