프로필 데이터에 액세스 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

프로필 데이터에 액세스

SMDebug TrainingJob 클래스는 시스템 및 프레임워크 지표가 저장된 S3 버킷에서 데이터를 읽습니다.

TrainingJob 객체를 설정하고 훈련 작업의 프로파일링 이벤트 파일을 검색하려면

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
작은 정보

훈련 작업에 기록할 training_job_nameregion 파라미터를 지정해야 합니다. 훈련 작업 정보를 지정하는 방법은 두 가지입니다.

  • 추정기가 아직 훈련 작업에 연결되어 있는 동안 SageMaker Python SDK를 사용하십시오.

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • 문자열을 직접 전달하세요.

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
참고

기본적으로 SageMaker 디버거는 시스템 메트릭을 수집하여 하드웨어 리소스 사용률과 시스템 병목 현상을 모니터링합니다. 다음 함수를 실행하면 프레임워크 지표를 사용할 수 없다는 오류 메시지가 나타날 수 있습니다. 프레임워크 프로파일링 데이터를 검색하고 프레임워크 작업에 대한 인사이트를 얻으려면 프레임워크 프로파일링을 활성화해야 합니다.

  • SageMaker Python SDK를 사용하여 훈련 작업 요청을 조작하는 경우 framework_profile_params 를 추정기의 profiler_config 인수로 전달하십시오. 자세히 알아보려면 디버거 프레임워크 프로파일링 구성을 SageMaker 참조하십시오.

  • Studio Classic을 사용하는 경우 디버거 인사이트 대시보드의 프로파일링 토글 버튼을 사용하여 프로파일링을 켜십시오. 자세히 알아보려면 SageMaker 디버거 인사이트 대시보드 컨트롤러를 참조하십시오.

훈련 작업 설명에 대한 설명 및 지표 데이터가 저장되는 S3 버킷 URI를 검색하려면

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

S3 URI에서 시스템 및 프레임워크 지표를 사용할 수 있는지 확인하려면

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

지표 데이터를 사용할 수 있게 된 후 시스템 및 프레임워크 리더 객체를 생성하려면

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

최신 훈련 이벤트 파일을 새로 고치고 검색하려면

독자 객체에는 최신 훈련 이벤트 파일을 검색할 수 있는 확장된 메서드인 refresh_event_file_list()가 있습니다.

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()