데이터 처리 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 처리

Amazon에서 데이터를 분석하고 기계 학습 모델을 평가하려면 Amazon SageMaker Processing을 사용하십시오. SageMaker 프로세싱을 사용하면 기능 엔지니어링, 데이터 검증, 모델 평가 및 모델 해석과 같은 데이터 처리 워크로드를 실행하는 SageMaker 데 단순화되고 관리되는 환경을 사용할 수 있습니다. 또한, 실험 단계 및 코드를 프로덕션에 배포한 후에 Amazon SageMaker Processing API를 사용하여 성능을 평가할 수 있습니다.


            처리 작업 실행.

위 다이어그램은 SageMaker Amazon이 처리 작업을 시작하는 방법을 보여줍니다. Amazon은 스크립트를 SageMaker 가져와 Amazon Simple S3 (Amazon S3) 에서 데이터를 복사한 다음 처리 컨테이너를 가져옵니다. 처리 컨테이너 이미지는 Amazon의 SageMaker 내장 이미지나 사용자가 제공하는 사용자 지정 이미지일 수 있습니다. 처리 작업의 기본 인프라는 Amazon에서 완전히 관리합니다 SageMaker. 클러스터 리소스는 작업 기간 동안 프로비저닝되고 작업이 완료되면 정리됩니다. 프로세싱 작업의 출력은 지정하는 Amazon S3 버킷에 저장됩니다.

참고

입력 데이터는 Amazon S3 버킷에 저장해야 합니다. 아니면, Amazon Athena 또는 Amazon Redshift를 입력 소스로 사용할 수 있습니다.

작은 정보

기계 학습(ML) 훈련 및 처리 작업의 분산형 컴퓨팅에 대한 일반적인 모범 사례를 알아보려면 SageMaker 모범 사례를 사용한 분산 컴퓨팅을 참고하십시오.

Amazon SageMaker 프로세싱 샘플 노트북 사용

데이터 사전 처리, 모델 평가 또는 두 가지 모두를 수행하는 방법을 보여주는 2개의 샘플 Jupyter 노트북을 제공합니다.

SageMaker Python SDK for Processing을 사용하여 scikit-learn 스크립트를 실행하여 데이터 전처리 및 모델 학습 및 평가를 수행하는 방법을 보여주는 샘플 노트북은 scikit-learn 프로세싱을 참조하십시오. 또한 이 노트북은 사용자 지정 컨테이너를 사용하여 Python 라이브러리 및 기타 특정 종속성을 포함하는 처리 워크로드를 실행하는 방법을 보여줍니다.

Amazon Processing을 사용하여 Spark로 분산 데이터 사전 SageMaker 처리를 수행하는 방법을 보여주는 샘플 노트북은 분산 처리 (Spark) 를 참조하십시오. 이 노트북은 사전 처리된 데이터 세트에서 XGBoost를 사용하여 회귀 모델을 훈련하는 방법도 보여줍니다.

이러한 샘플을 실행하는 데 사용할 수 있는 Jupyter 노트북 인스턴스를 생성하고 액세스하는 방법에 대한 지침은 을 참조하십시오. SageMaker 아마존 SageMaker 노트북 인스턴스 Notebook 인스턴스를 만들고 연 후 SageMaker Examples 탭을 선택하면 모든 샘플 목록이 표시됩니다. SageMaker 노트북을 열려면 사용 탭을 선택한 후 사본 생성을 선택합니다.

CloudWatch 로그 및 지표로 Amazon SageMaker 처리 작업 모니터링

Amazon SageMaker Processing은 처리 작업을 모니터링하기 위한 Amazon CloudWatch 로그와 지표를 제공합니다. CloudWatch CPU, GPU, 메모리, GPU 메모리, 디스크 지표, 이벤트 로깅을 제공합니다. 자세한 정보는 SageMaker 아마존과 함께 아마존을 모니터링하세요 CloudWatch아마존에서 아마존 SageMaker 이벤트를 기록하세요 CloudWatch(을)를 참조하세요.