scikit-learn을 사용하여 처리 작업 실행 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

scikit-learn을 사용하여 처리 작업 실행

Amazon SageMaker Processing을 사용하여 Amazon 에서 제공하는 Docker 이미지에서 scikit-learn 스크립트를 사용하여 데이터를 처리하고 모델을 평가할 수 있습니다 SageMaker. 다음은 scikit-learn을 사용하여 Amazon SageMaker Processing 작업을 실행하는 방법에 대한 예제입니다.

데이터를 사전 처리하고 모델을 평가하기 위해 에서 제공 및 유지 관리하는 Docker 이미지를 사용하여 scikit-learn 스크립트 SageMaker 를 실행하는 방법을 보여주는 샘플 노트북은 scikit-learn Processing을 참조하세요. 이 노트북을 사용하려면 Python SDK for Processing을 SageMaker 설치해야 합니다.

이 노트북은 SageMaker Python의 SKLearnProcessor 클래스를 사용하여 처리 작업을 실행SDK하여 사용자가 제공하는 scikit-learn 스크립트를 실행합니다. 스크립트는 데이터를 사전 처리하고, 훈련 작업을 사용하여 모델을 SageMaker 훈련한 다음, 훈련된 모델을 평가하기 위해 처리 작업을 실행합니다. 처리 작업은 모델이 프로덕션 환경에서 수행될 것으로 예상되는 방식을 추정합니다.

처리 컨테이너와 SDK 함께 SageMaker Python을 사용하는 방법에 대한 자세한 내용은 SageMaker Python SDK을 참조하세요. 처리 작업에 사용할 수 있는 사전 구축된 Docker 이미지의 전체 목록은 Docker 레지스트리 경로 및 예제 코드를 참고하세요.

다음 코드 예제는 노트북이 SKLearnProcessor에서 제공하고 유지 관리하는 Docker 이미지를 사용하여 자체 Docker 이미지 SageMaker대신 자체 scikit-learn 스크립트를 실행하는 방법을 보여줍니다.

from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )

Amazon SageMaker Processing에서 Scikit-Learn을 사용하여 데이터를 병렬로 처리하려면 각 인스턴스가 거의 동일한 수의 입력 객체를 수신ProcessingInput하도록 s3_data_distribution_type='ShardedByS3Key' 내부를 설정하여 S3 키로 입력 객체를 샤드할 수 있습니다.