기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
scikit-learn을 사용하여 처리 작업 실행
Amazon SageMaker Processing을 사용하여 Amazon 에서 제공하는 Docker 이미지에서 scikit-learn 스크립트를 사용하여 데이터를 처리하고 모델을 평가할 수 있습니다 SageMaker. 다음은 scikit-learn을 사용하여 Amazon SageMaker Processing 작업을 실행하는 방법에 대한 예제입니다.
데이터를 사전 처리하고 모델을 평가하기 위해 에서 제공 및 유지 관리하는 Docker 이미지를 사용하여 scikit-learn 스크립트 SageMaker 를 실행하는 방법을 보여주는 샘플 노트북은 scikit-learn Processing을
이 노트북은 SageMaker Python의 SKLearnProcessor
클래스를 사용하여 처리 작업을 실행SDK하여 사용자가 제공하는 scikit-learn 스크립트를 실행합니다. 스크립트는 데이터를 사전 처리하고, 훈련 작업을 사용하여 모델을 SageMaker 훈련한 다음, 훈련된 모델을 평가하기 위해 처리 작업을 실행합니다. 처리 작업은 모델이 프로덕션 환경에서 수행될 것으로 예상되는 방식을 추정합니다.
처리 컨테이너와 SDK 함께 SageMaker Python을 사용하는 방법에 대한 자세한 내용은 SageMaker Python SDK
다음 코드 예제는 노트북이 SKLearnProcessor
에서 제공하고 유지 관리하는 Docker 이미지를 사용하여 자체 Docker 이미지 SageMaker대신 자체 scikit-learn 스크립트를 실행하는 방법을 보여줍니다.
from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )
Amazon SageMaker Processing에서 Scikit-Learn을 사용하여 데이터를 병렬로 처리하려면 각 인스턴스가 거의 동일한 수의 입력 객체를 수신ProcessingInput
하도록 s3_data_distribution_type='ShardedByS3Key'
내부를 설정하여 S3 키로 입력 객체를 샤드할 수 있습니다.