Sci-kit Learn을 사용한 데이터 프로세싱 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Sci-kit Learn을 사용한 데이터 프로세싱

에서 제공하고 유지 관리하는 Docker 이미지를 사용하여 scikit-learn 스크립트를 실행하여 데이터를 사전 처리하고 모델을 평가하는 방법을 보여주는 샘플 노트북은 scikit-learn SageMaker Processing을 참조하십시오. 이 노트북을 사용하려면 프로세싱용 SageMaker Python SDK를 설치해야 합니다.

이 노트북은 사용자가 제공하는 scikit-learn 스크립트를 실행하기 위해 SageMaker Python SDK의 SKLearnProcessor 클래스를 사용하여 처리 작업을 실행합니다. 스크립트는 데이터를 전처리하고, SageMaker 학습 작업을 사용하여 모델을 학습시킨 다음, 처리 작업을 실행하여 학습된 모델을 평가합니다. 처리 작업은 모델이 프로덕션 환경에서 수행될 것으로 예상되는 방식을 추정합니다.

SageMaker Python SDK를 프로세싱 컨테이너와 함께 사용하는 방법에 대해 자세히 알아보려면 SageMaker Python SDK를 참조하십시오. 처리 작업에 사용할 수 있는 사전 구축된 Docker 이미지의 전체 목록은 Docker 레지스트리 경로 및 예제 코드를 참고하십시오.

다음 코드 예제는 노트북이 자체 Docker 이미지 대신 SageMaker에서 제공하고 유지 관리하는 Docker 이미지를 사용하여 자체 scikit-learn 스크립트를 실행하기 위해 SKLearnProcessor를 사용하는 방법을 보여줍니다.

from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )

Amazon Processing에서 Scikit-Learn을 사용하여 데이터를 병렬로 SageMaker 처리하려면 각 인스턴스가 거의 같은 수의 입력 객체를 수신하도록 a s3_data_distribution_type='ShardedByS3Key' ProcessingInput 내에 설정하여 S3 키로 입력 객체를 분할할 수 있습니다.