scikit-learn을 사용한 처리 작업 실행

Amazon SageMaker Processing을 사용하여 Amazon SageMaker AI에서 제공하는 Docker 이미지에서 scikit-learn 스크립트를 통해 데이터를 처리하고 모델을 평가할 수 있습니다. 다음은 scikit-learn을 사용하여 Amazon SageMaker 처리 작업을 실행하는 방법에 대한 예제입니다.

데이터를 사전 처리하고 모델을 평가하기 위해 SageMaker AI에서 제공하고 유지 관리하는 Docker 이미지를 사용하여 scikit-learn 스크립트를 실행하는 방법을 보여주는 샘플 노트북은 scikit-learn Processing을 참조하세요. 이 노트북을 사용하려면 Processing을 위한 SageMaker AI Python SDK를 설치해야 합니다.

이 노트북은 SageMaker Python SDK의 SKLearnProcessor 클래스를 사용해 처리 작업을 실행하여 사용자가 제공하는 scikit-learn 스크립트를 실행합니다. 스크립트는 데이터를 사전 처리하고, SageMaker 훈련 작업을 사용하여 모델을 훈련한 다음, 처리 작업을 실행하여 훈련된 모델을 평가합니다. 처리 작업은 모델이 프로덕션 환경에서 수행될 것으로 예상되는 방식을 추정합니다.

처리 컨테이너와 함께 SageMaker Python SDK를 사용하는 방법에 대한 자세한 내용은 SageMaker Python SDK를 참고하세요. 처리 작업에 사용할 수 있는 사전 구축된 Docker 이미지의 전체 목록은 Docker 레지스트리 경로 및 예제 코드를 참고하세요.

아래의 코드 예시는 노트북이 사용자의 자체 Docker 이미지 대신 SageMaker AI에서 제공하고 유지 관리하는 Docker 이미지를 사용하여 사용자의 자체 scikit-learn 스크립트를 실행하기 위해 SKLearnProcessor를 사용하는 방법을 보여줍니다.


from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.processing import ProcessingInput, ProcessingOutput

sklearn_processor = SKLearnProcessor(framework_version='0.20.0',
                                     role=role,
                                     instance_type='ml.m5.xlarge',
                                     instance_count=1)

sklearn_processor.run(code='preprocessing.py',
                      inputs=[ProcessingInput(
                        source='s3://path/to/my/input-data.csv',
                        destination='/opt/ml/processing/input')],
                      outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'),
                               ProcessingOutput(source='/opt/ml/processing/output/validation'),
                               ProcessingOutput(source='/opt/ml/processing/output/test')]
                     )

Amazon SageMaker Processing에서 Scikit-Learn을 사용하여 데이터를 병렬로 처리하려면 각 인스턴스가 거의 동일한 수의 입력 객체를 수신하도록 ProcessingInput 내부에 s3_data_distribution_type='ShardedByS3Key'를 설정하여 S3 키로 입력 객체를 샤드할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Apache Spark를 사용한 처리 작업 실행

프레임워크 프로세서를 사용한 데이터 처리