SparkML 및 Scikit-learn을 사용하여 특징 처리 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SparkML 및 Scikit-learn을 사용하여 특징 처리

Spark 및 scikit-learn 프리프로세서를 사용하면 Amazon SageMaker 기본 제공 알고리즘 및 사용자 지정 알고리즘으로 모델을 훈련하기 전에 데이터를 변환하고 특성을 추출할 수 있습니다.

Spark ML을 사용하여 특성 처리

SageMaker 노트북에서 서버리스 ETL(추출, 변환, 로드) 서비스인 AWS Glue를 사용하여 Spark ML 작업을 실행할 수 있습니다. 또한 기존 EMR 클러스터에 연결해 Amazon EMR 사용하여 SparkML 작업을 실행할 수 있습니다. 이렇게 하려면 SageMaker 노트북에서 AWS Glue에 호출할 수 있는 권한을 부여하는 AWS Identity and Access Management(IAM) 역할이 필요합니다.

참고

AWS Glue에서 지원한는 Python 및 Spark 버전 확인하려면 AWS Glue 릴리스 정보를 참조하십시오.

엔지니어링 기능을 수행한 후에는 MLeap으로 Spark ML 작업을 패키지화하여 MLeap 컨테이너로 직렬화하여 추론 파이프라인에 추가할 수 있습니다. 외부 관리 Spark 클러스터를 사용할 필요가 없습니다. 이 접근 방식을 사용하면 행 샘플에서 테라바이트 단위의 데이터까지 원활하게 확장할 수 있습니다. 동일한 변환기가 훈련 및 추론 시 둘 다 작동하기 때문에 모델을 유지하기 위해 전처리 및 특징 엔지니어링 로직을 복제하거나 자체적인 1회성 솔루션을 개발할 필요가 없습니다. 추론 파이프라인을 사용하면 외부 인프라를 유지할 필요가 없으며 데이터 입력을 통해 예측을 직접 수행할 수 있습니다.

AWS Glue에서 Spark ML 작업을 실행하면 Spark ML 파이프라인이 MLeap 형식으로 직렬화됩니다. 그런 다음 SageMaker 추론 파이프라인의 SparkML 모델 제공 컨테이너와 함께 작업을 사용할 수 있습니다. MLeap은 기계 학습 파이프라인을 위한 직렬화 형식 및 실행 엔진으로, 파이프라인을 훈련하고 훈련된 파이프라인을 MLeap 번들이라는 직렬화된 파이프라인으로 내보내기 위해 Spark, Scikit-learn 및 TensorFlow를 지원합니다. 이러한 번들은 배치 모드 채점을 위해 Spark로, 실시간 API 서비스 강화를 위해 MLeap 런타임으로 다시 역직렬화할 수 있습니다.

Spark ML을 사용한 특성 처리 방법을 보여주는 예제는 Amazon EMR에서 Apache Spark를 사용하여 ML 모델을 훈련시키고 SageMaker 샘플 노트북에 배포를 참조하십시오.

Scikit-Learn을 사용하여 특징 처리

Amazon SageMaker에서 scikit-learn 작업을 실행하여 컨테이너로 직접 패키징할 수 있습니다. Fisher's Iris flower data set에 대해 훈련하고 형태적 측정값을 기반으로 붓꽃의 품종을 예측하는 scikit-learn Featurizer 모델을 빌드하기 위한 Python 코드의 예제는 IRIS Training and Prediction with Sagemaker Scikit-learn을 참조하십시오.