기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SparkML 및 Scikit-learn을 사용하여 특징 처리
Spark 및 scikit-learn 프리프로세서를 사용하면 Amazon SageMaker 기본 제공 알고리즘 및 사용자 지정 알고리즘으로 모델을 훈련하기 전에 데이터를 변환하고 특성을 추출할 수 있습니다.
Spark ML을 사용하여 특성 처리
SageMaker 노트북에서 서버리스 ETL(추출, 변환, 로드) 서비스인 AWS Glue를 사용하여 Spark ML 작업을 실행할 수 있습니다. 또한 기존 EMR 클러스터에 연결해 Amazon EMR 사용하여 SparkML 작업을 실행할 수 있습니다. 이렇게 하려면 SageMaker 노트북에서 AWS Glue에 호출할 수 있는 권한을 부여하는 AWS Identity and Access Management(IAM) 역할이 필요합니다.
참고
AWS Glue에서 지원한는 Python 및 Spark 버전 확인하려면 AWS Glue 릴리스 정보를 참조하십시오.
엔지니어링 기능을 수행한 후에는 MLeap으로 Spark ML 작업을 패키지화하여 MLeap 컨테이너로 직렬화하여 추론 파이프라인에 추가할 수 있습니다. 외부 관리 Spark 클러스터를 사용할 필요가 없습니다. 이 접근 방식을 사용하면 행 샘플에서 테라바이트 단위의 데이터까지 원활하게 확장할 수 있습니다. 동일한 변환기가 훈련 및 추론 시 둘 다 작동하기 때문에 모델을 유지하기 위해 전처리 및 특징 엔지니어링 로직을 복제하거나 자체적인 1회성 솔루션을 개발할 필요가 없습니다. 추론 파이프라인을 사용하면 외부 인프라를 유지할 필요가 없으며 데이터 입력을 통해 예측을 직접 수행할 수 있습니다.
AWS Glue에서 Spark ML 작업을 실행하면 Spark ML 파이프라인이 MLeap
Spark ML을 사용한 특성 처리 방법을 보여주는 예제는 Amazon EMR에서 Apache Spark를 사용하여 ML 모델을 훈련시키고 SageMaker 샘플 노트북에 배포
Scikit-Learn을 사용하여 특징 처리
Amazon SageMaker에서 scikit-learn 작업을 실행하여 컨테이너로 직접 패키징할 수 있습니다. Fisher's Iris flower data set