기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
에서 올바른 데이터 준비 도구를 선택하기 위한 권장 사항 SageMaker
기계 학습에서의 데이터 준비는 원시 데이터를 수집, 전처리 및 구성하여 분석 및 모델링에 적합하게 만드는 프로세스를 말합니다. 이 단계를 통해 데이터가 기계 학습 알고리즘이 효과적으로 학습할 수 있는 형식으로 작성됩니다. 데이터 준비 작업에는 누락된 값 처리, 이상값 제거, 특징 크기 조정, 범주형 변수 인코딩, 잠재적 편향 평가 및 편향 완화 조치 취하기, 데이터를 학습 및 테스트 세트로 분할, 레이블 지정, 후속 기계 학습 작업에 사용할 데이터의 품질과 유용성을 최적화하는 데 필요한 기타 변환 등이 포함될 수 있습니다.
기능을 선택하세요.
Amazon을 통한 데이터 준비에는 세 가지 주요 사용 사례가 SageMaker 있습니다. 요구 사항에 맞는 사용 사례를 선택한 다음 해당하는 권장 기능을 참조하십시오.
사용 사례
다음은 Machine Learning을 위한 데이터 준비를 수행할 때의 주요 사용 사례입니다.
-
사용 사례 1: 시각적 인터페이스를 선호하는 사용자를 위해 point-and-click 환경을 통해 모델 학습용 기능을 탐색, 준비 및 엔지니어링할 수 있는 방법을 SageMaker 제공합니다.
-
사용 사례 2: 코딩에 익숙하고 데이터 준비에 대한 유연성과 제어력을 높이려는 사용자를 위해 탐색, 변환 및 기능 엔지니어링을 위한 도구를 코딩 환경에 SageMaker 통합합니다.
-
사용 사례 3: 확장 가능한 데이터 준비에 중점을 둔 사용자를 위해 Hadoop/Spark 에코시스템을 활용하여 빅 데이터를 분산 처리하는 기능을 SageMaker 제공합니다.
권장 기능
다음 표에는 기계 학습을 위한 각 데이터 준비 사용 사례와 관련된 SageMaker 기능에 대한 주요 고려 사항 및 장단점이 요약되어 있습니다. 시작하려면 요구 사항에 맞는 사용 사례를 식별하고 권장 기능을 탐색하세요. SageMaker
사용 사례 1 | 사용 사례 2 | 사용 사례 3 | |
---|---|---|---|
SageMaker 기능 | Amazon Canvas의 데이터 랭글러 SageMaker | Studio에서 데이터를 준비하세요. SQL | Amazon을 사용하여 데이터 준비 EMR인 스튜디오 |
설명 | SageMaker Canvas는 머신 러닝 모델을 구축, 학습 및 배포하기 위한 시각적인 로우코드 환경입니다. SageMaker 통합된 데이터 랭글러 도구를 사용하면 상호 작용을 통해 데이터 세트를 결합, 변환 및 정리할 수 있습니다. point-and-click | Studio의 SQL 확장 프로그램을 사용하면 Amazon Redshift, Snowflake, Athena 및 Amazon S3에 연결하여 임시 쿼리를 작성하고 노트북에서 결과를 SQL 미리 볼 수 있습니다. JupyterLab 이러한 쿼리의 출력은 추가 처리, 시각화 Python 및 기계 학습 모델 개발에 Pandas 사용할 수 있는 형식으로의 변환을 사용하여 조작할 수 있습니다. | EMRAmazon과 Amazon SageMaker Studio의 통합은 Apache Spark, Apache Hive 또는 Presto와 같은 오픈 소스 프레임워크를 사용하여 기계 학습을 위한 대규모 데이터 준비를 위한 확장 가능한 환경을 제공합니다. 사용자는 스튜디오 노트북에서 직접 Amazon EMR 클러스터와 데이터에 액세스하여 준비 작업을 수행할 수 있습니다. |
에 최적화되었습니다. | 다음을 수행할 수 있는 시각적 인터페이스 사용
누락된 값 처리, 범주형 변수 인코딩, 데이터 변환 적용과 같은 표 형식 데이터 작업에 최적화되었습니다. |
Amazon Redshift, Snowflake, Athena 또는 Amazon S3에 있는 데이터를 가지고 있으며 학습할 필요 없이 탐색과 데이터 분석 및 준비를 SQL Python 결합하려는 사용자에게 적합합니다. Spark | 의 SageMaker 기계 학습 기능을 EMR 활용하면서 Amazon에서 장기 실행 또는 배치 지향 데이터 사전 처리 및 기능 엔지니어링 워크로드를 확장합니다. |
고려 사항 |
|
|
Amazon EMR 및 Spark 기반 도구에 익숙하지 않은 사용자를 위한 학습 곡선. |
권장 환경 | SageMaker 캔버스 사용 시작하기 | Studio 시작 | Studio 시작 |
추가 옵션
SageMaker 머신러닝 모델에 사용할 데이터를 준비하기 위한 다음과 같은 추가 옵션을 제공합니다.
-
글루 대화형 세션을 사용하여 데이터 준비: 대화형 세션의 Apache Spark 기반 서버리스 엔진을 사용하여 Studio에서 AWS Glue 여러 소스의 데이터를 집계, 변환 및 준비할 수 있습니다. SageMaker
-
Amazon SageMaker Clarify 처리 작업을 사용하여 교육 데이터의 편향 식별: SageMaker Clarify 데이터를 분석하고 여러 측면에서 잠재적 편향을 감지합니다. 예를 들어 Clarify API in Studio를 사용하여 교육 데이터에 성별, 인종, 연령과 같은 그룹 간의 불균형한 표현이나 레이블 지정 편향이 포함되어 있는지 탐지할 수 있습니다. Clarify를 사용하면 모델을 학습시키기 전에 이러한 편향을 식별하여 편향이 모델 예측에 전파되지 않도록 할 수 있습니다.
-
기능 생성, 저장 및 공유: Amazon SageMaker Feature Store는 기계 학습을 위해 큐레이션된 기능의 검색 및 재사용을 최적화합니다. 모델 학습을 위해 검색 및 검색할 수 있는 기능 데이터를 저장하는 중앙 집중식 리포지토리를 제공합니다. 기능을 표준화된 형식으로 저장하면 ML 프로젝트 전반에서 재사용할 수 있습니다. Feature Store는 확장 가능하고 관리되는 머신 러닝 기능 엔지니어링을 위한 계보 추적, 통계, 감사 추적 등 기능의 전체 라이프사이클을 관리합니다.
-
human-in-the-loop다음을 사용하여 데이터에 레이블을 지정합니다. SageMaker Ground Truth를 사용하여 교육 데이터세트의 데이터 레이블 지정 워크플로를 관리할 수 있습니다.
-
SageMaker 처리 사용 API: 탐색적 데이터 분석을 수행하고 데이터 변환 단계를 만든 후에는 SageMaker처리 작업을 사용하여 변환 코드를 생산하고 모델 구축 파이프라인을 사용하여 준비 워크플로를 자동화할 수 있습니다. SageMaker