SageMaker AI에서 올바른 데이터 준비 도구를 선택하기 위한 권장 사항

기계 학습에서 데이터 준비는 원시 데이터를 수집, 사전 처리 및 구성하여 분석 및 모델링에 적합하게 만드는 프로세스를 말합니다. 이 단계에서는 데이터가 기계 학습 알고리즘이 효과적으로 학습할 수 있는 형식이 되도록 합니다. 데이터 준비 작업에는 누락된 값 처리, 이상치 제거, 특성 규모 조정, 범주형 변수 인코딩, 잠재적 편향 평가 및 완화 조치, 데이터를 훈련 세트와 테스트 세트로 분할, 레이블 지정 및 후속 기계 학습 작업을 위해 데이터의 품질과 유용성을 최적화하는 데 필요한 기타 변환이 포함될 수 있습니다.

기능 선택

Amazon SageMaker AI를 사용한 데이터 준비에는 3가지 주요 사용 사례가 있습니다. 요구 사항에 맞는 사용 사례를 선택한 다음 해당 권장 기능을 참조하세요.

사용 사례

다음은 기계 학습을 위해 데이터 준비를 수행할 때의 주요 사용 사례입니다.

사용 사례 1: 시각적 인터페이스를 선호하는 사용자를 위해 SageMaker AI는 point-and-click 환경을 통해 모델 훈련을 위한 기능을 탐색, 준비 및 엔지니어링하는 방법을 제공합니다.
사용 사례 2: 데이터 준비를 더 유연하게 제어하려는 코딩에 익숙한 사용자를 위해 SageMaker AI는 탐색, 변환 및 특성 엔지니어링을 위해 도구를 코딩 환경에 통합합니다.
사용 사례 3: 확장 가능한 데이터 준비에 중점을 둔 사용자를 위해 SageMaker AI는 빅 데이터의 분산 처리를 위해 Hadoop/Spark 에코시스템을 활용하는 서버리스 기능을 제공합니다.

권장 기능

다음 표에는 기계 학습을 위한 각 데이터 준비 사용 사례와 관련된 SageMaker AI 기능의 주요 고려 사항과 장단점이 요약되어 있습니다. 시작하려면 요구 사항에 맞는 사용 사례를 식별하고 권장 SageMaker AI 기능으로 이동합니다.

설명자	사용 사례 1	사용 사례 2	사용 사례 3
SageMaker AI 기능	Amazon SageMaker Canvas 내의 Data Wrangler	Studio에서 SQL을 사용한 데이터 준비	Studio 내의 EMR Serverless를 사용하여 데이터 준비 애플리케이션
설명	SageMaker Canvas는 SageMaker AI에서 기계 학습 모델을 구축, 훈련 및 배포하기 위한 시각적 로우코드 환경입니다. 통합된 Data Wrangler 도구를 사용하면 포인트 앤드 클릭 상호 작용을 통해 데이터세트를 결합, 변환 및 정리할 수 있습니다.	Studio의 SQL 확장을 사용하면 사용자가 Amazon Redshift, Snowflake, Athena 및 Amazon S3에 연결하여 임시 SQL 쿼리를 작성하고 JupyterLab 노트북에서 결과를 미리 볼 수 있습니다. 기계 학습 모델 개발에 사용할 수 있는 형식으로 추가 처리, 시각화 및 변환하기 위해 Python 및 Pandas를 사용하여 이러한 쿼리의 출력을 조작할 수 있습니다.	EMR Serverless와 Amazon SageMaker Studio 간의 통합은 Apache Spark 및 Apache Hive와 같은 오픈 소스 프레임워크를 사용하여 기계 학습용 대규모 데이터 준비를 위한 확장 가능한 서버리스 환경을 제공합니다. 사용자는 Studio 노트북에서 EMR Serverless 애플리케이션 및 데이터에 직접 액세스하여 대규모로 데이터 준비 작업을 수행할 수 있습니다.
최적화 대상	시각적 인터페이스를 사용하여 다음을 수행할 수 있습니다. 데이터 준비 파이프라인 만들기 데이터 분석 수행 기본 제공된 변환을 사용하여 데이터 변환 데이터 변환에 생성형 AI 기반 자연어 지침 사용 누락된 값 처리, 범주형 변수 인코딩, 데이터 변환 적용과 같은 테이블 형식의 데이터 작업에 최적화되었습니다.	데이터가 Amazon Redshift, Snowflake, Athena 또는 Amazon S3에 상주하며 Spark를 배울 필요 없이 데이터 분석 및 준비를 Python 위해 탐색 SQL과 을 결합하고자 하는 사용자를 대상으로 합니다.	SageMaker AI의 기계 학습 기능을 활용하면서 Apache Spark를 중심으로 단기 실행 또는 간헐적 대화형 워크로드를 확장하기 위한 자동 리소스 프로비저닝 및 종료를 통해 서버리스 환경을 선호하는 사용자용입니다.
고려 사항	팀에 이미 Python, Spark 또는 기타 언어에 대한 전문성이 있는 경우 최적의 선택이 아닐 수 있습니다. 복잡한 비즈니스 로직을 추가하기 위해 변환을 사용자 지정할 수 있는 완전한 유연성이 필요하거나 데이터 처리 환경을 완전히 제어해야 하는 경우 적합하지 않을 수 있습니다.	이 기능은 Amazon Redshift, Snowflake, Athena 또는 Amazon S3에 상주하는 구조화된 데이터용으로 설계되었습니다. 쿼리 결과의 크기가 SageMaker AI 인스턴스 메모리를 초과하는 경우 다음 노트북은 Athena를 시작하여 SageMaker AI 알고리즘으로 데이터를 수집할 준비를 하는 방법을 안내합니다.	EMR Serverless 애플리케이션 및 Spark 기반 도구에 익숙하지 않은 사용자는 학습이 어려울 수 있습니다. 이 기능은 대화형 데이터 준비 작업에 더 적합하며 대규모의 데이터, 다른 서비스와의 광범위한 통합, 사용자 지정 애플리케이션 또는 Apache Spark 이외의 다양한 분산 데이터 처리 프레임워크와 관련된 대규모, 장기 실행 또는 복잡한 데이터 처리 요구 사항에 대해 Amazon EMR 클러스터만큼 효율적이지 않을 수 있습니다. 서버리스 컴퓨팅은 수명이 짧은 작업에는 비용 효과적일 수 있지만 특히 장기 실행 또는 리소스 집약적 워크로드의 경우 비용을 주의 깊게 모니터링하고 관리하는 것이 중요합니다.
권장 환경	SageMaker Canvas 사용 시작하기	Studio 시작	Studio 시작

추가 옵션

SageMaker AI는 기계 학습 모델에 사용할 데이터를 준비하기 위한 다음과 같은 추가 옵션을 제공합니다.

Amazon EMR을 사용한 데이터 준비: 장기 실행, 계산 집약적, 대규모 데이터 처리 작업의 경우 SageMaker Studio의 Amazon EMR 클러스터 사용을 고려하세요. Amazon EMR 클러스터는 대규모 병렬화를 처리하도록 설계되었으며 수백 또는 수천 개의 노드로 확장할 수 있으므로 Apache Spark, Hadoop, Hive 및 Presto와 같은 프레임워크가 필요한 빅 데이터 워크로드에 적합합니다. Amazon EMR을 SageMaker Studio와 통합하면 SageMaker Studio 환경 내에서 중앙 집중화 및 관리되는 전체 ML 실험, 모델 훈련 및 배포를 유지하면서 Amazon EMR의 확장성과 성능을 활용할 수 있습니다.
글루 대화형 세션을 사용하여 데이터 준비: AWS Glue 대화형 세션의 Apache Spark 기반 서버리스 엔진을 사용하여 SageMaker Studio의 여러 소스에서 데이터를 집계, 변환 및 준비할 수 있습니다.
Amazon SageMaker Clarify 처리 작업을 사용하여 훈련 데이터의 편향을 식별: SageMaker Clarify는 데이터를 분석하고 여러 패싯에서 잠재적 편향을 감지합니다. 예를 들어 Studio에서 Clarify API를 사용하여 훈련 데이터에 성별, 인종 또는 연령과 같은 그룹 간의 불균형한 표현 또는 레이블을 지정하는 편향이 포함되어 있는지 감지할 수 있습니다. Clarify는 편향이 모델의 예측에 전파되지 않도록 모델을 훈련하기 전에 이러한 편향을 식별하는 데 도움이 될 수 있습니다.
특성 만들기, 저장 및 공유: Amazon SageMaker Feature Store는 기계 학습을 위해 선별된 특성의 검색 및 재사용을 최적화합니다. 모델 훈련을 위해 검색 및 가져올 수 있는 특성 데이터를 저장하는 중앙 집중식 리포지토리를 제공합니다. 표준화된 형식으로 특성을 저장하면 여러 ML 프로젝트에서 재사용할 수 있습니다. Feature Store는 확장 가능하고 통제된 기계 학습 특성 엔지니어링을 위한 계보 추적, 통계 및 감사 추적을 포함한 특성의 전체 수명 주기를 관리합니다.
인간의 개입(human-in-the-loop)으로 데이터 레이블링: SageMaker Ground Truth를 사용하여 훈련 데이터세트의 데이터 레이블 지정 워크플로를 관리할 수 있습니다.
SageMaker Processing API 사용: 탐색 데이터 분석을 수행하고 데이터 변환 단계를 생성한 후 SageMaker AI Processing 작업을 사용하여 변환 코드를 프로덕션화하고 SageMaker 모델 구축 파이프라인을 사용하여 준비 워크플로를 자동화할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

API 참조

Studio에서 SQL을 사용한 데이터 준비