데이터 탐색, 분석 및 처리

데이터 세트를 사용하여 모델을 교육하기 전에 데이터 과학자는 보통 이를 탐색 , 분석 및 사전 처리합니다.

Amazon Processing을 사용하면 실행 중인 작업을 통해 데이터를 사전 SageMaker 처리 및 후처리하고, 기능 엔지니어링을 수행하고, 모델을 대규모로 SageMaker 쉽게 평가할 수 있습니다. Processing은 에서 제공하는 SageMaker 다른 중요한 기계 학습 작업 (예: 교육 및 호스팅) 과 결합할 경우 기본 제공되는 모든 보안 및 규정 준수 지원을 포함하여 완전 관리형 기계 학습 환경의 이점을 제공합니다. SageMaker Processing을 사용하면 내장 데이터 처리 컨테이너를 사용할 수도 있고, 자체 컨테이너를 가져와서 관리형 인프라에서 실행할 사용자 지정 작업을 제출할 수도 있습니다. 작업을 제출한 후 컴퓨팅 인스턴스를 SageMaker 시작하고 입력 데이터를 처리 및 분석하고 완료 시 리소스를 릴리스합니다. 자세한 설명은 데이터 처리 섹션을 참조하세요.

자체 데이터 처리 스크립트를 실행하는 방법에 관한 자세한 내용은 Sci-kit Learn을 사용한 데이터 프로세싱을 참조하세요.
스크립트를 실행하기 위해 자체 처리 컨테이너를 빌드하는 방법에 대한 자세한 내용은 자체 처리 컨테이너 빌드(고급 시나리오) 단원을 참조하십시오.
코드가 없는 시각 인터페이스로 탐색 데이터 분석(EDA)을 수행하는 방법에 관한 자세한 내용은 Amazon 데이터 랭글러로 ML SageMaker 데이터 준비하기을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

데이터 준비

Data Wrangler로 데이터 준비하기