Data Wrangler에서 데이터 처리 작동 방식
Amazon SageMaker Data Wrangler 데이터 흐름에서 대화형으로 데이터를 사용하는 동안 Amazon SageMaker Canvas는 미리 볼 수 있도록 샘플 데이터세트에만 변환을 적용합니다. SageMaker Canvas에서 데이터 흐름을 완료한 후 모든 데이터를 처리하고 기계 학습 워크플로의 적합한 위치에 저장할 수 있습니다.
Data Wrangler에서 데이터 변환을 완료한 후 진행하는 방법에는 몇 가지 옵션이 있습니다.
-
모델 만들기 Canvas 모델을 만들어 준비된 데이터를 사용해 모델 만들기를 직접 시작할 수 있습니다. 전체 데이터세트를 처리한 후 또는 Data Wrangler에서 작업한 샘플 데이터만 내보내서 모델을 만들 수 있습니다. Canvas는 처리된 데이터(전체 데이터세트 또는 샘플 데이터)를 Canvas 데이터세트로 저장합니다.
빠른 반복을 위해 샘플 데이터를 사용하되 최종 모델을 훈련시키려면 전체 데이터를 사용하는 것이 좋습니다. 테이블 형식 모델을 빌드할 때 5GB보다 큰 데이터세트는 자동으로 5GB로 다운샘플링되고 시계열 예측 모델의 경우 30GB보다 큰 데이터세트는 30GB로 다운샘플링됩니다.
모델을 만드는 방법에 대한 자세한 내용은 사용자 지정 모델 작동 방식 섹션을 참조하세요.
-
데이터를 내보냅니다. 기계 학습 워크플로에 사용할 데이터를 내보낼 수 있습니다. 데이터를 내보낼 때 몇 가지 옵션이 있습니다.
-
Canvas 애플리케이션에 데이터를 데이터세트로 저장할 수 있습니다. Canvas 데이터세트에 지원되는 파일 유형과 Canvas로 데이터를 가져올 때 필요한 추가 요구 사항에 대한 자세한 내용은 데이터세트 생성 섹션을 참조하세요.
-
Amazon S3에 데이터를 저장할 수 있습니다. Canvas 메모리 가용성에 따라 데이터는 애플리케이션에서 처리된 다음 Amazon S3로 내보내집니다. 데이터세트의 크기가 Canvas가 처리할 수 있는 크기를 초과하는 경우 Canvas는 기본적으로 EMR Serverless 작업을 사용하여 여러 컴퓨팅 인스턴스로 확장하고 전체 데이터세트를 처리하고 Amazon S3로 내보냅니다. 또한 SageMaker Processing 작업을 수동으로 구성하여 데이터를 처리하는 데 사용되는 컴퓨팅 리소스를 보다 세밀하게 제어할 수 있습니다.
-
-
데이터 흐름을 내보냅니다. Canvas 외부에서 변환을 수정하거나 실행할 수 있도록 데이터 흐름에 대한 코드를 저장하고 싶을 수 있습니다. Canvas는 데이터 흐름 변환을 Jupyter Notebook의 Python 코드로 저장하는 옵션을 제공합니다. 사용자는 기계 학습 워크플로의 다른 곳에서 이 코드를 사용할 수 있도록 Amazon S3로 내보낼 수 있습니다.
데이터 흐름에서 데이터를 내보내 Canvas 데이터세트로 저장하거나 Amazon S3에 저장할 때 Canvas는 데이터 흐름에 처리된 데이터가 저장되는 위치를 보여주는 최종 노드인 새 대상 노드를 만듭니다. 여러 내보내기 작업을 수행하려는 경우 흐름에 대상 노드를 추가할 수 있습니다. 예를 들어 데이터 흐름의 여러 지점에서 데이터를 내보내 변환 중 일부만 적용하거나 변환된 데이터를 다른 Amazon S3 위치로 내보낼 수 있습니다. 대상 노드를 추가하거나 편집하는 방법에 대한 자세한 내용은 대상 노드 추가 및 대상 노드 편집 섹션을 참조하세요.
Amazon EventBridge를 사용하여 일정에 따라 데이터를 자동으로 처리하고 내보내는 일정을 설정하는 방법에 대한 자세한 내용은 새 데이터를 자동으로 처리하는 일정 만들기 섹션을 참조하세요.