1단계. EDA 수행 및 초기 모델 개발 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

1단계. EDA 수행 및 초기 모델 개발

이 단계에서 데이터 과학자는 ML 사용 사례와 데이터를 이해하기 위해 탐색적 데이터 분석(EDA)을 수행합니다. 그런 다음 ML 모델(예: 분류 및 회귀 모델)을 개발하여 주어진 사용 사례에서 문제를 해결합니다. 모델 개발 중에 데이터 과학자는 종종 데이터 형식, 데이터 수명 주기, 중간 출력의 위치와 같은 입력과 출력에 대한 가정을 합니다. 2단계의 유닛 테스트 중에 검증에 사용할 수 있도록 이러한 가정을 문서화해야 합니다.

이 단계에서는 모델 개발에 중점을 두지만 데이터 과학자는 전처리, 훈련, 평가 및 추론을 위해 최소한의 도우미 코드를 작성해야 하는 경우가 많습니다. 데이터 과학자는 개발 환경에서 이 코드를 실행할 수 있어야 합니다. 또한, 대규모 수동 변경 없이 이 도우미 코드를 다른 환경에서 실행하기 위해 동적으로 구성할 수 있도록 선택적 런타임 인수를 제공하는 것을 권장합니다. 이렇게 하면 2단계와 3단계에서 모델과 파이프라인 간의 통합이 가속화됩니다. 예를 들어, 데이터를 일관된 방식으로 전처리할 수 있도록 원시 데이터를 읽는 코드를 함수에 캡슐화해야 합니다.

scikit-learn, XGBoost, PyTorch, Keras, TensorFlow와 같은 프레임워크로 시작하여 ML 모델 및 해당 도우미 코드를 개발하는 것을 권장합니다. 예를 들어 scikit-learn은 Python으로 작성된 무료 ML 라이브러리입니다. 객체에 대해 균일 API 규칙을 제공하며, 간단한 데이터 변환을 다루고, 레이블 및 기능 엔지니어링을 지원하고, 전처리 및 모델링 단계를 캡슐화하는 네 가지 주요 객체(추정기, 예측기, 변환기, 모델)를 포함합니다. 이러한 객체는 상용구 코드의 확산을 방지하고 검증 및 테스트 데이터가 훈련 데이터 세트로 유출되는 것을 방지하는 데 도움이 됩니다. 마찬가지로 모든 ML 프레임워크에는 주요 ML 아티팩트가 자체적으로 구현되어 있으므로 ML 모델을 개발할 때는 선택한 프레임워크의 API 규칙을 준수하는 것을 권장합니다.