기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
1단계. EDA 수행 및 초기 모델 개발
이 단계에서 데이터 과학자는 ML 사용 사례와 데이터를 이해하기 위해 탐색적 데이터 분석(EDA)을 수행합니다. 그런 다음 ML 모델(예: 분류 및 회귀 모델)을 개발하여 주어진 사용 사례에서 문제를 해결합니다. 모델 개발 중에 데이터 과학자는 종종 데이터 형식, 데이터 수명 주기, 중간 출력의 위치와 같은 입력과 출력에 대한 가정을 합니다. 2단계의 유닛 테스트 중에 검증에 사용할 수 있도록 이러한 가정을 문서화해야 합니다.
이 단계에서는 모델 개발에 중점을 두지만 데이터 과학자는 전처리, 훈련, 평가 및 추론을 위해 최소한의 도우미 코드를 작성해야 하는 경우가 많습니다. 데이터 과학자는 개발 환경에서 이 코드를 실행할 수 있어야 합니다. 또한, 대규모 수동 변경 없이 이 도우미 코드를 다른 환경에서 실행하기 위해 동적으로 구성할 수 있도록 선택적 런타임 인수를 제공하는 것을 권장합니다. 이렇게 하면 2단계와 3단계에서 모델과 파이프라인 간의 통합이 가속화됩니다. 예를 들어, 데이터를 일관된 방식으로 전처리할 수 있도록 원시 데이터를 읽는 코드를 함수에 캡슐화해야 합니다.
scikit-learn