기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
1. 데이터 중심 관리
데이터 관리는 훈련, 테스트 및 추론에 사용되는 데이터가 적절하게 관리, 보안 및 검증되도록 하는 관행입니다. 대규모로 모델을 구축할 때 데이터는 높은 모델 성능을 가능하게 하는 기본 상품입니다.
1.1 데이터 리포지토리 |
데이터 리포지토리에는 데이터를 추적하고 해당 생성 지점을 확인할 수 있는 기능이 필요합니다. 새 데이터가 추가되거나 제거되면 데이터 리포지토리는 point-in-time으로 복구 시 이러한 변경 사항을 기록합니다. 데이터 리포지토리는 레이블 데이터를 추적하고 처리하는 방법과 중간 데이터 아티팩트를 추적하는 방법을 고려해야 합니다. |
1.2 다양한 데이터 소스 통합 |
애플리케이션에 따라 모델을 훈련하려면 많은 소스의 데이터가 필요할 수 있습니다. ML 실무자에게 사용 가능한 데이터 소스와 이러한 소스가 서로 연결되는 방법을 알려주는 매니페스트를 설계하고 유지 관리하는 것은 모델 구축에 매우 중요합니다. |
1.3 데이터 스키마 검증 |
모델 데이터를 제공하려면 훈련 데이터가 균일해야 합니다. Amazon Simple Storage Service(Amazon S3)와 같은 데이터 레이크 솔루션 또는 문서 데이터 스토어에 저장된 데이터에 대해 변환 또는 기타 탐색 분석이 필요할 수 있습니다. |
1.4 데이터 버전 관리 및 계보 |
프로덕션에 사용할 수 있는 모델을 훈련할 때는 결과를 재현할 수 있어야 하며, 전체 모델 성능을 더 잘 이해할 수 있도록 제거 연구를 |
1.5 레이블 지정 워크플로 |
프로젝트 시작 시 레이블이 지정된 데이터를 사용할 수 없는 경우 레이블이 지정된 데이터를 생성하는 것이 필요한 단계인 경우가 많습니다. Amazon SageMaker Ground Truth와 같은 도구는 입력 데이터를 적절하게 구성해야 하며 정의되고 테스트된 레이블 지정 작업이 필요합니다. 내부 또는 외부 레이블러의 작업 인력을 사용해야 합니다. 그런 다음 중복 레이블 지정 또는 기계 학습 접근 방식을 사용하여 훈련 데이터 세트의 이상치 또는 오류를 식별하여 데이터를 검증해야 합니다. |
1.6 온라인 및 오프라인 기능 스토리지 |
ML 시스템에는 특성 또는 모델 입력을 재사용할 수 있도록 특성 저장소 또는 특성 및 관련 메타데이터를 위한 중앙 집중식 저장소가 있습니다. 온라인 또는 오프라인 저장소를 생성할 수 있습니다. 지연 시간이 짧은 실시간 추론 사용 사례에는 온라인 스토어를 사용합니다. 오프라인 스토어를 사용하여 훈련 및 배치 추론을 수행합니다. |