4. 강력한 파이프라인 및 홍보 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

4. 강력한 파이프라인 및 홍보

파이프라인은 하이퍼파라미터 튜닝, AutoML 및 처리 루틴을 위한 다양한 옵션을 제공합니다. 파이프라인은 처음부터 끝까지 로깅됩니다. 강력한 파이프라인은 여러 인스턴스 및 프레임워크에서 병렬로 훈련을 실행하여 필요에 따라 로드 크기를 조정할 수 있습니다. 강력한 파이프라인은 모델을 프로덕션으로 승격시켜 실시간, 스트리밍 및 배치로 배포할 수 있습니다. 이러한 배포는 단일 모델 또는 다중 모델 추론을 지원할 수 있습니다.

4.1 대규모 및 분산 훈련

성숙한 ML 시스템은 대규모 컴퓨팅 최적화 인스턴스에서 훈련을 병렬로 실행할 수 있는 기능을 지원합니다. 이러한 리소스가 완전히 사용되고 훈련이 컴퓨팅 클러스터 전체에서 균등하게 확장되도록 하는 데 도움이 되는 도구가 마련되어 있습니다.

4.2 여러 프레임워크 지원

개발자는 PyTorch 또는 Flax와 같은 다양한 플랫폼 프레임워크를 이식하여 훈련 및 추론 작업을 실행할 수 있습니다. 마찬가지로 다양한 언어와 버전이 지원되고 사용할 수 있습니다. 다른 프레임워크로 전환해도 시스템이 중단되지 않습니다.

4.3 하이퍼파라미터 튜닝

하이퍼파라미터 튜닝 단계는 훈련 파이프라인의 일부입니다. 배포된 모델의 하이퍼파라미터는 튜닝되어 있습니다. 하이퍼파라미터를 튜닝하는 데 여러 옵션을 사용할 수 있습니다. 정확도 개선을 위해 튜닝 옵션 중 하나 이상에 베이지안 추론 또는 접근 방식이 있어야 합니다.

4.4 AutoML 옵션

수동 실험 및 비교를 줄이기 위해 성숙한 ML 시스템은 최적의 기능 파이프라인, 하이퍼파라미터 및 모델을 자동으로 선택하는 AutoML 실행을 지원합니다. AutoML은 실용적으로 사용할 수 있는 기능이지만 파나시아는 아닙니다.

4.5 추론 지원: 실시간

이를 일반적으로 서비스형 모델(MaaS)이라고 합니다. 시스템은 온디맨드 추론 요청에 대해 REST API 작업을 통한 실시간 추론을 지원합니다. 모델이 독립 실행형 API 또는 다른 애플리케이션과 연결된 엔드포인트로 수평 및 수직으로 확장할 수 있는 MaaS 인프라를 제공할 수 있습니다. 또는 서버리스 기술을 사용하여 배포할 수 있습니다.

4.6 추론 지원: 스트리밍

모델은 Amazon Kinesis 또는 Amazon Managed Streaming for Apache Kafka와 같은 실시간 추론 형식으로 승격될 수 있으며, 이를 통해 추론은 모델에서 스트리밍 방식으로 실행됩니다. 가드레일, 관찰성 및 모니터링은 실시간 추론에 필수적이므로 체크리스트의 90% 이상이 완료되어야 합니다.

4.7 추론 지원: 배치

시스템은 예약되거나 시작된 작업으로 모델의 배치 배포를 지원합니다. 시스템은 추출, 변환 및 로드(ETL) 프로세스의 일부로 또는 개별적으로 모델을 실행할 수 있습니다. 배치 작업은 각 단계의 상태를 기록하고 지시된 비순환 그래프와 같은 순서가 지정된 패턴으로 실행됩니다. 또는 작업은 모델 추론의 서버 역할을 하는 데이터베이스에 쓸 수 있습니다.

4.8 사전 처리 및 사후 처리 루틴

필요한 경우 데이터는 모델 가져오기 프로세스 또는 배치 작업의 일부로 특성화됩니다. 여러 모델 또는 여러 단계가 있는 경우 사후 처리 루틴은 데이터 특성화를 처리합니다.

4.9 계층적 또는 동시 모델 호출 기능

ML 시스템은 여러 모델을 함께 배포하거나 순차적으로 실행할 수 있습니다. 전자는 리소스 플릿 전체에 걸쳐 단일 모델 엔드포인트에서 호스팅하는 것을 의미합니다. 후자는 여러 모델을 체인 방식으로 차례로 실행해야 함을 의미합니다. 시스템은 이러한 두 가지 유형의 복잡성을 모두 복원력 있게 처리할 수 있습니다.

4.10 수평 및 수직 조정 전략

파이프라인에는 훈련 및 추론을 위한 두 가지 유형의 조정 전략을 모두 지원할 수 있는 기능이 있어야 합니다. ML 시스템은 지연 시간 또는 처리량이 증가할 때 크기를 늘리고 여러 시스템에 트래픽을 분산할 수 있습니다. 이러한 유형의 동작에 대한 정책이 설정되며 최적의 리소스 할당을 고려합니다.

4.11 End-to-end 로깅

로깅이 시스템의 입력, 출력 및 중간 단계를 캡처할 수 있도록 개발 팀은 모든 파이프라인 코드 내에 로깅을 설정해야 합니다. 로깅은 파이프라인의 추적 실행 및 디버깅 오류를 지원해야 합니다.