6. 지속적 모니터링 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

6. 지속적 모니터링

지속적인 모니터링에서 자동화된 프로세스는 성능 문제와 모델 문제를 관찰하고 감지합니다. 그런 다음 소유자는 잠재적 문제와 위협을 실시간으로 식별하여 신속하게 해결할 수 있습니다.

지속적인 모니터링은 데이터 품질, 배포 전환, 모델 개념 전환, 모델 품질 저하와 같은 가능한 모델 문제를 보여줍니다. 또한 지속적인 모니터링에는 포화, 지연 시간, 트래픽, 오류와 같은 기존 시스템 측정에 대한 포괄적인 로깅이 포함됩니다. 문제가 발생할 때 소유자에게 알리기 위한 실용적인 알림 및 알림 전략이 설정되어 있습니다.

6.1 모델 모니터링: 데이터 품질 감지

수신 데이터가 모델 훈련 데이터에서 벗어날 때 알 수 있도록 규칙 기반 모니터링이 마련되어 있습니다. 이러한 유형의 모니터링은 훈련 데이터에서 스키마를 생성하고 해당 스키마를 기반으로 제약 조건을 설정한 다음 위반이 발생할 때 예외를 실행합니다.

6.2 모델 모니터링: 배포 전환

들어오는 데이터 배포를 살펴보고 모델 훈련 데이터 배포에서 벗어나지 않았는지 확인하기 위해 모니터링이 설정됩니다. 예를 들어, 수신 데이터는 추론 데이터에 대한 이동 기간으로 샘플링됩니다. 그런 다음 작업을 실행하여 샘플링된 배포 및 훈련 배포를 테스트하여 동일한지 확인합니다.

6.3 모델 모니터링: 모델 개념 드리프트

개념 드리프트 검사는 훈련 데이터에서 변경되지 않은 상태를 유지하기 위해 모델의 입력과 대상 변수 간의 관계를 찾습니다. 추가 점검은 상대 기능과 중요도가 변경되지 않는지 확인하는 것입니다.

6.4 모델 모니터링: 모델 평가 확인

이는 모델의 품질이 저하되었는지 여부를 평가하는 모니터링 검사입니다. 모델 평가 검사는 훈련 시간의 기준 평가 지표를 수신되는 결과와 비교하여 새 데이터에 대해 모델의 정확도 수준이 감소했는지 여부를 평가합니다. 정확도 지표를 계산하기 때문에이 검사를 수행하려면 추론 후 새 데이터의 실측 정보를 사용할 수 있어야 합니다.

6.5 시스템 캡처: 입력 스키마

ML 시스템은 훈련, 테스트 및 검증 데이터의 스키마를 캡처합니다. 스키마는 입력에 대한 정보를 제공하는 것 외에도 스큐 및 완전성에 대한 통계를 제공합니다.   스키마는 프로덕션 환경에서 즉각적인 테스트 및 데이터 품질 모니터링 검사에 사용됩니다.

6.6 시스템 캡처: 평가 결과 및 통계

ML 시스템은 검증 및 훈련 데이터에 대한 정확도 정보를 출력합니다. 검증 및 훈련 실행에서 예측 및 true 레이블을 출력할 수 있습니다. 이는 라이브 프로덕션 모델에 대한 모니터링 제약 조건으로 사용됩니다.

6.7 시스템 캡처: 이상

수신 데이터 스트림에 이상을 플래그 지정하는 추적 메커니즘이 마련되어 있습니다. 수신 데이터에서 이상치가 발생하거나 지정된 기간 동안 키 기능 배포가 변경되면 시스템은 이를 이상으로 인식하고 플래그를 지정합니다.

6.8 로깅: 포화 및 리소스

시스템이 얼마나 가득 찼는지에 대한 로깅이 마련되어 있습니다. 리소스 및 포화 지표는 CPU 사용률, 그래픽 처리 장치(GPU) 사용률, 메모리 사용률 및 디스크 사용률에 중점을 두어야 합니다. 이러한 지표는 백분위수로 측정할 수 있는 시계열 형식으로 사용할 수 있어야 합니다. 배치 작업의 경우 처리량에 대한 정보를 제공합니다.이 정보는 시스템이 각 시간당 처리할 수 있는 정보 단위 수를 보여줍니다.

6.9 로깅: 지연 시간

네트워크 통신 지연 또는 요청을 처리하는 데 걸리는 시간을 측정하려면 로깅이 있어야 합니다. 엔지니어는 추론 모델이 예측을 제공하는 데 걸리는 시간과 모델을 로드하는 데 걸리는 시간을 판단할 수 있어야 합니다.

6.10 로깅: 트래픽

트래픽에 대한 로깅 설정은 각 인스턴스의 트래픽 볼륨을 측정합니다. 트래픽은 특정 시간 동안 전송되거나 수신된 HTTP 요청 및 바이트 또는 패킷 수로 측정됩니다. 트래픽 로깅은 시스템에 배치된 총 워크로드에 대한 인사이트를 제공합니다.

6.11 로깅: 오류

오류에 대한 로깅 설정은 실패한 요청 수를 캡처합니다. 실패 유형은 다음과 같습니다.

  • 명시적(예: HTTP 500 오류)

  • 암시적(예: 잘못된 콘텐츠와 결합된 HTTP 200 성공 응답)

  • 정책(예: 1초의 응답 시간에 커밋하는 경우 1초를 초과하는 요청은 오류)

프로토콜 응답 코드가 모든 실패 조건을 표현하기에 충분하지 않은 경우 부분 실패 모드를 추적하는 데 보조(내부) 프로토콜이 필요할 수 있습니다.

6.12 알림 및 알림

알림 및 알림은 모니터링에서 설정됩니다. 알림에는 Slack, 이메일 알림, 페이지 및 SMS(단문 메시지 서비스) 메시지를 가져오는 기능이 포함됩니다. 알림이 가능한 모든 위반에 대한 알림을 보내는 것을 의미하지는 않습니다. 대신, 개발 팀에 의미 있고 중요한 특정 예외에 대한 알림을 설정하는 것을 의미합니다. 이렇게 하면 알림 피로가 방지됩니다.