비동기 엔드포인트에서 지표를 추적하기 위한 경보 및 로그 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

비동기 엔드포인트에서 지표를 추적하기 위한 경보 및 로그

원시 데이터를 수집하여 읽기 가능하며 실시간에 가까운 지표로 처리하는 Amazon CloudWatch를 사용하여 SageMaker AI를 모니터링할 수 있습니다. Amazon CloudWatch를 사용하여 기록 정보에 액세스하고 웹 애플리케이션 또는 서비스가 어떻게 실행되고 있는지 전체적으로 더 잘 파악할 수 있습니다. Amazon CloudWatch에 대한 자세한 내용은 Amazon CloudWatch란 무엇인가요?를 참조하세요.

CloudWatch를 사용하여 모니터링

아래 지표는 AWS/SageMaker 네임스페이스에 있는 비동기 엔드포인트에 대한 전체 지표 목록입니다. 엔드포인트에 비동기 추론이 활성화된 경우 아래에 나열되지 않은 모든 지표는 게시되지 않습니다. 이러한 지표에는 다음이 포함되지만 이에 국한되지는 않습니다.

  • OverheadLatency

  • Invocations

  • InvocationsPerInstance

일반적인 엔드포인트 지표

이러한 지표는 오늘 실시간 엔드포인트에 대해 게시된 지표와 동일합니다. Amazon CloudWatch의 다른 지표에 대한 자세한 내용은 Amazon CloudWatch를 사용하여 SageMaker AI 모니터링을 참조하세요.

지표 이름 설명 단위/통계

Invocation4XXErrors

모델이 4xx HTTP 응답 코드를 반환하는 요청의 수. 각 4xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

Invocation5XXErrors

모델이 5xx HTTP 응답 코드를 반환하는 InvokeEndpoint 요청의 수. 각 5xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다.

단위: 없음

유효한 통계: Average, Sum

ModelLatency

SageMaker AI에서 볼 때 모델이 응답하는 데 걸리는 시간 간격입니다. 이 간격에는 요청을 전송하고 모델의 컨테이너에서 응답을 가져오는 데 걸리는 로컬 통신 시간과 컨테이너에서 추론을 완료하는 데 걸리는 시간도 포함됩니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

비동기 추론 엔드포인트 지표

이러한 지표는 비동기 추론이 활성화된 엔드포인트에 대해 게시됩니다. 다음 지표는 EndpointName차원으로 게시됩니다..

지표 이름 설명 단위/통계

ApproximateBacklogSize

엔드포인트 대기열에 있는 항목 중 현재 처리 중이거나 아직 처리되지 않은 항목 수입니다.

단위: 개

유효한 통계: 평균, 최대, 최소

ApproximateBacklogSizePerInstance

대기열에 있는 항목 수를 엔드포인트 뒤의 인스턴스 수로 나눈 값입니다. 이 지표는 주로 비동기 지원 엔드포인트에 대한 애플리케이션 오토 스케일링을 설정하는 데 사용됩니다.

단위: 개

유효한 통계: 평균, 최대, 최소

ApproximateAgeOfOldestRequest

대기열에 있는 가장 오래된 요청의 보존 기간입니다.

단위: 초

유효한 통계: 평균, 최대, 최소

HasBacklogWithoutCapacity

대기열에 요청이 있지만 엔드포인트 뒤에 있는 인스턴스가 없을 때 이 지표의 값은 1입니다. 다른 모든 경우에는 이 값은 0입니다. 이 지표를 사용하면 대기열에서 새 요청을 수신할 때 엔드포인트를 0개 인스턴스에서 오토 스케일링할 수 있습니다.

단위: 개수

유효 통계: Average

다음 지표는 EndpointNameVariantName차원으로 게시됩니다..

지표 이름 설명 단위/통계

RequestDownloadFailures

Amazon S3에서 요청을 다운로드하는 중 문제가 발생하여 추론 실패가 발생하는 경우

단위: 개

유효 통계: Sum

ResponseUploadFailures

Amazon S3에 응답을 업로드하는 중 문제가 발생하여 추론 실패가 발생하는 경우

단위: 개

유효 통계: Sum

NotificationFailures

알림을 게시하는 데 문제가 발생한 경우

단위: 개

유효 통계: Sum

RequestDownloadLatency

요청 페이로드를 다운로드하는 데 걸린 총 시간입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ResponseUploadLatency

응답 페이로드를 업로드하는 데 걸린 총 시간입니다.

단위: 마이크로초

유효 통계: Average, Sum, Min, Max, Sample Count

ExpiredRequests

지정된 요청 TTL에 도달하여 실패한 대기열의 요청 수입니다.

단위: 개

유효 통계: Sum

InvocationFailures

어떤 이유로든 호출이 실패한 경우

단위: 개

유효 통계: Sum

InvocationsProcesssed

엔드포인트에서 처리한 비동기 호출 수

단위: 개

유효 통계: Sum

TimeInBacklog

요청이 처리되기 전에 대기열에 있었던 총 시간입니다. 여기에는 실제 처리 시간(예: 다운로드 시간, 업로드 시간, 모델 지연 시간)은 포함되지 않습니다.

단위: 밀리초

유효 통계: Average, Sum, Min, Max, Sample Count

TotalProcessingTime

SageMaker AI가 추론 요청을 수신한 시간부터 요청이 처리를 완료한 시간까지입니다. 여기에는 백로그에 소요되는 시간과 응답 알림을 업로드하고 전송하는 시간(있는 경우)이 포함됩니다.

단위: 밀리초

유효 통계: Average, Sum, Min, Max, Sample Count

Amazon SageMaker 비동기 추론에는 호스트 수준 지표도 포함됩니다. 호스트 수준 지표에 대한 자세한 내용은 SageMaker AI 작업 및 엔드포인트 지표를 참조하세요.

로그

사용자 계정에서 Amazon CloudWatch에 게시되는 모델 컨테이너 로그 외에도 추론 요청의 추적 및 디버깅을 위한 새로운 플랫폼 로그도 사용할 수 있습니다.

새 로그는 엔드포인트 로그 그룹 아래에 게시됩니다.

/aws/sagemaker/Endpoints/[EndpointName]

로그 스트림 이름은 다음과 같이 구성됩니다.

[production-variant-name]/[instance-id]/data-log.

로그 라인에는 요청의 추론 ID가 포함되므로 오류를 특정 요청에 쉽게 매핑할 수 있습니다.