기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
비동기 엔드포인트에서 지표를 추적하기 위한 경보 및 로그
원시 데이터를 수집하여 읽기 가능하며 실시간에 가까운 지표로 처리하는 Amazon CloudWatch를 사용하여 SageMaker AI를 모니터링할 수 있습니다. Amazon CloudWatch를 사용하여 기록 정보에 액세스하고 웹 애플리케이션 또는 서비스가 어떻게 실행되고 있는지 전체적으로 더 잘 파악할 수 있습니다. Amazon CloudWatch에 대한 자세한 내용은 Amazon CloudWatch란 무엇인가요?를 참조하세요.
CloudWatch를 사용하여 모니터링
아래 지표는 AWS/SageMaker
네임스페이스에 있는 비동기 엔드포인트에 대한 전체 지표 목록입니다. 엔드포인트에 비동기 추론이 활성화된 경우 아래에 나열되지 않은 모든 지표는 게시되지 않습니다. 이러한 지표에는 다음이 포함되지만 이에 국한되지는 않습니다.
OverheadLatency
Invocations
InvocationsPerInstance
일반적인 엔드포인트 지표
이러한 지표는 오늘 실시간 엔드포인트에 대해 게시된 지표와 동일합니다. Amazon CloudWatch의 다른 지표에 대한 자세한 내용은 Amazon CloudWatch를 사용하여 SageMaker AI 모니터링을 참조하세요.
지표 이름 | 설명 | 단위/통계 |
---|---|---|
|
모델이 4xx HTTP 응답 코드를 반환하는 요청의 수. 각 4xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다. |
단위: 없음 유효한 통계: Average, Sum |
|
모델이 5xx HTTP 응답 코드를 반환하는 InvokeEndpoint 요청의 수. 각 5xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다. |
단위: 없음 유효한 통계: Average, Sum |
|
SageMaker AI에서 볼 때 모델이 응답하는 데 걸리는 시간 간격입니다. 이 간격에는 요청을 전송하고 모델의 컨테이너에서 응답을 가져오는 데 걸리는 로컬 통신 시간과 컨테이너에서 추론을 완료하는 데 걸리는 시간도 포함됩니다. |
단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
비동기 추론 엔드포인트 지표
이러한 지표는 비동기 추론이 활성화된 엔드포인트에 대해 게시됩니다. 다음 지표는 EndpointName
차원으로 게시됩니다..
지표 이름 | 설명 | 단위/통계 |
---|---|---|
|
엔드포인트 대기열에 있는 항목 중 현재 처리 중이거나 아직 처리되지 않은 항목 수입니다. |
단위: 개 유효한 통계: 평균, 최대, 최소 |
|
대기열에 있는 항목 수를 엔드포인트 뒤의 인스턴스 수로 나눈 값입니다. 이 지표는 주로 비동기 지원 엔드포인트에 대한 애플리케이션 오토 스케일링을 설정하는 데 사용됩니다. |
단위: 개 유효한 통계: 평균, 최대, 최소 |
|
대기열에 있는 가장 오래된 요청의 보존 기간입니다. |
단위: 초 유효한 통계: 평균, 최대, 최소 |
|
대기열에 요청이 있지만 엔드포인트 뒤에 있는 인스턴스가 없을 때 이 지표의 값은 |
단위: 개수 유효 통계: Average |
다음 지표는 EndpointName
및 VariantName
차원으로 게시됩니다..
지표 이름 | 설명 | 단위/통계 |
---|---|---|
|
Amazon S3에서 요청을 다운로드하는 중 문제가 발생하여 추론 실패가 발생하는 경우 |
단위: 개 유효 통계: Sum |
|
Amazon S3에 응답을 업로드하는 중 문제가 발생하여 추론 실패가 발생하는 경우 |
단위: 개 유효 통계: Sum |
|
알림을 게시하는 데 문제가 발생한 경우 |
단위: 개 유효 통계: Sum |
|
요청 페이로드를 다운로드하는 데 걸린 총 시간입니다. |
단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
|
응답 페이로드를 업로드하는 데 걸린 총 시간입니다. |
단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count |
|
지정된 요청 TTL에 도달하여 실패한 대기열의 요청 수입니다. |
단위: 개 유효 통계: Sum |
|
어떤 이유로든 호출이 실패한 경우 |
단위: 개 유효 통계: Sum |
|
엔드포인트에서 처리한 비동기 호출 수 |
단위: 개 유효 통계: Sum |
|
요청이 처리되기 전에 대기열에 있었던 총 시간입니다. 여기에는 실제 처리 시간(예: 다운로드 시간, 업로드 시간, 모델 지연 시간)은 포함되지 않습니다. |
단위: 밀리초 유효 통계: Average, Sum, Min, Max, Sample Count |
|
SageMaker AI가 추론 요청을 수신한 시간부터 요청이 처리를 완료한 시간까지입니다. 여기에는 백로그에 소요되는 시간과 응답 알림을 업로드하고 전송하는 시간(있는 경우)이 포함됩니다. |
단위: 밀리초 유효 통계: Average, Sum, Min, Max, Sample Count |
Amazon SageMaker 비동기 추론에는 호스트 수준 지표도 포함됩니다. 호스트 수준 지표에 대한 자세한 내용은 SageMaker AI 작업 및 엔드포인트 지표를 참조하세요.
로그
사용자 계정에서 Amazon CloudWatch에 게시되는 모델 컨테이너 로그 외에도 추론 요청의 추적 및 디버깅을 위한 새로운 플랫폼 로그도 사용할 수 있습니다.
새 로그는 엔드포인트 로그 그룹 아래에 게시됩니다.
/aws/sagemaker/Endpoints/
[EndpointName]
로그 스트림 이름은 다음과 같이 구성됩니다.
[production-variant-name]
/[instance-id]
/data-log.
로그 라인에는 요청의 추론 ID가 포함되므로 오류를 특정 요청에 쉽게 매핑할 수 있습니다.