Amazon에서 이벤트 전송을 모니터링하는 모범 사례 EventBridge - Amazon EventBridge

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon에서 이벤트 전송을 모니터링하는 모범 사례 EventBridge

이벤트 기반 애플리케이션의 비즈니스 로직이 안정적으로 실행되도록 하려면 이벤트 전송 동작을 모니터링하는 것이 중요합니다. 는 신뢰할 수 있는 이벤트 전송을 보장하기 위해 문제를 조기에 모니터링, 감지 및 완화할 수 있는 지표를 EventBridge 제공합니다. 이러한 지표에는 다음이 포함됩니다.

  • , 및 InvocationAttemptsSuccessfulInvocationAttemptsRetryInvocationAttempts와 같은 카운터 기반 지표FailedInvocations를 사용하여 대상 제한을 관찰하고 오류율을 계산할 수 있습니다.

  • 이벤트 전송 및 지연에 대한 인사이트IngestionToInvocationSuccessLatency를 제공하는 와 같은 지연 시간 기반 지표입니다.

이러한 지표를 사용하면 이벤트 기반 아키텍처의 상태를 모니터링하고 성능 저하, 크기 미달 또는 응답하지 않는 대상으로 인한 이벤트 전송 문제를 이해하고 완화할 수 있습니다. 예를 들어, 영구적으로 축소되거나 제한된 대상은 과도한 재시도, 이벤트 전송 지연 및 영구 전송 실패를 초래할 수 있습니다.

여러 지표를 결합하여 전체론적 개요를 확인하고 면밀히 모니터링하는 것이 좋습니다. 적절한 경보 및 대시보드를 설정하면 지속적인 문제를 조기에 해결할 수 있습니다.

특정 지표에 대한 자세한 내용은 섹션을 참조하세요EventBridge 지표.

이벤트 전송 실패 감지

EventBridge 에는 규칙당 대상 호출, 즉 이벤트 전송 시도를 보고하도록 구성할 수 있는 지표가 포함되어 있습니다.

규칙 수준에서 다음 지표를 모니터링하는 것이 좋습니다.

  • InvocationAttempts 이벤트 전송 재 EventBridge 시도를 포함하여 대상을 호출하려는 총 횟수를 관찰합니다.

  • SuccessfulInvocationAttempts 이벤트를 대상에 EventBridge 성공적으로 전달한 호출 시도 횟수입니다.

  • RetryInvocationAttempts 이벤트 전송 재시도를 나타내는 횟수입니다.

    의 증가는 크기가 작은 대상의 초기 징후일 RetryInvocationAttempts 수 있습니다.

또한 재시도 횟수 증가는 전송 문제의 첫 번째 징후일 수 있으므로 모든 대상 호출에 대한 성공적인 대상 호출의 백분율을 추적하는 단일 지표를 생성하는 것이 좋습니다. 예를 들어 에서 다음 공식을 SuccessfulInvocationRate사용하여 지표 수학을 사용하여 라는 지표를 생성할 CloudWatch 수 있습니다.

SuccessfulInvocationRate = SuccessfulInvocationAttempts / InvocationAttempts

그런 다음 요구 사항에 따라 특정 임계값에 도달하면 알림을 생성하도록 CloudWatch 경보를 구성할 수 있습니다.

일시적인 트래픽 급증 또는 호출 오류SuccessfulInvocationRate로 인해 가 가끔 감소하는 것은 정상으로 간주될 수 있지만, 지속적인 불일치는 잘못 구성된 대상을 나타내는 것이므로 공동 책임 모델의 일부로 해결해야 합니다.

지표 수학에 대한 자세한 내용은 Amazon CloudWatch 사용 설명서 CloudWatch 지표와 함께 수학 표현식 사용을 참조하세요.

기본적으로 는 24시간 동안 최대 185회까지 이벤트 전송을 EventBridge 재시도합니다. 가 이러한 재시도를 EventBridge 모두 소진한 후 가 이벤트를 EventBridge 삭제하거나 지정된 경우 데드 레터 대기열로 전송합니다. 자세한 내용은 이벤트 전송 재시도 단원을 참조하십시오. 이벤트가 전송되지 않을 경우 이벤트가 손실되지 않도록 각 규칙 대상에 대해 데드 레터 대기열을 구성하는 것이 좋습니다. 자세한 내용은 DLQ(Dead Letter Queue) 사용 섹션을 참조하세요.

지정된 대상에 전달 EventBridge 하지 못하는 이벤트는 대상에 대한 데드 레터 대기열을 구성한 경우 FailedInvocations 지표와 InvocationsSentToDlq 지표에 보고됩니다. 애플리케이션에 FailedInvocations 또는 InvocationsSentToDlq 보고서 수가 많은 경우 대상의 규모가 적절하게 조정되고 지정된 트래픽을 수신할 수 있는지 조사하는 것이 좋습니다.

이벤트 전송 지연 감지

EventBridge 또한 는 이벤트 수집에서 대상에 대한 성공적인 전송까지 걸리는 시간인 end-to-end 지연 시간을 관찰할 수 있는 지표를 제공합니다. 이는 IngestionToInvocationSuccessLatency 지표를 사용하여 달성할 수 있습니다. 이 지표는 예를 들어 제한 시간 및 대상의 느린 응답으로 인해 재시도 및 지연 전송으로 인한 영향을 표시합니다. 에는 대상에서 이벤트 전송에 성공적으로 응답하는 데 걸리는 시간이 IngestionToInvocationSuccessLatency 포함됩니다. 이를 통해 EventBridge 와 대상 간의 end-to-end 지연 시간을 모니터링하고 대상 제한이나 오류가 없더라도 대상의 성능 변화 및 저하를 감지할 수 있습니다.