인시던트 감지 및 대응에서 경보 정의 및 구성 - AWS 인시던트 감지 및 대응 사용 설명서

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

인시던트 감지 및 대응에서 경보 정의 및 구성

AWS 는 사용자와 협력하여 지표와 경보를 정의하여 애플리케이션 및 기본 AWS 인프라의 성능에 대한 가시성을 제공합니다. 임계값을 정의하고 구성할 때 경보가 다음 기준을 준수하도록 요청합니다.

  • 경보는 즉각적인 운영자 주의가 필요한 모니터링되는 워크로드(수익 손실 또는 성능이 크게 저하되는 고객 경험 저하)에 심각한 영향을 미치는 경우에만 “경보” 상태로 전환됩니다.

  • 또한 경보는 인시던트 관리 팀을 참여시키는 동시에 또는 참여 전에 워크로드에 대해 지정된 해석기를 참여시켜야 합니다. 인시던트 관리 엔지니어는 완화 프로세스에서 지정된 해석기와 협업해야 하며, 일선 대응 담당자 역할을 하지 않고 에스컬레이션해야 합니다.

  • 경보 임계값을 적절한 임계값 및 기간으로 설정하여 경보가 발생할 때마다 조사를 수행해야 합니다. 경보가 "Alarm" 상태와 "OK" 상태 사이에서 플래핑되는 경우 운영자의 응답과 주의를 보장하기에 충분한 영향이 발생합니다.

경보 유형:

  • 비즈니스 영향 수준을 설명하고 간단한 장애 감지를 위해 관련 정보를 전달하는 경보입니다.

  • Amazon CloudWatch canary. 자세한 내용은 Canary 및 X-Ray 추적X-Ray를 참조하세요.

  • 집계 경보(종속성 모니터링)

다음 표에는 CloudWatch 모니터링 시스템을 사용하는 경보의 예가 나와 있습니다.

지표 이름/경보 임계값 경보 ARN 또는 리소스 ID 이 경보가 실행되는 경우 참여하는 경우 이러한 서비스에 대한 Premium Support Case를 자릅니다.

API 오류/

10개 데이터 포인트에 대해 오류 수 >= 10개

arn:aws:cloudwatch:us-west-2:000000000000:alarm:E2MPmimLambda-Errors

데이터베이스 관리자(DBA) 팀으로 티켓 자르기

Lambda, API 게이트웨이

ServiceUnavailable(Http 상태 코드 503)

5분 동안 10개의 데이터 포인트(다른 클라이언트)에 대한 오류 수 >=3

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503

서비스 팀으로 티켓 자르기

Lambda, API 게이트웨이

ThrottlingException(Http 상태 코드 400)

5분 동안 10개의 데이터 포인트(다른 클라이언트)에 대한 오류 수 >=3

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400

서비스 팀으로 티켓 자르기

EC2, Amazon Aurora

자세한 내용은 AWS 인시던트 감지 및 대응 모니터링 및 관찰성을 참조하세요.

키 출력:

  • 워크로드에 대한 경보의 정의 및 구성입니다.

  • 온보딩 설문지의 경보 세부 정보 작성.