운영 관찰성

환경 성능에 대한 실행 가능한 인사이트를 얻고 문제를 감지하고 조사하는 데 도움이 되려면 관찰성이 필요합니다. 또한 가동 시간과 같은 핵심 성과 지표(KPI)와 서비스 수준 목표(SLO)를 정의하고 측정할 수 있는 보조 목적도 있습니다. 대부분의 조직에서 중요한 운영 KPI는 인시던트로부터의 평균 감지 시간(MTTD)과 평균 복구 시간(MTTR)입니다.

데이터를 수집한 다음 관련 태그를 수집하기 때문에 관찰성 전반에서 컨텍스트가 중요합니다. 초점을 맞추고 있는 서비스, 애플리케이션 또는 애플리케이션 계층에 관계없이 해당 특정 데이터 세트를 필터링하고 분석할 수 있습니다. 태그를 사용하여 CloudWatch 경보에 대한 온보딩을 자동화하여 특정 지표 임계값 위반 시 적절한 팀에 알림을 보낼 수 있습니다. 예를 들어 태그 키 example-inc:ops:alarm-tag 및 그 값은 CloudWatch 경보가 생성되었음을 나타낼 수 있습니다. 이를 보여 주는 솔루션은 태그를 사용하여 Amazon EC2 인스턴스에 대한 Amazon CloudWatch 경보 생성 및 유지 관리에 설명되어 있습니다.

경보를 너무 많이 구성하면 알림 폭풍이 쉽게 발생할 수 있습니다. 운영자가 개별 경보를 수동으로 분류하고 우선순위를 정하는 과정에서 많은 수의 경보나 알림이 운영자에게 빠르게 부담을 주고 전반적인 효율성을 떨어뜨릴 수 있습니다. 경보에 대한 추가 컨텍스트를 태그 형태로 제공할 수 있습니다. 즉, Amazon EventBridge 내에서 규칙을 정의하여 다운스트림 종속성 대신 업스트림 문제에 초점을 맞출 수 있습니다.

DevOps와 함께 운영의 역할을 간과하는 경우가 많지만 많은 조직에서 중앙 운영팀은 정규 업무 시간 외에도 중요한 첫 대응을 제공합니다. (이 모델에 대한 자세한 내용은 운영 우수성 백서에서 확인할 수 있습니다.) 워크로드를 소유한 DevOps 팀과 달리 일반적으로 동일한 수준의 지식을 가지고 있지 않으므로 태그가 대시보드 및 알림 내에서 제공하는 컨텍스트는 문제에 대한 올바른 런북으로 전달하거나 자동 런북을 시작할 수 있습니다(블로그 게시물 Amazon CloudWatch 경보 자동화 AWS Systems Manager 참조).

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

패치 적용

데이터 보안, 위험 관리 및 액세스 제어를 위한 태그