운영 관찰성 - AWS 리소스 태그 지정 모범 사례

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

운영 관찰성

환경 성능에 대한 실행 가능한 인사이트를 얻고 문제를 감지하고 조사하는 데 도움이 되려면 관찰성이 필요합니다. 또한 가동 시간과 같은 핵심 성과 지표(KPI)와 서비스 수준 목표(SLO)를 정의하고 측정할 수 있는 보조 목적도 있습니다. 대부분의 조직에서 중요한 운영 KPI는 인시던트로부터의 평균 감지 시간(MTTD)과 평균 복구 시간(MTTR)입니다.

데이터를 수집한 다음 관련 태그를 수집하기 때문에 관찰성 전반에서 컨텍스트가 중요합니다. 초점을 맞추고 있는 서비스, 애플리케이션 또는 애플리케이션 계층에 관계없이 해당 특정 데이터 세트를 필터링하고 분석할 수 있습니다. 태그를 사용하여 CloudWatch 경보에 대한 온보딩을 자동화하여 특정 지표 임계값 위반 시 적절한 팀에 알림을 보낼 수 있습니다. 예를 들어 태그 키 example-inc:ops:alarm-tag 및 그 값은 CloudWatch 경보가 생성되었음을 나타낼 수 있습니다. 이를 보여 주는 솔루션은 태그를 사용하여 Amazon EC2 인스턴스에 대한 Amazon CloudWatch 경보 생성 및 유지 관리에 설명되어 있습니다.

경보를 너무 많이 구성하면 알림 폭풍이 쉽게 발생할 수 있습니다. 운영자가 개별 경보를 수동으로 분류하고 우선 순위를 정하는 과정에서 많은 수의 경보나 알림이 운영자에게 빠르게 부담을 주고 전반적인 효율성을 떨어뜨릴 수 있습니다. 경보에 대한 추가 컨텍스트를 태그 형태로 제공할 수 있습니다. 즉, Amazon EventBridge 내에서 규칙을 정의하여 다운스트림 종속성 대신 업스트림 문제에 초점을 맞출 수 있습니다.

DevOps와 함께 운영의 역할을 간과하는 경우가 많지만 많은 조직에서 중앙 운영팀은 정규 업무 시간 외에도 중요한 첫 대응을 제공합니다. (이 모델에 대한 자세한 내용은 운영 우수성 백서에서 확인할 수 있습니다.) 워크로드를 소유하는 DevOps 팀과 달리 일반적으로 깊이 있는 지식을 가지고 있지 않기 때문에 대시보드 및 알림 내에서 태그가 제공하는 컨텍스트를 통해 문제의 올바른 런북을 찾거나 자동화된 런북을 시작할 수 있습니다(AWS Systems Manager를 사용하여 Amazon CloudWatch 경보 자동화 블로그 게시물 참조).