개선
운영 우수성을 유지하려면 학습하고 공유하고 지속적으로 개선해야 합니다. 거의 연속적이고 서서히 개선을 이뤄내는 데에 주력하여 작업 주기를 조절합니다. 고객에게 영향을 미치는 모든 이벤트의 사후 분석을 수행합니다. 재발 제한 또는 방지를 위한 기여 요인과 예방 조치를 파악합니다. 영향을 받는 커뮤니티와 함께 기여 요소를 적절히 알립니다. 워크로드와 운영 절차 모두를 포함하여 개선할 부분(예: 기능 요청, 문제 해결, 규정 준수 요구 사항)을 정기적으로 평가하고 우선순위를 조정합니다.
절차 내에 피드백 루프를 포함시켜 개선할 영역을 빠르게 식별하고 실행을 통해 학습한 내용을 파악합니다.
팀 전반에 걸쳐 파악한 내용을 공유하여 이러한 내용의 이점도 함께 공유합니다. 파악한 내용 내의 추세를 분석하고 운영 지표에 대해 팀 교차 후행 분석을 수행하여 개선할 여지 및 방법을 식별합니다. 개선하려는 변경 사항을 적용하고 결과를 평가하여 성공 여부를 확정합니다.
AWS에서 Amazon S3로 로그 데이터를 내보내거나 Amazon S3로 로그를 직접 전송하여 장기 보관할 수 있습니다. AWS Glue를 사용하면 Amazon S3에서 분석 목적으로 로그 데이터를 검색하고 준비하며, AWS Glue Data Catalog에 관련 메타데이터를 저장할 수 있습니다. Amazon Athena에서 AWS Glue와의 기본 통합을 통해 로그 데이터를 분석하고 표준 SQL을 사용하여 쿼리할 수 있습니다. Amazon QuickSight와 같은 비즈니스 인텔리전스 도구를 사용하면 데이터를 시각화하고 탐색하며 분석할 수 있습니다. 개선을 이끌 추세와 관심 이벤트를 찾습니다.
다음은 운영 우수성 고려 사항에 중점을 둔 질문입니다.
OPS 11: How do you evolve operations? |
---|
Dedicate time and resources for nearly continuous incremental improvement to evolve the effectiveness and efficiency of your operations. |
성공적인 운영 개선은 잦은 소규모 개선, 안전한 환경 및 실험, 개발, 테스트 개선에 대한 시간 제공, 그리고 실패로부터 학습을 독려하는 환경을 통해 이루어집니다. 샌드박스, 개발, 테스트, 생산 환경에 대한 운영 지원을 통해 운영 제어 수준을 점점 높아지도록 하고 개발을 촉진하며 생산 단계에 배포된 변경에서 성공적인 결과를 예측할 수 있도록 합니다.