개선 - 운영 우수성 원칙

개선

운영 우수성을 유지하려면 학습하고 공유하며 지속적으로 개선해야 합니다. 거의 연속적이고 서서히 개선을 이뤄내는 데에 주력하여 작업 주기를 조절합니다. 고객에게 영향을 미치는 모든 이벤트의 사후 분석을 수행합니다. 재발 제한 또는 방지를 위한 기여 요인과 예방 조치를 파악합니다. 영향을 받는 커뮤니티와 함께 기여 요소를 적절히 알립니다. 워크로드와 운영 절차 모두를 포함하여 개선할 부분(예: 기능 요청, 문제 해결, 규정 준수 요구 사항)을 정기적으로 평가하고 우선순위를 조정합니다.

절차 내에 피드백 루프를 포함시켜 개선할 영역을 빠르게 식별하고 실행을 통해 학습한 교훈을 파악합니다.

팀 전반에 걸쳐 파악한 내용을 공유하여 이러한 내용의 이점도 함께 공유합니다. 파악한 내용 내의 추세를 분석하고 운영 지표에 대해 팀 교차 후행 분석을 수행하여 개선할 여지 및 방법을 식별합니다. 개선하려는 변경 사항을 적용하고 결과를 평가하여 성공 여부를 확정합니다.

AWS에서 Amazon S3로 로그 데이터를 내보내거나 장기 보관을 위해 Amazon S3로 로그를 직접 전송할 수 있습니다. AWS Glue를 사용하면 분석을 위해 Amazon S3의 로그 데이터를 검색 및 준비하여 AWS Glue Data Catalog에 관련된 메타데이터를 저장할 수 있습니다. 그리고 Amazon Athena에서 AWS Glue와의 기본 통합을 통해 로그 데이터를 분석하고 표준 SQL을 사용해 쿼리할 수 있습니다. Amazon QuickSight와 같은 비즈니스 인텔리전스 도구를 사용하면 데이터를 시각화하고 탐색하며 분석할 수 있습니다. 개선을 이끌 추세와 관심 이벤트를 찾습니다.

성공적인 운영 개선은 잦은 소규모 개선, 안전한 환경 제공, 실험과 개발, 테스트 개선을 위한 시간 제공 그리고 실패로부터 학습을 독려하는 환경을 통해 이루어집니다. 샌드박스, 개발, 테스트, 생산 환경에 대한 운영 지원을 통해 운영 제어 수준을 점점 높아지도록 하고 개발을 촉진하며 생산 단계에 배포된 변경에서 성공적인 결과를 예측할 수 있도록 합니다.