프로덕션 모니터링 - Amazon DynamoDB

프로덕션 모니터링

다양한 시간과 다양한 부하 조건에서 성능을 측정하여 환경에서 일반 DAX 성능의 기준을 설정해야 합니다. DAX를 모니터링할 때 과거 모니터링 데이터를 저장할 것을 고려해야 합니다. 이 저장된 데이터는 현재 성능 데이터와 비교하고, 일반 성능 패턴과 성능 이상을 식별하며 문제 해결 방법을 제안하는 기준이 됩니다.

기준을 설정하려면 로드 테스트 중에 프로덕션 환경에서 최소한 다음 항목을 모니터링해야 합니다.

  • CPU 사용률 및 조정된 요청 - 클러스터에서 더 큰 노드 유형을 사용해야 하는지 여부를 확인할 수 있습니다. 클러스터의 CPU 사용률은 CPUUtilization CloudWatch 지표를 통해 제공됩니다. 이 지표의 평균 통계는 클러스터의 모든 노드에 대한 평균 CPU 사용률 보기를 제공합니다. 클러스터 규모를 조정할 때는 모든 노드의 최대 사용률인 최대 통계를 고려하는 것이 좋습니다.

    참고

    AWS는 CPUUtilization 지표의 세분성을 개선했습니다. 2024년 5월 17일부터 2024년 6월 22일까지 지표가 변경됩니다.

  • 작업 지연 시간(클라이언트 측에서 측정)은 애플리케이션의 지연 시간 요구 사항 내에서 일관되게 유지되어야 합니다.

  • 오류 발생률은 ErrorRequestCount, FaultRequestCountFailedRequestCount CloudWatch 지표에서 볼 수 있는 것처럼 낮게 유지되어야 합니다.

  • 네트워크 바이트 사용량: 클러스터에서 더 많은 노드를 사용해야 하는지 아니면 더 큰 노드 유형을 사용해야 하는지 결정할 수 있습니다. 사용량을 모니터링하기 위해 CloudWatch에서 사용할 수 있는 BaselineNetworkBytesInUtilizationBaselineNetworkBytesOutUtilization 지표에 대한 알림을 설정할 수 있습니다. 이 지표는 인스턴스 유형에 따라 수신 및 송신 트래픽에 각각 사용 가능한 네트워크 대역폭의 사용률을 나타냅니다.

  • 캐시 메모리 사용률 및 제거된 크기. 클러스터의 노드 유형에 작업 세트를 보유할 만큼 충분한 메모리가 있는지 확인하고, 그렇지 않은 경우 더 큰 노드 유형으로 전환할 수 있습니다.

    참고

    캐시 누락 및 쓰기 횟수가 많은 경우 캐시 메모리 사용률이 최대 100%까지 증가할 수 있으며 이로 인해 가용성 차질이 발생할 수 있습니다.

  • 클라이언트 연결 - 클러스터에 대한 연결에 설명되지 않은 스파이크를 모니터링할 수 있습니다.