Amazon OpenSearch Service에 권장되는 CloudWatch 경보

CloudWatch 경보는 CloudWatch 지표가 일정 시간 동안 지정된 값을 초과하면 조치를 수행합니다. 예를 들어 클러스터 상태가 AWS 1분 이상 red 지속되면 이메일을 보낼 수 있습니다. 이 단원에는 Amazon OpenSearch Service에 권장되는 몇 가지 경보와 이에 대응하는 방법이 포함되어 있습니다.

를 사용하여 이러한 경보를 자동으로 배포할 수 있습니다 AWS CloudFormation. 샘플 스택은 관련 GitHub 리포지토리를 참조하세요.

참고

CloudFormation 스택을 배포하는 경우 KMSKeyError 및 KMSKeyInaccessible 경보는 Insufficient Data 상태로 존재하게 됩니다. 이러한 지표는 도메인에서 암호화 키에 문제가 발생한 경우에만 나타나기 때문입니다.

경보 구성에 대한 자세한 내용은 Amazon CloudWatch 사용 설명서의 Amazon CloudWatch 경보 생성을 참조하세요.

경보	문제
`ClusterStatus.red` 최댓값은 1분, 연속 횟수 1번 동안 >= 1임	하나 이상의 기본 샤드와 복제본이 노드에 할당되지 않았습니다. 빨간색 클러스터 상태 섹션을 참조하세요.
`ClusterStatus.yellow` 최댓값은 1분, 연속 횟수 5번 동안 >= 1임	하나 이상의 복제 샤드가 노드에 할당되지 않았습니다. 노란색 클러스터 상태 섹션을 참조하세요.
`FreeStorageSpace` 최소값은 1분, 연속 횟수 1번 동안 <= 20480임	클러스터 속 노드의 여유 스토리지 공간이 20GiB까지 떨어졌습니다. 사용 가능한 스토리지 공간 부족 섹션을 참조하세요. 이 값은 MiB 단위이므로 20480이 아닌 각 노드에 대한 총 스토리지 공간의 25%로 설정하는 것이 좋습니다.
`ClusterIndexWritesBlocked`은 5분, 연속 1회 동안 >= 1임	클러스터가 쓰기 요청을 차단하고 있습니다. ClusterBlockException 섹션을 참조하세요.
`Nodes` 최소값은 1일, 연속 횟수 1번 동안 < x임	x는 클러스터의 노드 수입니다. 이 경보는 클러스터에서 하나 이상의 노드가 하루 동안 연결되지 않았음을 나타냅니다. 실패한 클러스터 노드 섹션을 참조하세요.
`AutomatedSnapshotFailure` 최댓값은 1분, 연속 횟수 1번 동안 >= 1임	자동 스냅샷에 오류가 발생했습니다. 이런 오류는 red 클러스터 상태로 인해 자주 발생했습니다. 빨간색 클러스터 상태 섹션을 참조하세요. 모든 자동 스냅샷과 오류에 대한 일부 정보 요약을 위해 다음 요청 중 하나를 시도합니다. `GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all`
`CPUUtilization` 또는 `WarmCPUUtilization` 최댓값은 15분, 연속 횟수 3번 동안 >= 80%임	때때로 100% CPU 사용률이 발생할 수 있지만 사용률이 높게 지속되는 것은 문제가 됩니다. 더 큰 인스턴스 유형을 사용하거나 인스턴스 추가를 고려하세요.
`JVMMemoryPressure` 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임	사용량이 늘어나면 클러스터에서 메모리 부족 오류가 발생할 수 있습니다. 수직 확장을 고려하세요. OpenSearch Service는 Java 힙에 인스턴스 RAM의 절반을 사용합니다(최대 힙 크기 32GiB). 인스턴스를 최대 64GiB의 RAM까지 수직 확장할 수 있으며 인스턴스를 추가하면 수평 확장도 가능합니다.
`OldGenJVMMemoryPressure` 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임
`MasterCPUUtilization` 최댓값은 15분, 연속 횟수 3번 동안 >= 50%임	전용 프라이머리 노드에 더 큰 인스턴스 유형의 사용을 고려하세요. 클러스터 안정성 및 블루/그린(Blue/Green) 배포의 역할로 인해 전용 프라이머리 노드는 데이터 노드보다 CPU 사용량이 적어야 합니다.
`MasterJVMMemoryPressure` 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임
`MasterOldGenJVMMemoryPressure` 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임
`KMSKeyError`은 1분, 연속 횟수 1번 동안 >= 1임	도메인에 저장된 데이터를 암호화하는 데 사용되는 암호화 AWS KMS 키는 비활성화됩니다. 정상 작동으로 복원하려면 다시 활성화해야 합니다. 자세한 내용은 Amazon OpenSearch Service의 저장된 데이터 암호화 섹션을 참조하세요.
`KMSKeyInaccessible`은 1분, 연속 횟수 1번 동안 >= 1임	도메인의 저장 데이터를 암호화하는 데 사용되는 AWS KMS 암호화 키가 삭제되었거나 OpenSearch Service에 대한 권한 부여를 취소했습니다. 이 상태의 도메인은 복원할 수 없습니다. 하지만 수동 스냅샷이 있는 경우 새 도메인으로 마이그레이션하는 데 해당 스냅샷을 사용할 수 있습니다. 자세한 내용은 Amazon OpenSearch Service의 저장된 데이터 암호화를 참조하세요.
`shards.active`는 1분, 연속 횟수 1번 동안 >= 30,000임	활성된 기본 및 복제본 샤드의 총 개수가 30,000개 이상입니다. 인덱스를 너무 자주 회전하고 있는 것일 수 있습니다. 특정 수명에 도달하면 ISM을 사용하여 인덱스를 제거하는 것이 좋습니다.
`5xx` 경보 >= `OpenSearchRequests`의 10%	1개 이상의 데이터 노드가 오버로드됐거나 요청이 유휴 제한 시간 내에 완료하는 데 실패했습니다. 더 큰 인스턴스 유형으로 전환하거나 클러스터에 노드를 추가하는 것이 좋습니다. 샤드 및 클러스터 아키텍쳐 모범 사례를 준수하고 있는지 확인하세요.
`MasterReachableFromNode` 최댓값은 5분 동안 1 미만(연속 횟수 1회)	이 경보는 프라이머리 노드가 중지됐거나 도달할 수 없음을 나타냅니다. 이러한 장애는 일반적으로 네트워크 연결 문제 또는 AWS 종속성 문제의 결과입니다.
`ThreadpoolWriteQueue` 평균은 1분, 연속 횟수 1번 동안 >= 100임	클러스터의 인덱싱 동시성이 높습니다. 인덱싱 요청을 검토 및 제어하거나 클러스터 리소스를 늘리세요.
`ThreadpoolSearchQueue` 평균은 1분, 연속 횟수 1번 동안 >= 500임	클러스터의 검색 동시성이 높습니다. 클러스터 크기 조정을 고려하세요. 검색 대기열 크기를 늘릴 수도 있지만 지나치게 늘리면 메모리 부족 오류가 발생할 수 있습니다.
`ThreadpoolSearchQueue` 최댓값은 1분, 연속 횟수 1번 동안 >= 5,000임
`ThreadpoolSearchRejected` 합계의 증량은 1분, 연속 횟수 1번 동안 >=1{ 수학식 DIFF ( )}임	이러한 경보는 성능 및 안정성에 영향을 줄 수 있는 도메인 문제를 알려줍니다.
`ThreadpoolWriteRejected` 합계의 증량은 1분, 연속 횟수 1번 동안 >=1{ 수학식 DIFF ( )}임	이러한 경보는 성능 및 안정성에 영향을 줄 수 있는 도메인 문제를 알려줍니다.

참고

지표만 확인하려면 Amazon CloudWatch로 OpenSearch 클러스터 지표 모니터링 섹션을 참조하세요.

고려할 만한 기타 경보

정기적으로 사용하는 OpenSearch Service 기능에 따라 다음 경보 구성을 고려하세요.

경보	문제
`WarmFreeStorageSpace`는 10% 이상	사용 가능한 전체 웜 스토리지의 10%에 도달했습니다. `WarmFreeStorageSpace`는 사용 가능한 웜 스토리지 공간의 합계(MiB)를 측정합니다. UltraWarm은 연결된 디스크 대신 Amazon S3를 사용합니다.
`HotToWarmMigrationQueueSize`는 1분, 연속 횟수 3번 동안 >= 20임	많은 수의 인덱스가 동시에 핫 스토리지에서 UltraWarm 스토리지로 이동하고 있습니다. 클러스터 크기 조정을 고려하세요.
`HotToWarmMigrationSuccessLatency`는 >= 1일, 연속 횟수 1번임	일일 인덱스를 회전하려고 할 때 `HotToWarmMigrationSuccessCount` x 대기 시간이 24시간 이상인 경우 알림을 받을 수 있도록 이 경보를 구성하세요.
`WarmJVMMemoryPressure` 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임	사용량이 늘어나면 클러스터에서 메모리 부족 오류가 발생할 수 있습니다. 수직 확장을 고려하세요. OpenSearch Service는 Java 힙에 인스턴스 RAM의 절반을 사용합니다(최대 힙 크기 32GiB). 인스턴스를 최대 64GiB의 RAM까지 수직 확장할 수 있으며 인스턴스를 추가하면 수평 확장도 가능합니다.
`WarmOldGenJVMMemoryPressure` 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임
`WarmToColdMigrationQueueSize`는 1분, 연속 횟수 3번 동안 >= 20임	많은 수의 인덱스가 동시에 UltraWarm에서 콜드 스토리지로 이동하고 있습니다. 클러스터 크기 조정을 고려하세요.
`HotToWarmMigrationFailureCount`은 1분, 연속 횟수 1번 동안 >= 1임	스냅샷, 샤드 재배치 또는 강제 합병 중 마이그레이션이 실패할 수도 있습니다. 스냅샷 또는 샤드 재배치 중 실패는 일반적으로 노드 오류 또는 S3 연결 문제로 인해 발생합니다. 일반적으로 디스크 공간 부족이 강제 병합 실패의 근본 원인입니다.
`WarmToColdMigrationFailureCount`은 1분, 연속 횟수 1번 동안 >= 1임	마이그레이션 실패는 인덱스 메타데이터를 콜드 스토리지로 마이그레이션하려는 시도가 실패할 때 주로 발생합니다. 웜 인덱스 클러스터 상태가 삭제될 때도 실패가 발생할 수 있습니다.
`WarmToColdMigrationLatency`는 >= 1일, 연속 횟수 1번임	일일 인덱스를 회전하려고 할 때 `WarmToColdMigrationSuccessCount` x 대기 시간이 24시간 이상인 경우 알림을 받을 수 있도록 이 경보를 구성하세요.
`AlertingDegraded`은 1분, 연속 횟수 1번 동안 >= 1임	알림 인덱스가 빨간색이거나 1개 이상의 노드가 스케줄을 따르지 않습니다.
`ADPluginUnhealthy`은 1분, 연속 횟수 1번 동안 >= 1임	실패율이 높거나 사용되는 인덱스 중 1개 이상이 빨간색이기 때문에 이상 탐지 플러그인이 제대로 작동하지 않습니다.
`AsynchronousSearchFailureRate`은 1분, 연속 횟수 1번 동안 >= 1임	마지막 순간에 1개 이상의 비동기 검색이 실패했으며. 이는 코디네이터 노드가 실패했을 가능성이 높음을 의미합니다. 비동기 검색 요청의 수명 주기는 코디네이터 노드에서만 관리되므로 코디네이터에 오류가 생기면 요청이 실패합니다.
`AsynchronousSearchStoreHealth`은 1분, 연속 횟수 1번 동안 >= 1임	지속된 인덱스의 비동기 검색 응답 저장소 상태가 빨간색입니다. 클러스터를 불안정하게 만들 수 있는 큰 비동기 응답을 저장하고 있을 수도 있습니다. 비동기 검색 응답을 10MB 이하로 제한하세요.
`SQLUnhealthy`는 1분, 연속 횟수 3번 동안 >= 1임	SQL 플러그인이 5xx 응답 코드를 반환하거나 유효하지 않은 쿼리 DSL을 OpenSearch로 넘기고 있습니다. 클라이언트가 플러그인에 하는 요청을 해결하세요.
`LTRStatus.red`은 1분, 연속 횟수 1번 동안 >= 1임	Learning to Rank 플러그인을 실행하는 데 필요한 인덱스 중 1개 이상이 기본 샤드가 없으며 작동하지 않습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

전용 프라이머리 노드

일반 참조