Amazon OpenSearch Service에 권장되는 CloudWatch 경보 - Amazon OpenSearch Service

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon OpenSearch Service에 권장되는 CloudWatch 경보

CloudWatch 는 CloudWatch 지표가 일정 시간 동안 지정된 값을 초과할 때 작업을 수행합니다. 예를 들어 클러스터 상태 상태가 AWS 1분 이상 red 지속되면 이메일을 보낼 수 있습니다. 이 섹션에는 Amazon OpenSearch Service에 권장되는 몇 가지 경보와 이에 대응하는 방법이 포함되어 있습니다.

를 사용하여 이러한 경보를 자동으로 배포할 수 있습니다 AWS CloudFormation. 샘플 스택은 관련 GitHub리포지토리를 참조하세요.

참고

CloudFormation 스택을 배포하면 도메인에 암호화 키에 문제가 발생하는 경우에만 이러한 지표가 나타나므로 KMSKeyErrorKMSKeyInaccessible 경보가 Insufficient Data 상태에 있게 됩니다.

경보 구성에 대한 자세한 내용은 Amazon CloudWatch 사용 설명서의 Amazon 경보 생성을 참조하세요. CloudWatch

경보 문제
ClusterStatus.red 최댓값은 1분, 연속 횟수 1번 동안 >= 1임 하나 이상의 기본 샤드와 복제본이 노드에 할당되지 않았습니다. 빨간색 클러스터 상태 섹션을 참조하세요.
ClusterStatus.yellow 최댓값은 1분, 연속 횟수 5번 동안 >= 1임 하나 이상의 복제 샤드가 노드에 할당되지 않았습니다. 노란색 클러스터 상태 섹션을 참조하세요.
FreeStorageSpace 최소값은 1분, 연속 횟수 1번 동안 <= 20480임 클러스터 속 노드의 여유 스토리지 공간이 20GiB까지 떨어졌습니다. 사용 가능한 스토리지 공간 부족 섹션을 참조하세요. 이 값은 MiB 단위이므로 20480이 아닌 각 노드에 대한 총 스토리지 공간의 25%로 설정하는 것이 좋습니다.
ClusterIndexWritesBlocked은 5분, 연속 1회 동안 >= 1임 클러스터가 쓰기 요청을 차단하고 있습니다. ClusterBlockException 섹션을 참조하세요.
Nodes 최소값은 1일, 연속 횟수 1번 동안 < x x는 클러스터의 노드 수입니다. 이 경보는 클러스터에서 하나 이상의 노드가 하루 동안 연결되지 않았음을 나타냅니다. 실패한 클러스터 노드 섹션을 참조하세요.
AutomatedSnapshotFailure 최댓값은 1분, 연속 횟수 1번 동안 >= 1임 자동 스냅샷에 오류가 발생했습니다. 이런 오류는 red 클러스터 상태로 인해 자주 발생했습니다. 빨간색 클러스터 상태 섹션을 참조하세요.

모든 자동 스냅샷과 오류에 대한 일부 정보 요약을 위해 다음 요청 중 하나를 시도합니다.

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
CPUUtilization 또는 WarmCPUUtilization 최댓값은 15분, 연속 횟수 3번 동안 >= 80%임 100% CPU 사용률이 가끔 발생할 수 있지만 높은 사용량을 유지하는 것은 문제가 됩니다. 더 큰 인스턴스 유형을 사용하거나 인스턴스 추가를 고려하세요.
JVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임 사용량이 늘어나면 클러스터에서 메모리 부족 오류가 발생할 수 있습니다. 수직으로 확장하는 것이 좋습니다. OpenSearch 서비스는 Java 힙RAM에 인스턴스의 절반을 사용하고 힙 크기는 최대 32GiB 입니다. 인스턴스를 추가하여 수평으로 확장할 수 RAM있는 의 최대 64GiB까지 인스턴스를 수직으로 확장할 수 있습니다.
OldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임
MasterCPUUtilization 최댓값은 15분, 연속 횟수 3번 동안 >= 50%임 전용 프라이머리 노드에 더 큰 인스턴스 유형의 사용을 고려하세요. 클러스터 안정성 및 블루/그린 배포에서 역할이 있기 때문에 전용 마스터 노드는 데이터 노드보다 CPU 사용량이 낮아야 합니다.
MasterJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임
MasterOldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임
KMSKeyError은 1분, 연속 횟수 1번 동안 >= 1임 도메인에 저장된 데이터를 암호화하는 데 사용되는 AWS KMS 암호화 키는 비활성화됩니다. 정상 작동으로 복원하려면 다시 활성화해야 합니다. 자세한 내용은 Amazon OpenSearch 서비스를 위한 유휴 데이터 암호화 섹션을 참조하세요.
KMSKeyInaccessible은 1분, 연속 횟수 1번 동안 >= 1임 도메인에 저장된 데이터를 암호화하는 데 사용되는 AWS KMS 암호화 키가 삭제되었거나 OpenSearch 서비스에 대한 권한 부여를 취소했습니다. 이 상태의 도메인은 복원할 수 없습니다. 하지만 수동 스냅샷이 있는 경우 새 도메인으로 마이그레이션하는 데 해당 스냅샷을 사용할 수 있습니다. 자세한 내용은 Amazon OpenSearch 서비스를 위한 유휴 데이터 암호화 섹션을 참조하세요.
shards.active는 1분, 연속 횟수 1번 동안 >= 30,000임

활성된 기본 및 복제본 샤드의 총 개수가 30,000개 이상입니다. 인덱스를 너무 자주 회전하고 있는 것일 수 있습니다. ISM 를 사용하여 인덱스가 특정 연령에 도달하면 인덱스를 제거하는 것이 좋습니다.

5xx 경보 >= OpenSearchRequests의 10% 1개 이상의 데이터 노드가 오버로드됐거나 요청이 유휴 제한 시간 내에 완료하는 데 실패했습니다. 더 큰 인스턴스 유형으로 전환하거나 클러스터에 노드를 추가하는 것이 좋습니다. 샤드 및 클러스터 아키텍쳐 모범 사례를 준수하고 있는지 확인하세요.
MasterReachableFromNode 최대값은 5분 동안 < 1, 연속 1회

이 경보는 프라이머리 노드가 중지됐거나 도달할 수 없음을 나타냅니다. 이러한 장애는 일반적으로 네트워크 연결 문제 또는 AWS 종속성 문제로 인한 것입니다.

ThreadpoolWriteQueue 평균은 1분, 연속 횟수 1번 동안 >= 100임 클러스터의 인덱싱 동시성이 높습니다. 인덱싱 요청을 검토 및 제어하거나 클러스터 리소스를 늘리세요.
ThreadpoolSearchQueue 평균은 1분, 연속 횟수 1번 동안 >= 500임 클러스터의 검색 동시성이 높습니다. 클러스터 크기 조정을 고려하세요. 검색 대기열 크기를 늘릴 수도 있지만 지나치게 늘리면 메모리 부족 오류가 발생할 수 있습니다.
ThreadpoolSearchQueue 최댓값은 1분, 연속 횟수 1번 동안 >= 5,000임
의 증가는 1분 연속 1회 동안 >=1{ 수학 표현식DIFF( )}ThreadpoolSearchRejectedSUM입니다. 이러한 경보는 성능 및 안정성에 영향을 줄 수 있는 도메인 문제를 알려줍니다.
의 증가는 1분 연속 1회 동안 >=1{ 수학 표현식DIFF( )}ThreadpoolWriteRejectedSUM입니다.
참고

지표만 확인하려면 Amazon을 통한 OpenSearch 클러스터 지표 모니터링 CloudWatch 섹션을 참조하세요.

고려할 만한 기타 경보

정기적으로 사용하는 OpenSearch 서비스 기능에 따라 다음 경보를 구성하는 것이 좋습니다.

경보 문제
WarmFreeStorageSpace 는 >= 10%입니다. 전체 프리 웜 스토리지의 10%에 도달했습니다. 는 MiB의 프리 웜 스토리지 공간의 합계를 WarmFreeStorageSpace 측정합니다. 는 연결된 디스크가 아닌 Amazon S3를 UltraWarm 사용합니다. MiB
HotToWarmMigrationQueueSize는 1분, 연속 횟수 3번 동안 >= 20임

많은 수의 인덱스가 핫에서 UltraWarm 스토리지로 동시에 이동하고 있습니다. 클러스터 크기 조정을 고려하세요.

HotToWarmMigrationSuccessLatency는 >= 1일, 연속 횟수 1번임

일일 인덱스를 회전하려고 할 때 HotToWarmMigrationSuccessCount x 대기 시간이 24시간 이상인 경우 알림을 받을 수 있도록 이 경보를 구성하세요.

WarmJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임 사용량이 늘어나면 클러스터에서 메모리 부족 오류가 발생할 수 있습니다. 수직으로 확장하는 것이 좋습니다. OpenSearch 서비스는 Java 힙RAM에 인스턴스의 절반을 사용하고 힙 크기는 최대 32GiB 입니다. 인스턴스를 추가하여 수평으로 확장할 수 RAM있는 의 최대 64GiB까지 인스턴스를 수직으로 확장할 수 있습니다.
WarmOldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임
WarmToColdMigrationQueueSize는 1분, 연속 횟수 3번 동안 >= 20임

많은 수의 인덱스가 동시에 에서 콜드 스토리지 UltraWarm 로 이동하고 있습니다. 클러스터 크기 조정을 고려하세요.

HotToWarmMigrationFailureCount은 1분, 연속 횟수 1번 동안 >= 1임

스냅샷, 샤드 재배치 또는 강제 합병 중 마이그레이션이 실패할 수도 있습니다. 스냅샷 또는 샤드 재배치 중 실패는 일반적으로 노드 오류 또는 S3 연결 문제로 인해 발생합니다. 일반적으로 디스크 공간 부족이 강제 병합 실패의 근본 원인입니다.

WarmToColdMigrationFailureCount은 1분, 연속 횟수 1번 동안 >= 1임 마이그레이션 실패는 인덱스 메타데이터를 콜드 스토리지로 마이그레이션하려는 시도가 실패할 때 주로 발생합니다. 웜 인덱스 클러스터 상태가 삭제될 때도 실패가 발생할 수 있습니다.
WarmToColdMigrationLatency는 >= 1일, 연속 횟수 1번임

일일 인덱스를 회전하려고 할 때 WarmToColdMigrationSuccessCount x 대기 시간이 24시간 이상인 경우 알림을 받을 수 있도록 이 경보를 구성하세요.

AlertingDegraded은 1분, 연속 횟수 1번 동안 >= 1임

알림 인덱스가 빨간색이거나 1개 이상의 노드가 스케줄을 따르지 않습니다.

ADPluginUnhealthy은 1분, 연속 횟수 1번 동안 >= 1임

실패율이 높거나 사용되는 인덱스 중 1개 이상이 빨간색이기 때문에 이상 탐지 플러그인이 제대로 작동하지 않습니다.

AsynchronousSearchFailureRate은 1분, 연속 횟수 1번 동안 >= 1임

마지막 순간에 1개 이상의 비동기 검색이 실패했으며. 이는 코디네이터 노드가 실패했을 가능성이 높음을 의미합니다. 비동기 검색 요청의 수명 주기는 코디네이터 노드에서만 관리되므로 코디네이터에 오류가 생기면 요청이 실패합니다.

AsynchronousSearchStoreHealth은 1분, 연속 횟수 1번 동안 >= 1임

지속된 인덱스의 비동기 검색 응답 저장소 상태가 빨간색입니다. 클러스터를 불안정하게 만들 수 있는 큰 비동기 응답을 저장하고 있을 수도 있습니다. 비동기 검색 응답을 10MB 이하로 제한하세요.

SQLUnhealthy는 1분, 연속 횟수 3번 동안 >= 1임

SQL 플러그인이 5xx 응답 코드를 반환하거나 잘못된 쿼리를 DSL에 전달합니다 OpenSearch. 클라이언트가 플러그인에 하는 요청을 해결하세요.

LTRStatus.red은 1분, 연속 횟수 1번 동안 >= 1임

Learning to Rank 플러그인을 실행하는 데 필요한 인덱스 중 1개 이상이 기본 샤드가 없으며 작동하지 않습니다.