아마존 OpenSearch 서비스를 위한 권장 CloudWatch 알람 - 아마존 OpenSearch 서비스

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

아마존 OpenSearch 서비스를 위한 권장 CloudWatch 알람

CloudWatch 경보는 CloudWatch 지표가 일정 시간 동안 지정된 값을 초과할 경우 작업을 수행합니다. 예를 들어 클러스터 상태가 1분 이상인 경우 이메일을 보내는 AWS 것이 red 좋습니다. 이 섹션에는 Amazon OpenSearch Service에 권장되는 몇 가지 경보와 이에 대응하는 방법이 수록되어 있습니다.

를 사용하여 이러한 경보를 자동으로 배포할 수 있습니다. AWS CloudFormation샘플 스택은 관련 GitHub리포지토리를 참조하십시오.

참고

CloudFormation 스택을 배포하면 도메인에서 암호화 KMSKeyInaccessible 키에 문제가 발생한 경우에만 이러한 지표가 나타나기 때문에 KMSKeyError 및 경보는 일정한 Insufficient Data 상태로 존재합니다.

경보 구성에 대한 자세한 내용은 Amazon CloudWatch 사용 설명서의 Amazon CloudWatch 경보 생성을 참조하십시오.

경보 문제
ClusterStatus.red 최댓값은 1분, 연속 횟수 1번 동안 >= 1임 하나 이상의 기본 샤드와 복제본이 노드에 할당되지 않았습니다. 빨간색 클러스터 상태 섹션을 참조하세요.
ClusterStatus.yellow 최댓값은 1분, 연속 횟수 5번 동안 >= 1임 하나 이상의 복제 샤드가 노드에 할당되지 않았습니다. 노란색 클러스터 상태 섹션을 참조하세요.
FreeStorageSpace 최소값은 1분, 연속 횟수 1번 동안 <= 20480임 클러스터 속 노드의 여유 스토리지 공간이 20GiB까지 떨어졌습니다. 사용 가능한 스토리지 공간 부족 섹션을 참조하세요. 이 값은 MiB 단위이므로 20480이 아닌 각 노드에 대한 총 스토리지 공간의 25%로 설정하는 것이 좋습니다.
ClusterIndexWritesBlocked은 5분, 연속 1회 동안 >= 1임 클러스터가 쓰기 요청을 차단하고 있습니다. ClusterBlockException 섹션을 참조하세요.
Nodes 최소값은 1일, 연속 횟수 1번 동안 < x x는 클러스터의 노드 수입니다. 이 경보는 클러스터에서 하나 이상의 노드가 하루 동안 연결되지 않았음을 나타냅니다. 실패한 클러스터 노드 섹션을 참조하세요.
AutomatedSnapshotFailure 최댓값은 1분, 연속 횟수 1번 동안 >= 1임 자동 스냅샷에 오류가 발생했습니다. 이런 오류는 red 클러스터 상태로 인해 자주 발생했습니다. 빨간색 클러스터 상태 섹션을 참조하세요.

모든 자동 스냅샷과 오류에 대한 일부 정보 요약을 위해 다음 요청 중 하나를 시도합니다.

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
CPUUtilization 또는 WarmCPUUtilization 최댓값은 15분, 연속 횟수 3번 동안 >= 80%임 때때로 100% CPU 사용률이 발생할 수 있지만 사용률이 높게 지속되는 것은 문제가 됩니다. 더 큰 인스턴스 유형을 사용하거나 인스턴스 추가를 고려하세요.
JVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임 사용량이 늘어나면 클러스터에서 메모리 부족 오류가 발생할 수 있습니다. 수직적 확장을 고려해 보십시오. OpenSearch 서비스는 인스턴스 RAM의 절반을 Java 힙에 사용하며, 힙 크기는 최대 32GiB입니다. 인스턴스를 최대 64GiB의 RAM까지 수직 확장할 수 있으며 인스턴스를 추가하면 수평 확장도 가능합니다.
OldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임
MasterCPUUtilization 최댓값은 15분, 연속 횟수 3번 동안 >= 50%임 전용 프라이머리 노드에 더 큰 인스턴스 유형의 사용을 고려하세요. 클러스터 안정성 및 블루/그린(Blue/Green) 배포의 역할로 인해 전용 프라이머리 노드는 데이터 노드보다 CPU 사용량이 적어야 합니다.
MasterJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임
MasterOldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임
KMSKeyError은 1분, 연속 횟수 1번 동안 >= 1임 도메인에 저장된 데이터를 암호화하는 데 사용되는 AWS KMS 암호화 키는 비활성화되었습니다. 정상 작동으로 복원하려면 다시 활성화해야 합니다. 자세한 내용은 Amazon OpenSearch 서비스를 위한 유휴 데이터 암호화 섹션을 참조하세요.
KMSKeyInaccessible은 1분, 연속 횟수 1번 동안 >= 1임 도메인에 저장된 데이터를 암호화하는 데 사용되는 AWS KMS 암호화 키가 삭제되었거나 서비스에 대한 부여가 취소되었습니다. OpenSearch 이 상태의 도메인은 복원할 수 없습니다. 하지만 수동 스냅샷이 있는 경우 새 도메인으로 마이그레이션하는 데 해당 스냅샷을 사용할 수 있습니다. 자세한 내용은 Amazon OpenSearch 서비스를 위한 유휴 데이터 암호화 섹션을 참조하세요.
shards.active는 1분, 연속 횟수 1번 동안 >= 30,000임

활성된 기본 및 복제본 샤드의 총 개수가 30,000개 이상입니다. 인덱스를 너무 자주 회전하고 있는 것일 수 있습니다. 특정 수명에 도달하면 ISM을 사용하여 인덱스를 제거하는 것이 좋습니다.

5xx 경보 >= OpenSearchRequests의 10% 1개 이상의 데이터 노드가 오버로드됐거나 요청이 유휴 제한 시간 내에 완료하는 데 실패했습니다. 더 큰 인스턴스 유형으로 전환하거나 클러스터에 노드를 추가하는 것이 좋습니다. 샤드 및 클러스터 아키텍쳐 모범 사례를 준수하고 있는지 확인하세요.
MasterReachableFromNode연속 1회, 5분 동안 최대값은 1개 미만입니다.

이 경보는 프라이머리 노드가 중지됐거나 도달할 수 없음을 나타냅니다. 이러한 장애는 일반적으로 네트워크 연결 문제 또는 AWS 종속성 문제로 인해 발생합니다.

ThreadpoolWriteQueue 평균은 1분, 연속 횟수 1번 동안 >= 100임 클러스터의 인덱싱 동시성이 높습니다. 인덱싱 요청을 검토 및 제어하거나 클러스터 리소스를 늘리세요.
ThreadpoolSearchQueue 평균은 1분, 연속 횟수 1번 동안 >= 500임 클러스터의 검색 동시성이 높습니다. 클러스터 크기 조정을 고려하세요. 검색 대기열 크기를 늘릴 수도 있지만 지나치게 늘리면 메모리 부족 오류가 발생할 수 있습니다.
ThreadpoolSearchQueue 최댓값은 1분, 연속 횟수 1번 동안 >= 5,000임
ThreadpoolSearchRejected 합계의 증량은 1분, 연속 횟수 1번 동안 >=1{ 수학식 DIFF ( )}임 이러한 경보는 성능 및 안정성에 영향을 줄 수 있는 도메인 문제를 알려줍니다.
ThreadpoolWriteRejected 합계의 증량은 1분, 연속 횟수 1번 동안 >=1{ 수학식 DIFF ( )}임
참고

지표만 확인하려면 Amazon CloudWatch로 OpenSearch 클러스터 지표 모니터링 섹션을 참조하세요.

고려할 만한 기타 경보

정기적으로 사용하는 OpenSearch 서비스 기능에 따라 다음 경보를 구성하는 것을 고려해 보십시오.

경보 문제
WarmFreeStorageSpace 최솟값은 1분, 연속 횟수 1번 동안 <= 10,240임 클러스터의 UltraWarm 노드 하나당 최소 10GiB의 여유 스토리지 공간이 있습니다. 사용 가능한 스토리지 공간 부족 섹션을 참조하십시오. 이 값은 MiB 단위이므로 10240이 아닌 각 노드에 대한 스토리지 공간의 10% 로 설정하는 것이 좋습니다. UltraWarm
HotToWarmMigrationQueueSize는 1분, 연속 횟수 3번 동안 >= 20임

많은 수의 인덱스가 핫 인덱스에서 스토리지로 동시에 이동하고 있습니다. UltraWarm 클러스터 크기 조정을 고려하세요.

HotToWarmMigrationSuccessLatency는 >= 1일, 연속 횟수 1번임

일일 인덱스를 회전하려고 할 때 HotToWarmMigrationSuccessCount x 대기 시간이 24시간 이상인 경우 알림을 받을 수 있도록 이 경보를 구성하세요.

WarmJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임 사용량이 늘어나면 클러스터에서 메모리 부족 오류가 발생할 수 있습니다. 수직적 확장을 고려해 보세요. OpenSearch 서비스는 인스턴스 RAM의 절반을 Java 힙에 사용하며, 힙 크기는 최대 32GiB입니다. 인스턴스를 최대 64GiB의 RAM까지 수직 확장할 수 있으며 인스턴스를 추가하면 수평 확장도 가능합니다.
WarmOldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임
WarmToColdMigrationQueueSize는 1분, 연속 횟수 3번 동안 >= 20임

많은 수의 인덱스가 동시에 콜드 스토리지에서 콜드 스토리지로 이동하고 있습니다. UltraWarm 클러스터 크기 조정을 고려하세요.

HotToWarmMigrationFailureCount은 1분, 연속 횟수 1번 동안 >= 1임

스냅샷, 샤드 재배치 또는 강제 합병 중 마이그레이션이 실패할 수도 있습니다. 스냅샷 또는 샤드 재배치 중 실패는 일반적으로 노드 오류 또는 S3 연결 문제로 인해 발생합니다. 일반적으로 디스크 공간 부족이 강제 병합 실패의 근본 원인입니다.

WarmToColdMigrationFailureCount은 1분, 연속 횟수 1번 동안 >= 1임 마이그레이션 실패는 인덱스 메타데이터를 콜드 스토리지로 마이그레이션하려는 시도가 실패할 때 주로 발생합니다. 웜 인덱스 클러스터 상태가 삭제될 때도 실패가 발생할 수 있습니다.
WarmToColdMigrationLatency는 >= 1일, 연속 횟수 1번임

일일 인덱스를 회전하려고 할 때 WarmToColdMigrationSuccessCount x 대기 시간이 24시간 이상인 경우 알림을 받을 수 있도록 이 경보를 구성하세요.

AlertingDegraded은 1분, 연속 횟수 1번 동안 >= 1임

알림 인덱스가 빨간색이거나 1개 이상의 노드가 스케줄을 따르지 않습니다.

ADPluginUnhealthy은 1분, 연속 횟수 1번 동안 >= 1임

실패율이 높거나 사용되는 인덱스 중 1개 이상이 빨간색이기 때문에 이상 탐지 플러그인이 제대로 작동하지 않습니다.

AsynchronousSearchFailureRate은 1분, 연속 횟수 1번 동안 >= 1임

마지막 순간에 1개 이상의 비동기 검색이 실패했으며. 이는 코디네이터 노드가 실패했을 가능성이 높음을 의미합니다. 비동기 검색 요청의 수명 주기는 코디네이터 노드에서만 관리되므로 코디네이터에 오류가 생기면 요청이 실패합니다.

AsynchronousSearchStoreHealth은 1분, 연속 횟수 1번 동안 >= 1임

지속된 인덱스의 비동기 검색 응답 저장소 상태가 빨간색입니다. 클러스터를 불안정하게 만들 수 있는 큰 비동기 응답을 저장하고 있을 수도 있습니다. 비동기 검색 응답을 10MB 이하로 제한하세요.

SQLUnhealthy는 1분, 연속 횟수 3번 동안 >= 1임

SQL 플러그인이 5개의 xx 응답 코드를 반환하거나 잘못된 쿼리 DSL을 에 전달하고 있습니다. OpenSearch 클라이언트가 플러그인에 하는 요청을 해결하세요.

LTRStatus.red은 1분, 연속 횟수 1번 동안 >= 1임

Learning to Rank 플러그인을 실행하는 데 필요한 인덱스 중 1개 이상이 기본 샤드가 없으며 작동하지 않습니다.