기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon OpenSearch Service에 권장되는 CloudWatch 경보
CloudWatch 는 CloudWatch 지표가 일정 시간 동안 지정된 값을 초과할 때 작업을 수행합니다. 예를 들어 클러스터 상태 상태가 AWS 1분 이상 red
지속되면 이메일을 보낼 수 있습니다. 이 섹션에는 Amazon OpenSearch Service에 권장되는 몇 가지 경보와 이에 대응하는 방법이 포함되어 있습니다.
를 사용하여 이러한 경보를 자동으로 배포할 수 있습니다 AWS CloudFormation. 샘플 스택은 관련 GitHub리포지토리를
참고
CloudFormation 스택을 배포하면 도메인에 암호화 키에 문제가 발생하는 경우에만 이러한 지표가 나타나므로 KMSKeyError
및 KMSKeyInaccessible
경보가 Insufficient Data
상태에 있게 됩니다.
경보 구성에 대한 자세한 내용은 Amazon CloudWatch 사용 설명서의 Amazon 경보 생성을 참조하세요. CloudWatch
경보 | 문제 |
---|---|
ClusterStatus.red 최댓값은 1분, 연속 횟수 1번 동안 >= 1임 |
하나 이상의 기본 샤드와 복제본이 노드에 할당되지 않았습니다. 빨간색 클러스터 상태 섹션을 참조하세요. |
ClusterStatus.yellow 최댓값은 1분, 연속 횟수 5번 동안 >= 1임 |
하나 이상의 복제 샤드가 노드에 할당되지 않았습니다. 노란색 클러스터 상태 섹션을 참조하세요. |
FreeStorageSpace 최소값은 1분, 연속 횟수 1번 동안 <= 20480임 |
클러스터 속 노드의 여유 스토리지 공간이 20GiB까지 떨어졌습니다. 사용 가능한 스토리지 공간 부족 섹션을 참조하세요. 이 값은 MiB 단위이므로 20480이 아닌 각 노드에 대한 총 스토리지 공간의 25%로 설정하는 것이 좋습니다. |
ClusterIndexWritesBlocked 은 5분, 연속 1회 동안 >= 1임 |
클러스터가 쓰기 요청을 차단하고 있습니다. ClusterBlockException 섹션을 참조하세요. |
Nodes 최소값은 1일, 연속 횟수 1번 동안 < x임 |
x는 클러스터의 노드 수입니다. 이 경보는 클러스터에서 하나 이상의 노드가 하루 동안 연결되지 않았음을 나타냅니다. 실패한 클러스터 노드 섹션을 참조하세요. |
AutomatedSnapshotFailure 최댓값은 1분, 연속 횟수 1번 동안 >= 1임 |
자동 스냅샷에 오류가 발생했습니다. 이런 오류는 red 클러스터 상태로 인해 자주 발생했습니다. 빨간색 클러스터 상태 섹션을 참조하세요. 모든 자동 스냅샷과 오류에 대한 일부 정보 요약을 위해 다음 요청 중 하나를 시도합니다.
|
CPUUtilization 또는 WarmCPUUtilization 최댓값은 15분, 연속 횟수 3번 동안 >= 80%임 |
100% CPU 사용률이 가끔 발생할 수 있지만 높은 사용량을 유지하는 것은 문제가 됩니다. 더 큰 인스턴스 유형을 사용하거나 인스턴스 추가를 고려하세요. |
JVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임 |
사용량이 늘어나면 클러스터에서 메모리 부족 오류가 발생할 수 있습니다. 수직으로 확장하는 것이 좋습니다. OpenSearch 서비스는 Java 힙RAM에 인스턴스의 절반을 사용하고 힙 크기는 최대 32GiB 입니다. 인스턴스를 추가하여 수평으로 확장할 수 RAM있는 의 최대 64GiB까지 인스턴스를 수직으로 확장할 수 있습니다. |
OldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임 |
|
MasterCPUUtilization 최댓값은 15분, 연속 횟수 3번 동안 >= 50%임 |
전용 프라이머리 노드에 더 큰 인스턴스 유형의 사용을 고려하세요. 클러스터 안정성 및 블루/그린 배포에서 역할이 있기 때문에 전용 마스터 노드는 데이터 노드보다 CPU 사용량이 낮아야 합니다. |
MasterJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임 |
|
MasterOldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임 |
|
KMSKeyError 은 1분, 연속 횟수 1번 동안 >= 1임 |
도메인에 저장된 데이터를 암호화하는 데 사용되는 AWS KMS 암호화 키는 비활성화됩니다. 정상 작동으로 복원하려면 다시 활성화해야 합니다. 자세한 내용은 Amazon OpenSearch 서비스를 위한 유휴 데이터 암호화 섹션을 참조하세요. |
KMSKeyInaccessible 은 1분, 연속 횟수 1번 동안 >= 1임 |
도메인에 저장된 데이터를 암호화하는 데 사용되는 AWS KMS 암호화 키가 삭제되었거나 OpenSearch 서비스에 대한 권한 부여를 취소했습니다. 이 상태의 도메인은 복원할 수 없습니다. 하지만 수동 스냅샷이 있는 경우 새 도메인으로 마이그레이션하는 데 해당 스냅샷을 사용할 수 있습니다. 자세한 내용은 Amazon OpenSearch 서비스를 위한 유휴 데이터 암호화 섹션을 참조하세요. |
shards.active 는 1분, 연속 횟수 1번 동안 >= 30,000임 |
활성된 기본 및 복제본 샤드의 총 개수가 30,000개 이상입니다. 인덱스를 너무 자주 회전하고 있는 것일 수 있습니다. ISM 를 사용하여 인덱스가 특정 연령에 도달하면 인덱스를 제거하는 것이 좋습니다. |
5xx 경보 >= OpenSearchRequests 의 10% |
1개 이상의 데이터 노드가 오버로드됐거나 요청이 유휴 제한 시간 내에 완료하는 데 실패했습니다. 더 큰 인스턴스 유형으로 전환하거나 클러스터에 노드를 추가하는 것이 좋습니다. 샤드 및 클러스터 아키텍쳐 모범 사례를 준수하고 있는지 확인하세요. |
MasterReachableFromNode 최대값은 5분 동안 < 1, 연속 1회 |
이 경보는 프라이머리 노드가 중지됐거나 도달할 수 없음을 나타냅니다. 이러한 장애는 일반적으로 네트워크 연결 문제 또는 AWS 종속성 문제로 인한 것입니다. |
ThreadpoolWriteQueue 평균은 1분, 연속 횟수 1번 동안 >= 100임 |
클러스터의 인덱싱 동시성이 높습니다. 인덱싱 요청을 검토 및 제어하거나 클러스터 리소스를 늘리세요. |
ThreadpoolSearchQueue 평균은 1분, 연속 횟수 1번 동안 >= 500임 |
클러스터의 검색 동시성이 높습니다. 클러스터 크기 조정을 고려하세요. 검색 대기열 크기를 늘릴 수도 있지만 지나치게 늘리면 메모리 부족 오류가 발생할 수 있습니다. |
ThreadpoolSearchQueue 최댓값은 1분, 연속 횟수 1번 동안 >= 5,000임 |
|
의 증가는 1분 연속 1회 동안 >=1{ 수학 표현식DIFF( )}ThreadpoolSearchRejected SUM입니다. |
이러한 경보는 성능 및 안정성에 영향을 줄 수 있는 도메인 문제를 알려줍니다. |
의 증가는 1분 연속 1회 동안 >=1{ 수학 표현식DIFF( )}ThreadpoolWriteRejected SUM입니다. |
참고
지표만 확인하려면 Amazon을 통한 OpenSearch 클러스터 지표 모니터링 CloudWatch 섹션을 참조하세요.
고려할 만한 기타 경보
정기적으로 사용하는 OpenSearch 서비스 기능에 따라 다음 경보를 구성하는 것이 좋습니다.
경보 | 문제 |
---|---|
WarmFreeStorageSpace 는 >= 10%입니다. |
전체 프리 웜 스토리지의 10%에 도달했습니다. 는 MiB의 프리 웜 스토리지 공간의 합계를 WarmFreeStorageSpace 측정합니다. 는 연결된 디스크가 아닌 Amazon S3를 UltraWarm 사용합니다. MiB |
HotToWarmMigrationQueueSize 는 1분, 연속 횟수 3번 동안 >= 20임 |
많은 수의 인덱스가 핫에서 UltraWarm 스토리지로 동시에 이동하고 있습니다. 클러스터 크기 조정을 고려하세요. |
HotToWarmMigrationSuccessLatency 는 >= 1일, 연속 횟수 1번임 |
일일 인덱스를 회전하려고 할 때 |
WarmJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임 |
사용량이 늘어나면 클러스터에서 메모리 부족 오류가 발생할 수 있습니다. 수직으로 확장하는 것이 좋습니다. OpenSearch 서비스는 Java 힙RAM에 인스턴스의 절반을 사용하고 힙 크기는 최대 32GiB 입니다. 인스턴스를 추가하여 수평으로 확장할 수 RAM있는 의 최대 64GiB까지 인스턴스를 수직으로 확장할 수 있습니다. |
WarmOldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임 |
|
WarmToColdMigrationQueueSize 는 1분, 연속 횟수 3번 동안 >= 20임 |
많은 수의 인덱스가 동시에 에서 콜드 스토리지 UltraWarm 로 이동하고 있습니다. 클러스터 크기 조정을 고려하세요. |
HotToWarmMigrationFailureCount 은 1분, 연속 횟수 1번 동안 >= 1임 |
스냅샷, 샤드 재배치 또는 강제 합병 중 마이그레이션이 실패할 수도 있습니다. 스냅샷 또는 샤드 재배치 중 실패는 일반적으로 노드 오류 또는 S3 연결 문제로 인해 발생합니다. 일반적으로 디스크 공간 부족이 강제 병합 실패의 근본 원인입니다. |
WarmToColdMigrationFailureCount 은 1분, 연속 횟수 1번 동안 >= 1임 |
마이그레이션 실패는 인덱스 메타데이터를 콜드 스토리지로 마이그레이션하려는 시도가 실패할 때 주로 발생합니다. 웜 인덱스 클러스터 상태가 삭제될 때도 실패가 발생할 수 있습니다. |
WarmToColdMigrationLatency 는 >= 1일, 연속 횟수 1번임 |
일일 인덱스를 회전하려고 할 때 |
AlertingDegraded 은 1분, 연속 횟수 1번 동안 >= 1임 |
알림 인덱스가 빨간색이거나 1개 이상의 노드가 스케줄을 따르지 않습니다. |
ADPluginUnhealthy 은 1분, 연속 횟수 1번 동안 >= 1임 |
실패율이 높거나 사용되는 인덱스 중 1개 이상이 빨간색이기 때문에 이상 탐지 플러그인이 제대로 작동하지 않습니다. |
AsynchronousSearchFailureRate 은 1분, 연속 횟수 1번 동안 >= 1임 |
마지막 순간에 1개 이상의 비동기 검색이 실패했으며. 이는 코디네이터 노드가 실패했을 가능성이 높음을 의미합니다. 비동기 검색 요청의 수명 주기는 코디네이터 노드에서만 관리되므로 코디네이터에 오류가 생기면 요청이 실패합니다. |
AsynchronousSearchStoreHealth 은 1분, 연속 횟수 1번 동안 >= 1임 |
지속된 인덱스의 비동기 검색 응답 저장소 상태가 빨간색입니다. 클러스터를 불안정하게 만들 수 있는 큰 비동기 응답을 저장하고 있을 수도 있습니다. 비동기 검색 응답을 10MB 이하로 제한하세요. |
SQLUnhealthy 는 1분, 연속 횟수 3번 동안 >= 1임 |
SQL 플러그인이 5xx 응답 코드를 반환하거나 잘못된 쿼리를 DSL에 전달합니다 OpenSearch. 클라이언트가 플러그인에 하는 요청을 해결하세요. |
LTRStatus.red 은 1분, 연속 횟수 1번 동안 >= 1임 |
Learning to Rank 플러그인을 실행하는 데 필요한 인덱스 중 1개 이상이 기본 샤드가 없으며 작동하지 않습니다. |