Amazon OpenSearch Service 的建議 CloudWatch 警示

當 CloudWatch 指標在經過一些時間超過指定的值時，CloudWatch 警示會執行動作。例如，如果您 AWS 的叢集運作狀態超過一分鐘red，建議您傳送電子郵件給您。本節包含 Amazon OpenSearch Service 的一些建議警示以及回應方式。

您可以使用自動部署這些警示 AWS CloudFormation。如需範例堆疊，請參閱相關的 GitHub 儲存庫。

注意

如果您部署 CloudFormation 堆疊，KMSKeyError 和 KMSKeyInaccessible 警示將存在於 Insufficient Data 狀態，因為只有在網域遇到其加密金鑰問題時才會顯示這些指標。

如需有關設定警示的詳細資訊，請參閱《Amazon CloudWatch 使用者指南》中的建立 Amazon CloudWatch 警示。

警示	問題
`ClusterStatus.red` 上限為 >= 1 達 1 分鐘，連續 1 次	至少一個主要碎片及其複本不會分配到節點。請參閱紅色叢集狀態。
`ClusterStatus.yellow` 上限為 >= 1 持續 1 分鐘，連續 5 次	至少一個複本碎片不會分配到節點。請參閱黃色叢集狀態。
`FreeStorageSpace` 下限為 <= 20480 達 1 分鐘，連續 1 次	您叢集內的節點縮減至 20 GiB 的可用儲存空間。請參閱缺少可用儲存空間。此值的單位為 MiB，所以建議您將其設為每個節點的 25% 儲存空間，而不是 20480。
`ClusterIndexWritesBlocked` 為 >= 1 達 5 分鐘，連續 1 次	您的叢集正在封鎖寫入請求。請參閱 ClusterBlockException。
`Nodes`下限為 < x 達 1 天，連續 1 次	x 是您叢集中的節點數。此警示表示您叢集中至少有一個節點已無法連線達 1 天時間。請參閱叢集節點失敗。
`AutomatedSnapshotFailure` 上限為 >= 1 達 1 分鐘，連續 1 次	自動快照失敗。此故障通常是紅色叢集運作狀態的結果。請參閱紅色叢集狀態。如需所有自動快照的摘要和一些有關故障的資訊，請嘗試以下其中一個請求： `GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all`
`CPUUtilization` 或 `WarmCPUUtilization` 上限為 >= 80%，15 分鐘，連續 3 次	有時可能會出現 100% CPU 使用率，但持續高用量會有問題。可考慮使用較大的執行個體類型或新增執行個體。
`JVMMemoryPressure` 上限為 >= 95% 達 1 分鐘，連續 3 次	如果使用量增加，叢集可能遇到記憶體不足錯誤。可考慮垂直擴展。OpenSearch Service 針對 Java 堆積使用執行個體 RAM 的一半，堆積大小最多可達 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM，屆時便能透過新增執行個體進行水平擴展。
`OldGenJVMMemoryPressure` 上限為 >= 80% 達 1 分鐘，連續 3 次
`MasterCPUUtilization` 上限為 >= 50% 達 15 分鐘，連續 3 次	可考慮使用較大的執行個體類型為您的專用主節點。因為其在叢集穩定性中的角色和藍/綠部署，專用主節點應該具有比資料節點較低的 CPU 使用量。
`MasterJVMMemoryPressure` 上限為 >= 95% 達 1 分鐘，連續 3 次
`MasterOldGenJVMMemoryPressure` 上限為 >= 80% 達 1 分鐘，連續 3 次
`KMSKeyError` 為 >= 1 達 1 分鐘，連續 1 次	用於加密網域中靜態資料的 AWS KMS 加密金鑰已停用。重新啟用它來恢復正常操作。如需詳細資訊，請參閱Amazon OpenSearch Service 的靜態資料加密。
`KMSKeyInaccessible` 為 >= 1 達 1 分鐘，連續 1 次	用於加密網域中靜態資料的 AWS KMS 加密金鑰已刪除或已撤銷其對 OpenSearch Service 的授予。您無法復原此狀態的網域。但是，如果您有手動快照，您可以使用它來遷移至新網域。如需詳細資訊，請參閱 Amazon OpenSearch Service 的靜態資料加密。
`shards.active` 為 >= 30000 達 1 分鐘，連續 1 次	作用中主要碎片和複本碎片的總數大於 30,000。您可能太頻繁地輪換索引。考慮使用 ISM 在索引達到特定使用期限後將其移除。
`5xx` 警示 >= `OpenSearchRequests` 的 10%	一或多個資料節點可能會過載，或是請求無法在閒置逾時期間內完成。請考慮切換到較大型執行個體類型或在叢集中新增更多節點。確認您遵循碎片和叢集架構的最佳實務。
`MasterReachableFromNode` 最長 5 分鐘 < 1，連續 1 次	此警示表示主節點已停止或無法存取。這些失敗通常是網路連線問題或 AWS 相依性問題的結果。
`ThreadpoolWriteQueue` 平均為 >= 100 達 1 分鐘，連續 1 次	叢集正在經歷高索引並行狀況。檢閱和控制索引請求，或增加叢集資源。
`ThreadpoolSearchQueue` 平均為 >= 500 達 1 分鐘，連續 1 次	叢集正在經歷高搜尋並行狀況。考慮擴展您的叢集。您也可以增加搜尋佇列大小，但過度增加可能會導致記憶體不足錯誤。
`ThreadpoolSearchQueue` 上限為 >= 5000 達 1 分鐘，連續 1 次	叢集正在經歷高搜尋並行狀況。考慮擴展您的叢集。您也可以增加搜尋佇列大小，但過度增加可能會導致記憶體不足錯誤。
`ThreadpoolSearchRejected` SUM 增加 >=1{ 數學表達式 DIFF ( )}，持續 1 分鐘，連續 1 次	這些警示會通知您可能會影響效能和穩定性的網域問題。
`ThreadpoolWriteRejected` SUM 增加 >=1{ 數學表達式 DIFF ( )}，持續 1 分鐘，連續 1 次	這些警示會通知您可能會影響效能和穩定性的網域問題。

注意

如果您只是想檢視指標，請參閱使用 Amazon CloudWatch 監控 OpenSearch 叢集指標。

您可能會考慮的其他警示

根據您經常使用的 OpenSearch Service 功能，請考慮設定下列警示。

警示	問題
`WarmFreeStorageSpace` 為 >= 10%	您已達到可用暖儲存總量的 10%。會`WarmFreeStorageSpace`測量 MiB 中可用暖儲存空間的總和。UltraWarm 使用 Amazon S3 而非連接的磁碟。
`HotToWarmMigrationQueueSize` 為 >= 20 達 1 分鐘，連續 3 次	大量的索引正在同時從熱儲存移至 UltraWarm 儲存。考慮擴展您的叢集。
`HotToWarmMigrationSuccessLatency` 為 >= 1 天，連續 1 次	設定此警示，以便在您嘗試滾動每日索引，`HotToWarmMigrationSuccessCount` x 延遲大於 24 小時時收到通知。
`WarmJVMMemoryPressure` 上限為 >= 95% 達 1 分鐘，連續 3 次	如果使用量增加，叢集可能遇到記憶體不足錯誤。可考慮垂直擴展。OpenSearch Service 針對 Java 堆積使用執行個體 RAM 的一半，堆積大小最多可達 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM，屆時便能透過新增執行個體進行水平擴展。
`WarmOldGenJVMMemoryPressure` 上限為 >= 80% 達 1 分鐘，連續 3 次
`WarmToColdMigrationQueueSize` 為 >= 20 達 1 分鐘，連續 3 次	大量的索引正在同時從 UltraWarm 移至冷儲存。考慮擴展您的叢集。
`HotToWarmMigrationFailureCount` 為 >= 1 達 1 分鐘，連續 1 次	遷移可能在快照、碎片重新配置或強制合併期間失敗。快照或碎片重新配置期間的失敗通常是因為節點故障或 S3 連線問題。磁碟空間不足通常是強制合併失敗的根本原因。
`WarmToColdMigrationFailureCount` 為 >= 1 達 1 分鐘，連續 1 次	嘗試將索引中繼資料遷移至冷儲存裝置失敗時，遷移通常會失敗。移除熱索引叢集狀態時也可能發生故障。
`WarmToColdMigrationLatency` 為 >= 1 天，連續 1 次	設定此警示，以便在您嘗試滾動每日索引，`WarmToColdMigrationSuccessCount` x 延遲大於 24 小時時收到通知。
`AlertingDegraded` 為 >= 1 達 1 分鐘，連續 1 次	提醒索引為紅色，或是有一或多個節點不在排程上。
`ADPluginUnhealthy` 為 >= 1 達 1 分鐘，連續 1 次	異常偵測外掛程式無法正常運作，原因是高故障率或使用的其中一個索引是紅色。
`AsynchronousSearchFailureRate` 為 >= 1 達 1 分鐘，連續 1 次	最後一分鐘內至少有一個非同步搜尋失敗，這可能表示協調器節點失敗。非同步搜尋請求的生命週期僅在協調器節點上受管，因此如果協調器停機，請求即會失敗。
`AsynchronousSearchStoreHealth` 為 >= 1 達 1 分鐘，連續 1 次	持續性索引中非同步搜尋回應存放區的運作狀態為紅色。您可能正在儲存大型非同步回應，這可能會破壞叢集的穩定性。請嘗試將您的非同步搜尋回應限制在 10 MB 以下。
`SQLUnhealthy` 為 >= 1 達 1 分鐘，連續 3 次	SQL 外掛程式正在傳回 5xx 回應碼或將無效的查詢 DSL 傳遞至 OpenSearch。針對用戶端向外掛程式提出的請求進行疑難排解。
`LTRStatus.red` 為 >= 1 達 1 分鐘，連續 1 次	至少有一個執行 Learning to Rank 外掛程式所需的索引缺少主要碎片，並且無法運作。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

專用主節點

一般參考