Amazon OpenSearch Service 的建議 CloudWatch 警示 - Amazon OpenSearch Service

Amazon OpenSearch Service 的建議 CloudWatch 警示

當 CloudWatch 指標在經過一些時間超過指定的值時,CloudWatch 警示會執行動作。例如,您可能會想要 AWS 在您的叢集運作狀態是 red 超過一分鐘時寄送電子郵件給您。本節包含 Amazon OpenSearch Service 的一些建議警示以及回應方式。

您可以使用 AWS CloudFormation 自動部署這些警示。如需範例堆疊,請參閱這個 GitHub 儲存庫

如需有關設定警示的詳細資訊,請參閱 《Amazon CloudWatch 使用者指南》中的建立 Amazon CloudWatch 警示

警示 問題
ClusterStatus.red 上限為 >= 1 達 1 分鐘,連續 1 次 至少一個主要碎片及其複本不會分配到節點。請參閱紅色叢集狀態
ClusterStatus.yellow 上限為 >= 1 達 1 分鐘,連續 1 次 至少一個複本碎片不會分配到節點。請參閱黃色叢集狀態
FreeStorageSpace 下限為 <= 20480 達 1 分鐘,連續 1 次 您叢集內的節點縮減至 20 GiB 的可用儲存空間。請參閱缺少可用儲存空間。此值的單位為 MiB,所以建議您將其設為每個節點的 25% 儲存空間,而不是 20480。
ClusterIndexWritesBlocked 為 >= 1 達 5 分鐘,連續 1 次 您的叢集正在封鎖寫入請求。請參閱ClusterBlockException
Nodes下限為 < x 達 1 天,連續 1 次 x 是您叢集中的節點數。此警示表示您叢集中至少有一個節點已無法連線達 1 天時間。請參閱叢集節點失敗
AutomatedSnapshotFailure 上限為 >= 1 達 1 分鐘,連續 1 次 自動快照失敗。此故障通常是紅色叢集運作狀態的結果。請參閱紅色叢集狀態

如需所有自動快照的摘要和一些有關故障的資訊,請嘗試以下其中一個請求:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
CPUUtilizationWarmCPUUtilization 上限為 >= 80%,15 分鐘,連續 3 次 100% CPU 使用率不稀有,但持續高使用量會有問題。可考慮使用較大的執行個體類型或新增執行個體。
JVMMemoryPressure 上限為 >= 80% 達 5 分鐘,連續 3 次 如果使用量增加,叢集可能遇到記憶體不足錯誤。可考慮垂直擴展。OpenSearch Service 針對 Java 堆積使用執行個體 RAM 的一半,堆積大小最多可達 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM,屆時便能透過新增執行個體進行水平擴展。
MasterCPUUtilization 上限為 >= 50% 達 15 分鐘,連續 3 次 可考慮使用較大的執行個體類型為您的專用主節點。因為其在叢集穩定性中的角色和藍/綠部署,專用主節點應該具有比資料節點較低的 CPU 使用量。
MasterJVMMemoryPressure 上限為 >= 80% 達 15 分鐘,連續 1 次
KMSKeyError 為 >= 1 達 1 分鐘,連續 1 次 用於在您的網域中加密靜態資料的 KMS 加密金鑰停用。重新啟用它來恢復正常操作。如需詳細資訊,請參閱 Amazon OpenSearch Service 的靜態資料加密
KMSKeyInaccessible 為 >= 1 達 1 分鐘,連續 1 次 用於在您的網域中加密靜態資料的 KMS 加密金鑰已刪除或撤回其對 OpenSearch Service 的授權。您無法復原在此狀態的網域,但如果您有手動快照,您可以用它來遷移到新網域。如需進一步了解,請參閱 Amazon OpenSearch Service 的靜態資料加密
shards.active 為 >= 30000 達 1 分鐘,連續 1 次

作用中主要碎片和複本碎片的總數大於 30,000。您可能太頻繁地輪換索引。考慮使用 ISM 在索引達到特定使用期限後將其移除。

5xx 警示 >= OpenSearchRequests 的 10% 一或多個資料節點可能會過載,或是請求無法在閒置逾時期間內完成。請考慮切換到較大型執行個體類型或在叢集中新增更多節點。確認您遵循碎片和叢集架構的最佳實務
MasterReachableFromNode 為 < 1 達 1 天,連續 1 次

此警示表示主節點已停止或無法存取。這些故障通常是網路連線問題或 AWS 相依性問題造成的結果。

ThreadpoolWriteQueue 平均為 >= 100 達 1 分鐘,連續 1 次 叢集正在經歷高索引並行狀況。檢閱和控制索引請求,或增加叢集資源。
ThreadpoolSearchQueue 平均為 >= 500 達 1 分鐘,連續 1 次 叢集正在經歷高搜尋並行狀況。考慮擴展您的叢集。您也可以增加搜尋佇列大小,但過度增加可能會導致記憶體不足錯誤。

ThreadpoolSearchQueue 上限為 >= 5000 達 1 分鐘,連續 1 次

注意

如果你只是想檢視指標,請參閱使用 Amazon CloudWatch 監控 OpenSearch 叢集指標

您可能會考慮的其他警示

根據您經常使用的 OpenSearch Service 功能,請考慮設定下列警示。

警示 問題
WarmFreeStorageSpace 下限為 <= 10240 達 1 分鐘,連續 1 次 您叢集內的 UltraWArm 節點縮減至 10 GiB 的可用儲存空間。請參閱缺少可用儲存空間。此值的單位為 MiB,所以建議您將其設為每個 UltraWarm 節點的 10% 儲存空間,而不是 10240。
HotToWarmMigrationQueueSize 為 >= 20 達 1 分鐘,連續 3 次

大量的索引正在同時從熱儲存移至 UltraWarm 儲存。考慮擴展您的叢集。

HotToWarmMigrationSuccessLatency 為 >= 1 天,連續 1 次

設定此警示,以便在您嘗試滾動每日索引,HotToWarmMigrationSuccessCount x 延遲大於 24 小時時收到通知。

WarmJVMMemoryPressure 上限為 >= 80% 達 5 分鐘,連續 3 次 如果使用量增加,叢集可能遇到記憶體不足錯誤。可考慮垂直擴展。OpenSearch Service 針對 Java 堆積使用執行個體 RAM 的一半,堆積大小最多可達 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM,屆時便能透過新增執行個體進行水平擴展。
WarmToColdMigrationQueueSize 為 >= 20 達 1 分鐘,連續 3 次

大量的索引正在同時從 UltraWarm 移至冷儲存。考慮擴展您的叢集。

HotToWarmMigrationFailureCount 為 >= 1 達 1 分鐘,連續 1 次

遷移可能在快照、碎片重新配置或強制合併期間失敗。快照或碎片重新配置期間的失敗通常是因為節點故障或 S3 連線問題。磁碟空間不足通常是強制合併失敗的根本原因。

WarmToColdMigrationFailureCount 為 >= 1 達 1 分鐘,連續 1 次 嘗試將索引中繼資料遷移至冷儲存裝置失敗時,遷移通常會失敗。移除熱索引叢集狀態時也可能發生故障。
WarmToColdMigrationLatency 為 >= 1 天,連續 1 次

設定此警示,以便在您嘗試滾動每日索引,WarmToColdMigrationSuccessCount x 延遲大於 24 小時時收到通知。

AlertingDegraded 為 >= 1 達 1 分鐘,連續 1 次

提醒索引為紅色,或是有一或多個節點不在排程上。

ADPluginUnhealthy 為 >= 1 達 1 分鐘,連續 1 次

異常偵測外掛程式無法正常運作,原因是高故障率或使用的其中一個索引是紅色。

AsynchronousSearchFailureRate 為 >= 1 達 1 分鐘,連續 1 次

最後一分鐘內至少有一個非同步搜尋失敗,這可能表示協調器節點失敗。非同步搜尋請求的生命週期僅在協調器節點上受管,因此如果協調器停機,請求即會失敗。

AsynchronousSearchStoreHealth 為 >= 1 達 1 分鐘,連續 1 次

持續性索引中非同步搜尋回應存放區的運作狀態為紅色。您可能正在儲存大型非同步回應,這可能會破壞叢集的穩定性。請嘗試將您的非同步搜尋回應限制在 10 MB 以下。

SQLUnhealthy 為 >= 1 達 1 分鐘,連續 3 次

SQL 外掛程式正在傳回 5xx 回應碼或將無效的查詢 DSL 傳遞至 OpenSearch。針對用戶端向外掛程式提出的請求進行故障診斷。

LTRStatus.red 為 >= 1 達 1 分鐘,連續 1 次

至少有一個執行 Learning to Rank 外掛程式所需的索引缺少主要碎片,並且無法運作。