使用 Amazon CloudWatch 監控 OpenSearch 叢集指標 - Amazon OpenSearch Service

使用 Amazon CloudWatch 監控 OpenSearch 叢集指標

Amazon OpenSearch Service 將資料從您的網域發佈到 Amazon CloudWatch。CloudWatch 可讓您擷取這些資料點的相關統計數字作為一組排序時間序列資料,也就是指標。OpenSearch Service 會以 60 秒的時間間隔將指標傳送至 CloudWatch。如果您使用一般用途或磁帶 EBS 磁碟區,EBS 磁碟區指標將僅每隔 5 分鐘更新一次。如需 Amazon CloudWatch 的詳細資訊,請參閱《Amazon CloudWatch 使用者指南》。

OpenSearch Service 主控台會根據 CloudWatch 的原始資料顯示一系列圖形。根據需求,您可能偏好在 CloudWatch 中檢視叢集資料,而非在主控台中檢視圖形。此服務會封存指標兩週,之後才會捨棄它們。這些指標為免費提供,無須額外付費,但 CloudWatch 仍會針對建立儀表板和警示收費。如需詳細資訊,請參閱 Amazon CloudWatch 定價

OpenSearch Service 會將以下指標發佈至 CloudWatch:

在 CloudWatch 中檢視指標

首先依服務命名空間對 CloudWatch 指標分組,然後再依各命名空間內不同的維度組合分組。

使用 CloudWatch 主控台檢視指標

  1. 透過 https://console.aws.amazon.com/cloudwatch/ 開啟 CloudWatch 主控台。

  2. 在導覽窗格中,選擇 All metrics (所有指標) 並選取 AWS/ES 命名空間。

  3. 選擇維度以檢視對應指標。個別節點的指標位於 ClientId, DomainName, NodeId 維度中。叢集指標位於 Per-Domain, Per-Client Metrics 維度中。某些節點指標會在叢集層級彙總,因此包含在這兩個維度中。碎片指標位於 ClientId, DomainName, NodeId, ShardRole 維度中。

若檢視指標清單的方法是使用 AWS CLI

執行以下命令:

aws cloudwatch list-metrics --namespace "AWS/ES"

解讀 OpenSearch Service 中的運作狀態圖表

若要檢視 OpenSearch Service 中的指標,請使用 Cluster health (叢集運作狀態) 和 Instance health (執行個體運作狀態) 索引標籤。Instance health (執行個體運作狀態) 索引標籤使用方塊圖,可快速查看每個 OpenSearch 節點的運作狀態:

  • 每個色彩方塊都能顯示該節點在整段指定時間的值範圍。

  • 藍色方塊表示其值與其他節點相符。紅色方塊表示其值出現異常。

  • 每個方塊中的白色線條則表示目前節點的值。

  • 每個方塊在任何一邊上的「whiskers」則表示所有節點在整段時間的最小值與最大值。

如果您對網域進行組態變更,則 Cluster health (叢集運作狀態)Instance health (執行個體運作狀態) 索引標籤上個別執行個體清單的大小通常會短暫出現加倍的情況,然後才恢復為正確的數字。如需此行為的說明,請參閱在 Amazon OpenSearch Service 中進行組態變更

叢集指標

Amazon OpenSearch Service 提供下列叢集指標。

指標 描述
ClusterStatus.green

1 的值表示將所有索引碎片分配至叢集中的節點。

相關統計資訊:Maximum

ClusterStatus.yellow 1 的值表示將所有索引的主要碎片分配給叢集中的節點,但用於至少一個索引的複寫碎片則不分配。如需詳細資訊,請參閱 黃色叢集狀態

相關統計資訊:Maximum

ClusterStatus.red

1 的值表示至少一個索引的主要碎片和複寫碎片未分配至叢集中的節點。如需詳細資訊,請參閱 紅色叢集狀態

相關統計資訊:Maximum

Shards.active

作用中主要碎片和複本碎片的總數。

相關統計數字:最大,總和

Shards.unassigned

未分配至叢集中節點的碎片數目。

相關統計數字:最大,總和

Shards.delayedUnassigned

其節點分配已被逾時設定延遲的碎片數量。

相關統計數字:最大,總和

Shards.activePrimary

活動中主要碎片的數量。

相關統計數字:最大,總和

Shards.initializing

正在初始化的碎片數量。

相關統計資訊:Sum

Shards.relocating

正在重新放置的碎片數量。

相關統計資訊:Sum

Nodes

OpenSearch Service 叢集中的節點數,包括專用主節點和 UltraWarm 節點。如需詳細資訊,請參閱 在 Amazon OpenSearch Service 中進行組態變更

相關統計資訊:Maximum

SearchableDocuments

叢集中跨所有資料節點的可搜尋文件的總數。

相關統計資訊:Minimum、Maximum、Average

DeletedDocuments

叢集中跨所有資料節點的標記進行刪除文件的總數。這些文件不再出現於搜尋結果中,但 OpenSearch 在區段合併時只會從磁碟移除已刪除的文件。此指標會在刪除請求後增加,在區段合併後降低。

相關統計資訊:Minimum、Maximum、Average

CPUUtilization

叢集中資料節點的 CPU 用量百分比。上限顯示具有最高 CPU 用量的節點。平均值代表叢集中的所有節點。此指標也適用於個別節點。

相關統計資訊:Maximum、Average

FreeStorageSpace

叢集中資料節點的可用空間。Sum 會顯示叢集的總可用空間,但您必須保留一分鐘的間隔,才能取得正確的值。MinimumMaximum 分別會顯示具有最少和最多可用空間的節點。此指標也適用於個別節點。當此指標達到 0 時,OpenSearch Service 會擲出 ClusterBlockException。若要恢復,您必須刪除索引、新增更大的執行個體,或為現有執行個體新增 EBS 式儲存。如需進一步了解,請參閱 缺少可用儲存空間

OpenSearch Service 主控台會以 GiB 為單位顯示此值。Amazon CloudWatch 主控台會以 MiB 為單位顯示它。

注意

FreeStorageSpace 將永遠低於 OpenSearch _cluster/stats_cat/allocation API 提供的值。OpenSearch Service 會在每個執行個體上保留一定百分比的儲存空間供內部操作使用。如需詳細資訊,請參閱計算儲存需求

相關統計資訊:Minimum、Maximum、Average、Sum

ClusterUsedSpace

已用於叢集的空間總數。您必須保留一分鐘的間隔,才能取得正確的數值。

OpenSearch Service 主控台會以 GiB 為單位顯示此值。Amazon CloudWatch 主控台會以 MiB 為單位顯示它。

相關統計資訊:Minimum、Maximum

ClusterIndexWritesBlocked

指示您的叢集是否要接受或封鎖外來的寫入請求。0 值表示叢集接受請求。1 值表示叢集封鎖請求。

常見的因素包括:FreeStorageSpace 過低或 JVMMemoryPressure 過高。若要減輕此問題,可考慮增加更多的磁碟空間或擴展您的叢集。

相關統計資訊:Maximum

JVMMemoryPressure

用於叢集中所有資料節點的 Java heap 的最大百分比。OpenSearch Service 針對 Java 堆積使用執行個體 RAM 的一半,堆積大小最多可達 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM,屆時便能透過新增執行個體進行水平擴展。請參閱Amazon OpenSearch Service 的建議 CloudWatch 警示

相關統計資訊:Maximum

注意

在最近的服務軟體更新中變更此指標的邏輯。如需詳細資訊,請參閱版本備註

AutomatedSnapshotFailure

叢集中失敗的自動快照數量。1 值表示此網域過去 36 小時未執行任何自動快照。

相關統計資訊:Minimum、Maximum

CPUCreditBalance

可供叢集中資料節點使用的剩餘 CPU 點數。一個 CPU 點數提供一分鐘、一個 CPU 核心的完整效能。如需詳細資訊,請參閱 Amazon EC2 開發人員指南中的 CPU 點數。此指標僅適用於 T2 執行個體類型。

相關統計資訊:Minimum

OpenSearchDashboardsHealthyNodes (先前的 KibanaHealthyNodes)

OpenSearch Dashboards 的運作狀態檢查。如果最小值、最大值和平均值都等於 1,則 Dashboards 的行為正常。如果您有 10 個節點,其中最大為 1,最小為 0,平均為 0.7,這表示 7 個節點 (70%) 狀況良好,3 個節點 (30%) 狀況不良。

相關統計資訊:Minimum、Maximum、Average

KibanaReportingFailedRequestSysErrCount

因伺服器問題或功能限制而失敗的產生 OpenSearch Dashboards 報告的請求數。

相關統計資訊:Sum

KibanaReportingFailedRequestUserErrCount

因用戶端問題而失敗的產生 OpenSearch Dashboards 報告的請求數。

相關統計資訊:Sum

KibanaReportingRequestCount

產生 OpenSearch Dashboards 報告的請求總數。

相關統計資訊:Sum

KibanaReportingSuccessCount

產生 OpenSearch Dashboards 報告的成功請求數。

相關統計資訊:Sum

KMSKeyError

1 值表示用於加密靜態資料的 AWS KMS 金鑰已停用。若要使網域恢復正常運作,請重新啟用此金鑰。主控台只會針對加密靜態資料的網域顯示此指標。

相關統計資訊:Minimum、Maximum

KMSKeyInaccessible

1 值表示用於加密靜態資料的 AWS KMS 金鑰已刪除或撤回其對 OpenSearch Service 的授權。您無法復原此狀態的網域。但是,如果您有手動快照,您可以用它來將網域的資料遷移至新的網域。主控台只會針對加密靜態資料的網域顯示此指標。

相關統計資訊:Minimum、Maximum

InvalidHostHeaderRequests

對 OpenSearch 叢集發出的 HTTP 請求數,請求中包括無效 (或遺漏) 主機標頭。有效的請求包括網域主機名稱作為主機標頭值。OpenSearch Service 會拒絕沒有限制性存取政策的公有存取網域的無效請求。我們建議將限制存取政策套用到所有網域。

如果您看見此指標有較大值,請確認 OpenSearch 用戶端在其請求中包含網域主機名稱 (而非其 IP 地址)。

相關統計資訊:Sum

OpenSearchRequests

對 OpenSearch 叢集發出的請求數。

相關統計資訊:Sum

2xx, 3xx, 4xx, 5xx

產生指定 HTTP 回應碼 (2xx、3xx、4xx、5xx) 的網域請求數。

相關統計資訊:Sum

專用主節點指標

Amazon OpenSearch Service 提供下列專用主節點指標。

指標 描述
MasterCPUUtilization

專用主節點使用的 CPU 資源的最大百分比。當這項指標達到 60% 時,建議提高執行個體類型的大小。

相關統計資訊:Maximum

MasterFreeStorageSpace

此指標無關,可忽略。此服務不使用主節點做為資料節點。

MasterJVMMemoryPressure

用於叢集中所有專用主節點的 Java heap 的最大百分比。當這項指標達到 85% 時,建議移至較大的執行個體類型。

相關統計資訊:Maximum

注意

在最近的服務軟體更新中變更此指標的邏輯。如需詳細資訊,請參閱版本備註

MasterCPUCreditBalance

可供叢集中專用主節點使用的剩餘 CPU 額度。一個 CPU 點數提供一分鐘、一個 CPU 核心的完整效能。如需詳細資訊,請參閱 Amazon EC2 開發人員指南中的 CPU 點數。此指標僅適用於 T2 執行個體類型。

相關統計資訊:Minimum

MasterReachableFromNode

MasterNotDiscovered 例外狀況的運作狀態檢查。1 值表示正常行為。0 值表示 /_cluster/health/ 失敗。

失敗意味著主節點已停止或無法存取。這通常是網路連線問題或 AWS 相依性問題造成的結果。

相關統計資訊:Minimum

MasterSysMemoryUtilization

已使用主節點記憶體的百分比。

相關統計資訊:Maximum

EBS 磁碟區指標

Amazon OpenSearch Service 提供下列 EBS 磁碟區指標。

指標 描述
ReadLatency

EBS 磁碟區讀取操作的延遲 (以秒為單位)。

相關統計資訊:Minimum、Maximum、Average

WriteLatency

EBS 磁碟區寫入操作的延遲 (以秒為單位)。

相關統計資訊:Minimum、Maximum、Average

ReadThroughput

EBS 磁碟區讀取操作的傳輸量 (以位元組/秒為單位)。

相關統計資訊:Minimum、Maximum、Average

WriteThroughput

EBS 磁碟區寫入操作的傳輸量 (以位元組/秒為單位)。

相關統計資訊:Minimum、Maximum、Average

DiskQueueDepth

等待中的 EBS 磁碟區輸入與輸出 (I/O) 請求數。

相關統計資訊:Minimum、Maximum、Average

ReadIOPS

EBS 磁碟區讀取操作的每秒輸入與輸出 (I/O) 操作數。

相關統計資訊:Minimum、Maximum、Average

WriteIOPS

EBS 磁碟區寫入操作的每秒輸入與輸出 (I/O) 操作數。

相關統計資訊:Minimum、Maximum、Average

執行個體指標

Amazon OpenSearch Service 提供網域中每個執行個體的下列指標。OpenSearch Service 也彙總這些執行個體指標,讓您深入了解整體叢集運作狀態。您可以在主控台使用 Sample Count (取樣計數) 統計數字來驗證此行為。請注意,下表中每個指標有節點叢集的相關統計資料。

重要

在處理 _index API 的呼叫時,不同版本的 Elasticsearch 會使用不同的執行緒集區。Elasticsearch 1.5 和 2.3 版會使用索引執行緒集區。Elasticsearch 5.x、6.0 和 6.2 版會使用大量執行緒集區。OpenSearch 和 Elasticsearch 6.3 及較新版本會使用寫入執行緒集區。目前,OpenSearch Service 主控台不包含大量執行緒集區的圖形。

使用 GET _cluster/settings?include_defaults=true 來檢查叢集的執行緒集區和佇列大小。

指標 描述
IndexingLatency

一個碎片完成一次索引編製操作所需的平均時間 (單位為毫秒)。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限

IndexingRate

​每分鐘進行的索引操作次數。對於 _bulk API 發出的單一呼叫,即新增兩份文件並更新兩份文件,此計為可能分散於一個或更多個節點進行的四次操作。如果該索引有一或多個複本,則在叢集中的其他節點也會記錄共計四次的索引編製操作。文件刪除不列入此指標。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限、總和

SearchLatency

資料節點上的一個碎片完成一次搜尋操作所需的平均時間 (單位為毫秒)。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限

SearchRate

資料節點上每分鐘對所有碎片發出搜尋請求的總次數。對於 _search API 發出的單一呼叫,可能會傳回來自多個不同碎片的結果。如果上述碎片當中有五個是在同一個節點上,則該節點會回報這個指標為 5,即使該用戶端僅發出一次請求。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限、總和

SegmentCount

資料節點上的區段數。您擁有的區段越多,每個搜尋所需的時間越長。OpenSearch 偶爾會將較小的區段合併成較大的區段。

相關節點統計數字:最大,平均

相關叢集統計資訊:總和、上限、平均數

SysMemoryUtilization

已使用執行個體記憶體的百分比。此測量結果的高值是正常的,通常不代表叢集的問題。如需有關潛在效能和穩定性問題的更佳指標,請參閱 JVMMemoryPressure 指標。

相關節點統計資訊:下限、上限、平均數

相關叢集統計資訊:下限、上限、平均數

JVMGCYoungCollectionCount

​「新一代」廢棄項目收集的已執行次數。大量、持續擴增的執行次數是叢集操作的正常情況。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

JVMGCYoungCollectionTime

叢集已執行​「新一代」廢棄項目收集的時間 (單位為毫秒)。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

JVMGCOldCollectionCount

​「舊一代」廢棄項目收集的已執行次數。在資源充足的叢集中,這個數字應該很小,而且不常擴增。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

JVMGCOldCollectionTime

叢集已花在執行​「舊一代」廢棄項目收集的時間 (單位為毫秒)。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

OpenSearchDashboardsConcurrentConnections (先前的 KibanaConcurrentConnections)

OpenSearch Dashboards 的作用中並行連線的數目。如果此數值持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

OpenSearchDashboardsHealthyNode (先前的 KibanaHealthyNode)

個別 OpenSearch Dashboards 節點的運作狀態檢查。1 值表示正常行為。0 值表示無法存取 Dashboards。

相關節點統計數字:最小

相關叢集統計資訊:下限、上限、平均數

OpenSearchDashboardsHeapTotal (先前的 KibanaHeapTotal)

分配給 OpenSearch Dashboards 的堆積記憶體容量 (單位為 MiB)。不同的 EC2 執行個體類型可能會影響精確的記憶體分配。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

OpenSearchDashboardsHeapUsed (先前的 KibanaHeapUsed)

OpenSearch Dashboards 使用的堆積記憶體的絕對容量 (單位為 MiB)。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

OpenSearchDashboardsHeapUtilization (先前的 KibanaHeapUtilization)

OpenSearch Dashboards 使用的可用堆積記憶體的最大百分比。如果此值超過 80%,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:下限、上限、平均數

OpenSearchDashboardsOS1MinuteLoad (先前的 KibanaOS1MinuteLoad)

OpenSearch Dashboards 的一分鐘平均 CPU 負載。CPU 負載理想情況下應該保持在 1.00 以下。雖然暫時峰值沒問題,但如果此指標一致高於 1.00,建議您增加執行個體類型的大小。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限

OpenSearchDashboardsRequestTotal (先前的 KibanaRequestTotal)

對 OpenSearch Dashboards 發出的 HTTP 請求總數。如果您的系統速度緩慢或您看到大量 Dashboards 請求,請考慮增加執行個體類型的大小。

相關節點統計數字:總和

相關叢集統計資訊:總和

OpenSearchDashboardsResponseTimesMaxInMillis (先前的 KibanaResponseTimesMaxInMillis)

OpenSearch Dashboards 回應請求所需的時間上限,單位為毫秒。如果請求持續需要很長的時間才能傳回結果,請考慮增加執行個體類型的大小。

相關節點統計資訊:上限

相關叢集統計數字:最大,平均

ThreadpoolForce_mergeQueue

強制合併執行緒集區中的已排入佇列任務數量。如果佇列大小持續高居不下,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

ThreadpoolForce_mergeRejected

強制合併執行緒集區中的已拒絕任務數量。如果這個數量持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和

ThreadpoolForce_mergeThreads

強制合併執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolIndexQueue

索引執行緒集區中的已排入佇列任務數量。如果佇列大小持續高居不下,請考慮擴展您的叢集。索引佇列的大小上限為 200。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

ThreadpoolIndexRejected

索引執行緒集區中的已拒絕任務數量。如果這個數量持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和

ThreadpoolIndexThreads

索引執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolSearchQueue

搜尋執行緒集區中的已排入佇列任務數量。如果佇列大小持續高居不下,請考慮擴展您的叢集。搜尋佇列的大小上限為 1,000。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

ThreadpoolSearchRejected

搜尋執行緒集區中的已拒絕任務數量。如果這個數量持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和

ThreadpoolSearchThreads

搜尋執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

Threadpoolsql-workerQueue

SQL 搜尋執行緒集區中的已排入佇列的任務數量。如果佇列大小持續高居不下,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

Threadpoolsql-workerRejected

SQL 搜尋執行緒集區中的已拒絕的任務數量。如果這個數量持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和

Threadpoolsql-workerThreads

SQL 搜尋執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolBulkQueue

大量執行緒集區中的已排入佇列任務數量。如果佇列大小持續高居不下,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

ThreadpoolBulkRejected

大量執行緒集區中的已拒絕任務數量。如果這個數量持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和

ThreadpoolBulkThreads

大量執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolWriteThreads

寫入執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolWriteQueue

寫入執行緒集區中的已排入佇列任務數量。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolWriteRejected

寫入執行緒集區中的已拒絕任務數量。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

注意

由於 7.9 版中的預設寫入佇列大小從 200 增加到 10000,因此此指標不再是 OpenSearch Service 拒絕的唯一指標。使用 CoordinatingWriteRejectedPrimaryWriteRejectedReplicaWriteRejected 指標來監控 7.9 及更高版本中的拒絕。

CoordinatingWriteRejected

自上次 OpenSearch Service 處理程序啟動後,協調節點上由於索引壓力而發生的拒絕總數。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

在 7.9 及更高版本中可使用此指標。

PrimaryWriteRejected

自上次 OpenSearch Service 處理程序啟動後,主碎片上由於索引壓力而發生的拒絕總數。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

在 7.9 及更高版本中可使用此指標。

ReplicaWriteRejected

自上次 OpenSearch Service 處理程序啟動後,複本碎片上由於索引壓力而發生的拒絕總數。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

在 7.9 及更高版本中可使用此指標。

UltraWarm 指標

Amazon OpenSearch Service 提供下列 UltraWarm 節點指標。

指標 描述
WarmCPUUtilization

叢集中 UltraWarm 節點的 CPU 用量百分比。上限顯示具有最高 CPU 用量的節點。平均值代表叢集中的所有 UltraWarm 節點。此指標也適用於個別 UltraWarm 節點。

相關統計資訊:Maximum、Average

WarmFreeStorageSpace

可用暖儲存空間量 (以 MiB 為單位)。由於 UltraWarm 使用 Simple Storage Service (Amazon S3) 而不是連接的磁碟,Sum 是唯一的相關統計數字。您必須保留一分鐘的間隔,才能取得正確的數值。

相關統計資訊:Sum

WarmSearchableDocuments

叢集中跨所有暖索引的可搜尋文件的總數。您必須保留一分鐘的間隔,才能取得正確的數值。

相關統計資訊:Sum

WarmSearchLatency

UltraWarm 節點上的一個碎片完成一次搜尋操作所需的平均時間 (單位為毫秒)。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限

WarmSearchRate

UltraWarm 節點上每分鐘對所有碎片發出搜尋請求的總次數。對於 _search API 發出的單一呼叫,可能會傳回來自多個不同碎片的結果。如果上述碎片當中有五個是在同一個節點上,則該節點會回報這個指標為 5,即使該用戶端僅發出一次請求。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限、總和

WarmStorageSpaceUtilization

叢集所使用暖儲存空間的總量 (單位為 MiB)。

相關統計資訊:Maximum

HotStorageSpaceUtilization

叢集所使用熱儲存空間的總量。

相關統計資訊:Maximum

WarmSysMemoryUtilization

已使用溫節點記憶體的百分比。

相關統計資訊:Maximum

HotToWarmMigrationQueueSize

目前等待從熱儲存遷移至暖儲存的索引數目。

相關統計資訊:Maximum

WarmToHotMigrationQueueSize

目前等待從暖儲存遷移至熱儲存的索引數目。

相關統計資訊:Maximum

HotToWarmMigrationFailureCount

從熱儲存遷移至暖儲存的失敗總數。

相關統計資訊:Sum

HotToWarmMigrationForceMergeLatency

遷移程序的強制合併階段的平均延遲。如果此階段始終需要太長時間,考慮增加 index.ultrawarm.migration.force_merge.max_num_segments

相關統計資訊:平均數

HotToWarmMigrationSnapshotLatency

遷移程序的快照階段的平均延遲。如果此階段持續需要太長時間,請確保您的碎片適當調整大小並分佈在整個叢集中。

相關統計資訊:平均數

HotToWarmMigrationProcessingLatency

從熱儲存成功遷移到暖儲存的平均延遲,包括佇列中花費的時間。此值是完成遷移程序的強制合併、快照和碎片重新放置階段所需的時間總和。

相關統計資訊:平均數

HotToWarmMigrationSuccessCount

從熱儲存遷移至暖儲存的成功總數。

相關統計資訊:Sum

HotToWarmMigrationSuccessLatency

從熱儲存成功遷移到暖儲存的平均延遲,包括佇列中花費的時間。

相關統計資訊:平均數

WarmThreadpoolSearchThreads

UltraWarm 搜尋執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

WarmThreadpoolSearchRejected

UltraWarm 搜尋執行緒集區中已拒絕的任務數量。如果此數值持續增加,請考慮新增更多 UltraWarm 節點。

相關節點統計資訊:上限

相關叢集統計資訊:總和

WarmThreadpoolSearchQueue UltraWarm 搜尋執行緒集區中已排入佇列的任務數量。如果佇列大小持續高居不下,請考慮新增更多的 UltraWarm 節點。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

WarmJVMMemoryPressure

用於 UltraWarm 節點的 Java 堆積最大百分比。

相關統計資訊:Maximum

注意

在最近的服務軟體更新中變更此指標的邏輯。如需詳細資訊,請參閱版本備註

WarmJVMGCYoungCollectionCount

「新一代」廢棄項目收集在 UltraWarm 節點上執行的次數。大量、持續擴增的執行次數是叢集操作的正常情況。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

WarmJVMGCYoungCollectionTime

叢集在 UltraWarm 節點上執行「新一代」廢棄項目收集花費的時間 (單位為毫秒)。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

WarmJVMGCOldCollectionCount

「舊一代」廢棄項目收集在 UltraWarm 節點上執行的次數。在資源充足的叢集中,這個數字應該很小,而且不常擴增。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

冷儲存指標

Amazon OpenSearch Service 提供下列冷儲存指標。

指標 描述
ColdStorageSpaceUtilization

叢集所使用冷儲存空間的總量 (單位為 MiB)。

相關統計資料:上限

ColdToWarmMigrationFailureCount

從冷儲存遷移至暖儲存的失敗總數。

相關統計資訊:Sum

ColdToWarmMigrationLatency

成功完成從冷儲存遷移至暖儲存所需的時間量。

相關統計資訊:平均數

ColdToWarmMigrationQueueSize

目前等待從冷儲存遷移至暖儲存的索引數目。

相關統計資訊:Maximum

ColdToWarmMigrationSuccessCount

從冷儲存遷移至暖儲存的成功總數。

相關統計資訊:Sum

WarmToColdMigrationFailureCount

從暖儲存遷移至冷儲存的失敗總數。

相關統計資訊:Sum

WarmToColdMigrationLatency

成功完成從暖儲存遷移至冷儲存所需的時間量。

相關統計資訊:平均數

WarmToColdMigrationQueueSize

目前等待從暖儲存遷移至冷儲存的索引數目。

相關統計資訊:Maximum

WarmToColdMigrationSuccessCount

從暖儲存遷移至冷儲存的成功總數。

相關統計資訊:Sum

提醒指標

Amazon OpenSearch Service 提供下列提醒指標。

指標 描述
AlertingDegraded

值為 1 表示提醒索引為紅色,或是有一或多個節點不在排程上。0 值表示正常行為。

相關統計資訊:Maximum

AlertingIndexExists

值為 1 表示存在 .opendistro-alerting-config 索引。值為 0 則表示不存在。直到您第一次使用提醒功能為止,這個值都會維持在 0。

相關統計資訊:Maximum

AlertingIndexStatus.green

索引的運作狀態。值為 1 表示綠色。值為 0 表示索引不存在,或是並非綠色。

相關統計資訊:Maximum

AlertingIndexStatus.red

索引的運作狀態。值為 1 表示紅色。值為 0 表示索引不存在,或是並非紅色。

相關統計資訊:Maximum

AlertingIndexStatus.yellow

索引的運作狀態。值為 1 表示黃色。值為 0 表示索引不存在,或是並非黃色。

相關統計資訊:Maximum

AlertingNodesNotOnSchedule

值為 1 表示有些任務並未依照排程執行。值為 0 則表示所有提醒任務都正在依照排程執行 (或是沒有提醒任務)。檢查 OpenSearch Service 主控台或提出 _nodes/stats 請求,以查看是否有任何節點顯示高資源使用量。

相關統計資訊:Maximum

AlertingNodesOnSchedule

值為 1 則表示所有提醒任務都正在依照排程執行 (或是沒有提醒任務)。值為 0 表示有些任務並未依照排程執行。

相關統計資訊:Maximum

AlertingScheduledJobEnabled

值為 1 表示 opendistro.scheduled_jobs.enabled 叢集設定為 true。值為 0 表示為 false,且已停用排程任務。

相關統計資訊:Maximum

異常偵測指標

Amazon OpenSearch Service 提供下列異常偵測指標。

指標 描述
ADPluginUnhealthy

值 1 表示異常偵測外掛程式無法正常運作,原因是大量失敗或它使用的其中一個索引是紅色。值 0 表示外掛程式如預期般運作。

相關統計資訊:Maximum

ADExecuteRequestCount

偵測異常的請求數。

相關統計資訊:Sum

ADExecuteFailureCount

偵測異常的失敗請求數。

相關統計資訊:Sum

ADHCExecuteFailureCount

偵測高基數偵測器異常的失敗請求數。

相關統計資訊:Sum

ADHCExecuteRequestCount

偵測高基數偵測器異常的請求數。

相關統計資訊:Sum

ADAnomalyResultsIndexStatusIndexExists

值為 1 表示 .opendistro-anomaly-results 別名指向的索引存在。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

ADAnomalyResultsIndexStatus.red

值為 1 表示 .opendistro-anomaly-results 別名指向的索引是紅色。值為 0 則表示它不是紅色。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

ADAnomalyDetectorsIndexStatusIndexExists

值為 1 表示 .opendistro-anomaly-detectors 索引存在。值為 0 則表示不存在。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

ADAnomalyDetectorsIndexStatus.red

值為 1 表示 .opendistro-anomaly-detectors 索引是紅色。值為 0 則表示它不是紅色。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

ADModelsCheckpointIndexStatusIndexExists

值為 1 表示 .opendistro-anomaly-checkpoints 索引存在。值為 0 則表示不存在。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

ADModelsCheckpointIndexStatus.red

值為 1 表示 .opendistro-anomaly-checkpoints 索引是紅色。值為 0 則表示它不是紅色。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

Amazon OpenSearch Service 提供下列非同步搜尋指標。

非同步搜尋協調器節點統計數字 (每個協調器節點)

指標 描述
AsynchronousSearchSubmissionRate

過去一分鐘內提交的非同步搜尋數量。

AsynchronousSearchInitializedRate

過去一分鐘內初始化的非同步搜尋數量。

AsynchronousSearchRunningCurrent

目前正在執行的非同步搜尋數量。

AsynchronousSearchCompletionRate

過去一分鐘內成功完成的非同步搜尋數量。

AsynchronousSearchFailureRate

過去一分鐘內完成和失敗的非同步搜尋數量。

AsynchronousSearchPersistRate

過去一分鐘內持續的非同步搜尋數量。

AsynchronousSearchPersistFailedRate

過去一分鐘內無法持續的非同步搜尋數量。

AsynchronousSearchRejected

自節點啟動時間以來拒絕的非同步搜尋總數。

AsynchronousSearchCancelled

自節點啟動時間以來已取消的非同步搜尋總數。

AsynchronousSearchMaxRunningTime

在最後一分鐘的節點上執行非同步搜尋的最長持續時間。

非同步搜尋叢集統計數字

指標 描述
AsynchronousSearchStoreHealth

最後一分鐘內持續索引中的存放運作狀態 (紅色/非紅色)。

AsynchronousSearchStoreSize

過去一分鐘內所有碎片的系統索引大小。

AsynchronousSearchStoredResponseCount

過去一分鐘內系統索引中存放的回應數量。

SQL 指標

Amazon OpenSearch Service 提供下列 SQL 支援指標。

指標 描述
SQLFailedRequestCountByCusErr

因用戶端問題而失敗的 _sql API 請求數。例如,請求可能會因為 IndexNotFoundException 而傳回 HTTP 狀態碼 400。

相關統計資訊:Sum

SQLFailedRequestCountBySysErr

因伺服器問題或功能限制而失敗的 _sql API 請求數。例如,請求可能會因為 VerificationException 而傳回 HTTP 狀態碼 503。

相關統計資訊:Sum

SQLRequestCount

_sql API 提出的請求數。

相關統計資訊:Sum

SQLDefaultCursorRequestCount

SQLRequestCount 類似,但只計算分頁請求。

相關統計資訊:Sum

SQLUnhealthy

值為 1 表示在特定請求的回應中,SQL 外掛程式正在傳回 5xx 回應碼,或是正在將無效的查詢 DSL 傳遞至 OpenSearch。其他請求應會繼續成功。值為 0 表示最近沒有任何失敗。如果您看到值持續為 1,請針對您用戶端向外掛程式提出的請求進行故障診斷。

相關統計資訊:Maximum

k-NN 指標

Amazon OpenSearch Service 包含 k 近鄰 (k-NN) 外掛程式的下列指標。

指標 描述
KNNCacheCapacityReached

是否已達到快取容量的每個節點指標。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:Maximum

KNNCircuitBreakerTriggered

是否觸發斷路器的每個叢集指標。如果任何節點為 KNNCacheCapacityReached 傳回一個值,此值也將傳回 1。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:Maximum

KNNEvictionCount

因記憶體限制或閒置時間而從快取移出的圖形數目的每個節點指標。因索引刪除而發生的明確移出不會計算在內。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:Sum

KNNGraphIndexErrors

將文件的 knn_vector 欄位新增至圖形發生錯誤的請求數的每個節點指標。

相關統計資訊:Sum

KNNGraphIndexRequests

將文件的 knn_vector 欄位新增至圖形的請求數的每個節點指標。

相關統計資訊:Sum

KNNGraphMemoryUsage

目前快取大小 (記憶體中所有圖形的總大小) 的每個節點指標 (KB)。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:平均數

KNNGraphQueryErrors

產生錯誤之圖形查詢數目的每個節點指標。

相關統計資訊:Sum

KNNGraphQueryRequests

圖形查詢數目的每個節點指標。

相關統計資訊:Sum

KNNHitCount

快取命中次數的每個節點指標。當使用者查詢已載入記憶體的圖形時,就會發生快取命中。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:Sum

KNNLoadExceptionCount

嘗試將圖形載入快取時發生例外狀況的次數的每個節點指標。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:Sum

KNNLoadSuccessCount

外掛程式成功將圖形載入快取的次數的每個節點指標。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:Sum

KNNMissCount

快取遺漏次數的每個節點指標。當使用者查詢尚未載入記憶體的圖形時,就會發生快取遺漏。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:Sum

KNNQueryRequests

K-NN 外掛程式接收之查詢請求數目的每個節點指標。

相關統計資訊:Sum

KNNScriptCompilationErrors

指令碼編譯期間錯誤數目的每個節點指標。此統計數字僅與 K-NN 分數指令碼搜尋相關。

相關統計資訊:Sum

KNNScriptCompilations

K-NN 指令碼編譯次數的每個節點指標。此值通常應該為 1 或 0,但是如果包含已編譯指令碼的快取已填滿,K-NN 指令碼可能會被重新編譯。此統計數字僅與 K-NN 分數指令碼搜尋相關。

相關統計資訊:Sum

KNNScriptQueryErrors

指令碼查詢期間錯誤數目的每個節點指標。此統計數字僅與 K-NN 分數指令碼搜尋相關。

相關統計資訊:Sum

KNNScriptQueryRequests

指令碼查詢總數的每個節點指標。此統計數字僅與 K-NN 分數指令碼搜尋相關。

相關統計資訊:Sum

KNNTotalLoadTime

K-NN 將圖形載入到快取所需的時間 (以奈秒為單位)。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:Sum

Amazon OpenSearch Service 提供下列跨叢集搜尋指標。

來源網域指標

指標 維度 描述
CrossClusterOutboundConnections

ConnectionId

連線節點數。如果回應包含一或多個略過的網域,請使用此指標以追蹤任何運作狀態不良的連線。如果這個數字掉到 0,則表示連線運作狀態不良。

CrossClusterOutboundRequests

ConnectionId

傳送至目的地網域的搜尋請求數。用來檢查跨叢集搜尋請求的負載是否佔用網域,將此指標中的任何尖峰與任何 JVM/CPU 尖峰相互關聯。

目的地網域指標

指標 維度 描述
CrossClusterInboundRequests

ConnectionId

從來源網域收到的傳入連線請求數。

如果發生意外遺失連線的情況,則新增 CloudWatch 提醒。如需建立提醒的步驟,請參閱根據靜態閾值建立 CloudWatch 提醒

跨叢集複寫

Amazon OpenSearch Service 提供下列跨叢集複寫指標。

指標 描述
ReplicationRate

每秒平均複寫操作速率。此指標類似於 IndexingRate 指標。

LeaderCheckPoint

針對特定連線,領導索引上所有複寫索引的全域檢查點總和。您可以使用此指標來測量複寫延遲。

FollowerCheckPoint

針對特定連線,追蹤索引上所有複寫索引的全域檢查點總和。您可以使用此指標來測量複寫延遲。

Learning to Rank 指標

Amazon OpenSearch Service 提供下列 Learning to Rank 指標。

指標 描述
LTRRequestTotalCount

排名請求的總數。

LTRRequestErrorCount

未成功請求的總數。

LTRStatus.red

追蹤需要執行外掛程式的其中一個索引是否為紅色。

LTRMemoryUsage

外掛程式使用的總記憶體。

LTRFeatureMemoryUsageInBytes

Learning to Rank 功能欄位使用的記憶體容量 (以位元組為單位)。

LTRFeaturesetMemoryUsageInBytes

所有 Learning to Rank 功能集使用的記憶體容量 (以位元組為單位)。

LTRModelMemoryUsageInBytes

所有 Learning to Rank 模型使用的記憶體容量 (以位元組為單位)。

Piped Processing Language 指標

Amazon OpenSearch Service 提供下列 Piped Processing Language 指標。

指標 描述
PPLFailedRequestCountByCusErr

因用戶端問題而失敗的 _ppl API 請求數。例如,請求可能會因為 IndexNotFoundException 而傳回 HTTP 狀態碼 400。

PPLFailedRequestCountBySysErr

因伺服器問題或功能限制而失敗的 _ppl API 請求數。例如,請求可能會因為 VerificationException 而傳回 HTTP 狀態碼 503。

PPLRequestCount

_ppl API 提出的請求數。