使用亞馬遜監控OpenSearch叢集指標 CloudWatch - 亞馬遜OpenSearch服務

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用亞馬遜監控OpenSearch叢集指標 CloudWatch

Amazon Ser OpenSearch vice 將資料從您的網域發佈到 Amazon CloudWatch。CloudWatch可讓使用一組時間序列資料的形式來擷取這些資料點的相關統計資料,也就是指標。OpenSearchService 會以 60 秒CloudWatch的時間間隔將指標傳送至。如果您使用一般用途或磁帶 EBS 磁碟區,EBS 磁碟區指標將僅每隔 5 分鐘更新一次。如需 Amazon Language 的詳細資訊CloudWatch,請參閱 Amazon CloudWatch 使用者指南

Ser OpenSearch vice 主控台會根據的原始資料顯示一系列圖形CloudWatch。根據需求,您可能偏好在中檢視叢集資料,CloudWatch而非在主控台的圖形。此服務會封存指標兩週,之後才會捨棄它們。指標為免費提供,但建立儀表板和警示CloudWatch仍會針對建立儀表板和警示收費。如需詳細資訊,請參閱 Amazon CloudWatch 定價

OpenSearch服務會將下列指標發佈至CloudWatch:

檢視量度 CloudWatch

CloudWatch指標會先依服務命名空間分組,再依各命名空間內不同的維度組合分組。

使用 CloudWatch 主控台檢視指標
  1. 開啟 CloudWatch 主控台,網址為:https://console.aws.amazon.com/cloudwatch/

  2. 在左側導覽窗格中,尋找 Metrics (指標),然後選擇 All metrics (所有指標)。選取 ES/ OpenSearchService 命名空間。

  3. 選擇維度以檢視對應指標。個別節點的指標位於 ClientId, DomainName, NodeId 維度中。叢集指標位於 Per-Domain, Per-Client Metrics 維度中。某些節點指標會在叢集層級彙總,因此包含在這兩個維度中。碎片指標位於 ClientId, DomainName, NodeId, ShardRole 維度中。

若檢視指標清單的方法是使用 AWS CLI

執行以下命令:

aws cloudwatch list-metrics --namespace "ES/OpenSearchService"

解讀 Service 中的運作狀態圖表 OpenSearch

若要檢視 OpenSearch Service 中的測量結果,請使用叢集健全狀況執行個體健全狀況執行個體健全狀況」標籤使用方塊圖表來提供每個OpenSearch節點的健全狀況的at-a-glance可見度:

  • 每個色彩方塊都能顯示該節點在整段指定時間的值範圍。

  • 藍色方塊表示其值與其他節點相符。紅色方塊表示其值出現異常。

  • 每個方塊中的白色線條則表示目前節點的值。

  • 每個方塊在任何一邊上的「whiskers」則表示所有節點在整段時間的最小值與最大值。

如果您對網域進行組態變更,則 Cluster health (叢集運作狀態)Instance health (執行個體運作狀態) 索引標籤上個別執行個體清單的大小通常會短暫出現加倍的情況,然後才恢復為正確的數字。如需此行為的說明,請參閱在 Amazon Ser OpenSearch vice 中進行組態變更

叢集指標

Amazon Ser OpenSearch vice 提供下列叢集指標。

指標 描述
ClusterStatus.green

1 的值表示將所有索引碎片分配至叢集中的節點。

相關統計資訊:Maximum

ClusterStatus.yellow 1 的值表示將所有索引的主要碎片分配給叢集中的節點,但用於至少一個索引的複寫碎片則不分配。如需詳細資訊,請參閱黃色叢集狀態

相關統計資訊:Maximum

ClusterStatus.red

1 的值表示至少一個索引的主要碎片和複寫碎片未分配至叢集中的節點。如需詳細資訊,請參閱紅色叢集狀態

相關統計資訊:Maximum

Shards.active

作用中主要碎片和複本碎片的總數。

相關統計數字:最大,總和

Shards.unassigned

未分配至叢集中節點的碎片數目。

相關統計數字:最大,總和

Shards.delayedUnassigned

其節點分配已被逾時設定延遲的碎片數量。

相關統計數字:最大,總和

Shards.activePrimary

活動中主要碎片的數量。

相關統計數字:最大,總和

Shards.initializing

正在初始化的碎片數量。

相關統計資料:總和

Shards.relocating

正在重新放置的碎片數量。

相關統計資料:總和

Nodes

OpenSearchService 叢集中的節點數,包括專用主節點和UltraWarm節點。如需詳細資訊,請參閱在 Amazon Ser OpenSearch vice 中進行組態變更

相關統計資訊:Maximum

SearchableDocuments

叢集中跨所有資料節點的可搜尋文件的總數。

相關統計資料:下限、上限、平均數

DeletedDocuments

叢集中跨所有資料節點的標記進行刪除文件的總數。這些文件不再出現於搜尋結果中,但 OpenSearch 在區段合併時只會從磁碟移除已刪除的文件。此指標會在刪除請求後增加,在區段合併後降低。

相關統計資料:下限、上限、平均數

CPUUtilization

叢集中資料節點的 CPU 用量百分比。上限顯示具有最高 CPU 用量的節點。平均值代表叢集中的所有節點。此指標也適用於個別節點。

相關統計資訊:Maximum、Average

FreeStorageSpace

叢集中資料節點的可用空間。Sum 會顯示叢集的總可用空間,但您必須保留一分鐘的間隔,才能取得正確的值。MinimumMaximum 分別會顯示具有最少和最多可用空間的節點。此指標也適用於個別節點。OpenSearchClusterBlockException當此量度達到時,服務會擲回一個0。若要恢復,您必須刪除索引、新增更大的執行個體,或為現有執行個體新增 EBS 式儲存。如需進一步了解,請參閱 缺少可用儲存空間

OpenSearchService 主控台會以 GiB 為單位顯示此值。Amazon 主CloudWatch控台會以 MiB 為單位顯示它。

注意

FreeStorageSpace將永遠低於OpenSearch_cluster/stats_cat/allocation API 提供的值。OpenSearchService 會在每個執行個體上保留一定百分比的儲存空間供內部操作使用。如需詳細資訊,請參閱計算儲存需求

相關統計資訊:Minimum、Maximum、Average、Sum

ClusterUsedSpace

已用於叢集的空間總數。您必須保留一分鐘的間隔,才能取得正確的數值。

OpenSearchService 主控台會以 GiB 為單位顯示此值。Amazon 主CloudWatch控台會以 MiB 為單位顯示它。

相關統計資訊:Minimum、Maximum

ClusterIndexWritesBlocked

指示您的叢集是否要接受或封鎖外來的寫入請求。0 值表示叢集接受請求。1 值表示叢集封鎖請求。

常見的因素包括:FreeStorageSpace 過低或 JVMMemoryPressure 過高。若要減輕此問題,可考慮增加更多的磁碟空間或擴展您的叢集。

相關統計資訊:Maximum

JVMMemoryPressure

用於叢集中所有資料節點的 Java heap 的最大百分比。OpenSearchService 針對 Java 堆積使用執行個體 RAM 的一半,堆積大小最多可達 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM,屆時便能透過新增執行個體進行水平擴展。請參閱 推薦的亞馬遜OpenSearch服務CloudWatch警報

相關統計資訊:Maximum

注意

此指標的邏輯在服務軟體 R20220323 中有所變更。如需詳細資訊,請參閱版本備註

OldGenJVMMemoryPressure

用於叢集中所有資料節點的「舊一代」的 Java 堆積的最大百分比。此指標也適用於節點層級。

相關統計資訊:Maximum

AutomatedSnapshotFailure

叢集中失敗的自動快照數量。1 值表示此網域過去 36 小時未執行任何自動快照。

相關統計資訊:Minimum、Maximum

CPUCreditBalance

可供叢集中資料節點使用的剩餘 CPU 點數。一個 CPU 點數提供一分鐘、一個 CPU 核心的完整效能。如需詳細資訊,請參閱 Amazon EC2 開發人員指南中的 CPU 點數。此指標僅適用於 T2 執行個體類型。

相關統計資訊:Minimum

OpenSearchDashboardsHealthyNodes (先前的 KibanaHealthyNodes)

Dboards 的OpenSearch運作狀態檢查。如果最小值、最大值和平均值都等於 1,則 Dashboards 的行為正常。如果您有 10 個節點,其中最大為 1,最小為 0,平均為 0.7,這表示 7 個節點 (70%) 狀況良好,3 個節點 (30%) 狀況不良。

相關統計資料:下限、上限、平均數

KibanaReportingFailedRequestSysErrCount

因伺服器問題或功能限制而失敗的產生 Dboards OpenSearch 報告的請求數。

相關統計資料:總和

KibanaReportingFailedRequestUserErrCount

因用戶端問題而失敗的 Dboards OpenSearch 報告的請求數。

相關統計資料:總和

KibanaReportingRequestCount

產生 Dboards OpenSearch 報告的請求總數。

相關統計資料:總和

KibanaReportingSuccessCount

產生 Dboards OpenSearch 報告的成功請求數。

相關統計資料:總和

KMSKeyError

1 值表示用於加密靜態資料的 AWS KMS 金鑰已停用。若要使網域恢復正常運作,請重新啟用此金鑰。主控台只會針對加密靜態資料的網域顯示此指標。

相關統計資訊:Minimum、Maximum

KMSKeyInaccessible

1 值表示用於加密靜態資料的AWS KMS金鑰已刪除或撤回其對 OpenSearch Service 的授權。您無法復原此狀態的網域。但是,如果您有手動快照,您可以用它來將網域的資料遷移至新的網域。主控台只會針對加密靜態資料的網域顯示此指標。

相關統計資訊:Minimum、Maximum

InvalidHostHeaderRequests

對 OpenSearch 叢集發出、包括無效 (或遺漏) 主機標頭的 HTTP 數目。有效的請求包括網域主機名稱作為主機標頭值。OpenSearchService 會拒絕沒有限制性存取政策的公有存取網域的無效請求。我們建議將限制存取政策套用到所有網域。

如果您看見此指標有較大值,請確認 OpenSearch 用戶端在其請求中包含網域主機名稱 (而非其 IP 位址)。

相關統計資料:總和

OpenSearchRequests(previously ElasticsearchRequests)

對 OpenSearch 叢集提出的請求數目。

相關統計資料:總和

2xx, 3xx, 4xx, 5xx

產生指定 HTTP 回應碼 (2xx、3xx、4xx、5xx) 的網域請求數。

相關統計資料:總和

ThroughputThrottle

指出磁碟機是否受到限流。當和的合併輸送量高於最大輸送量時ReadThroughputMicroBurstingWriteThroughputMicroBursting就會發生節流。最大輸送量是執行個體輸送量或佈建磁碟區輸送量的較低值。1 值為 1 的值為單位為單位。0 值表示正常行為。

如需執行個體輸送量的相關資訊,請參閱 Amazon EBS 優化執行個體 如需磁碟區輸送量的相關資訊,請參閱 Amazon EBS 磁碟區類型

相關統計資訊:Minimum、Maximum

專用主節點指標

Amazon Ser OpenSearch vice 提供下列專用主節點

指標 描述
MasterCPUUtilization

專用主節點使用的 CPU 資源的最大百分比。當這項指標達到 60% 時,建議提高執行個體類型的大小。

相關統計資訊:Maximum

MasterFreeStorageSpace

此指標無關,可忽略。此服務不使用主節點做為資料節點。

MasterJVMMemoryPressure

用於叢集中所有專用主節點的 Java heap 的最大百分比。當這項指標達到 85% 時,建議移至較大的執行個體類型。

相關統計資訊:Maximum

注意

此指標的邏輯在服務軟體 R20220323 中有所變更。如需詳細資訊,請參閱版本備註

MasterOldGenJVMMemoryPressure

用於每個主節點「舊一代」的 Java 堆積最大百分比。

相關統計資訊:Maximum

MasterCPUCreditBalance

可供叢集中專用主節點使用的剩餘 CPU 額度。一個 CPU 點數提供一分鐘、一個 CPU 核心的完整效能。如需詳細資訊,請參閱 Amazon EC2 開發人員指南中的 CPU 點數。此指標僅適用於 T2 執行個體類型。

相關統計資訊:Minimum

MasterReachableFromNode

MasterNotDiscovered 例外狀況的運作狀態檢查。1 值表示正常行為。0 值表示 /_cluster/health/ 失敗。

失敗表示無法從來源節點存取主節點。這通常是網路連線問題或AWS相依性問題造成的結果。

相關統計資訊:Maximum

MasterSysMemoryUtilization

已使用主節點記憶體的百分比。

相關統計資訊:Maximum

EBS 磁碟區指標

Amazon Ser OpenSearch vice 提供下列 EBS 磁碟區。

指標 描述
ReadLatency

EBS 磁碟區讀取操作的延遲 (以秒為單位)。此指標也適用於個別節點。

相關統計資料:下限、上限、平均數

WriteLatency

EBS 磁碟區寫入操作的延遲 (以秒為單位)。此指標也適用於個別節點。

相關統計資料:下限、上限、平均數

ReadThroughput

EBS 磁碟區讀取操作的傳輸量 (以位元組/秒為單位)。此指標也適用於個別節點。

相關統計資料:下限、上限、平均數

ReadThroughputMicroBursting

考慮微突增時,EBS 磁碟區上讀取作業的輸送量 (以每秒位元組為單位)。此指標也適用於個別節點。當 EBS 磁碟區大量 IOPS 或輸送量大幅縮短時間 (不到一分鐘) 時,就會發生微突增。

相關統計資料:下限、上限、平均數

WriteThroughput

EBS 磁碟區寫入操作的傳輸量 (以位元組/秒為單位)。此指標也適用於個別節點。

相關統計資料:下限、上限、平均數

WriteThroughputMicroBursting

考慮微量爆發時,EBS 磁碟區上寫入作業的輸送量 (以每秒位元組為單位)。此指標也適用於個別節點。當 EBS 磁碟區大量 IOPS 或輸送量大幅縮短時間 (不到一分鐘) 時,就會發生微突增。

相關統計資料:下限、上限、平均數

DiskQueueDepth

等待中的 EBS 磁碟區輸入與輸出 (I/O) 請求數。

相關統計資料:下限、上限、平均數

ReadIOPS

EBS 磁碟區讀取操作的每秒輸入與輸出 (I/O) 操作數。此指標也適用於個別節點。

相關統計資料:下限、上限、平均數

WriteIOPS

EBS 磁碟區寫入操作的每秒輸入與輸出 (I/O) 操作數。此指標也適用於個別節點。

相關統計資料:下限、上限、平均數

BurstBalance

EBS 磁碟區的爆量儲存貯體中剩餘的輸入與輸出 (I/O) 點數百分比。值 100 表示磁碟區已累積至最大點數。如果此百分比低於 70%,請參閱 低 EBS 爆量餘額。對於具有 gp3 磁碟區類型的網域,以及具有磁碟區大小高於 1000 GiB 之 gp2 磁碟區的網域,爆量餘額會保持在 0。

相關統計資料:下限、上限、平均數

執行個體指標

Amazon Ser OpenSearch vice 提供下列網域中每個執行個體。OpenSearchService 也彙總這些執行個體指標,讓您深入了解整體叢集運作狀態。您可以在主控台使用 Sample Count (取樣計數) 統計數字來驗證此行為。請注意,下表中每個指標有節點叢集的相關統計資料。

重要

在處理 _index API 的呼叫時,不同版本的 Elasticsearch 會使用不同的執行緒集區。Elasticsearch 1.5 和 2.3 版會使用索引執行緒集區。Elasticsearch 5.x、6.0 和 6.2 版會使用大量執行緒集區。OpenSearch和 Elasticsearch 6.3 及較新版本會使用寫執行緒集區。目前,Ser OpenSearch vice 主控台不包含批量執行緒集區的圖形。

使用 GET _cluster/settings?include_defaults=true 來檢查叢集的執行緒集區和佇列大小。

指標 描述
IndexingLatency

一個碎片完成一次索引編製操作所需的平均時間 (單位為毫秒)。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限

IndexingRate

​每分鐘進行的索引操作次數。對於 _bulk API 發出的單一呼叫,即新增兩份文件並更新兩份文件,此計為可能分散於一個或更多個節點進行的四次操作。如果該索引有一或多個複本,則在叢集中的其他節點也會記錄共計四次的索引編製操作。文件刪除不列入此指標。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限、總和

SearchLatency

資料節點上的一個碎片完成一次搜尋操作所需的平均時間 (單位為毫秒)。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限

SearchRate

資料節點上每分鐘對所有碎片發出搜尋請求的總次數。對於 _search API 發出的單一呼叫,可能會傳回來自多個不同碎片的結果。如果上述碎片當中有五個是在同一個節點上,則該節點會回報這個指標為 5,即使該用戶端僅發出一次請求。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限、總和

SegmentCount

資料節點上的區段數。您擁有的區段越多,每個搜尋所需的時間越長。OpenSearch偶爾會將較小的區段合併成較大的區段。

相關節點統計數字:最大,平均

相關叢集統計資訊:總和、上限、平均數

SysMemoryUtilization

已使用執行個體記憶體的百分比。此測量結果的高值是正常的,通常不代表叢集的問題。如需有關潛在效能和穩定性問題的更佳指標,請參閱 JVMMemoryPressure 指標。

相關節點統計資訊:下限、上限、平均數

相關叢集統計資訊:下限、上限、平均數

JVMGCYoungCollectionCount

​「新一代」廢棄項目收集的已執行次數。大量、持續擴增的執行次數是叢集操作的正常情況。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

JVMGCYoungCollectionTime

叢集已執行​「新一代」廢棄項目收集的時間 (單位為毫秒)。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

JVMGCOldCollectionCount

​「舊一代」廢棄項目收集的已執行次數。在資源充足的叢集中,這個數字應該很小,而且不常擴增。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

JVMGCOldCollectionTime

叢集已花在執行​「舊一代」廢棄項目收集的時間 (單位為毫秒)。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

OpenSearchDashboardsConcurrentConnections (先前的 KibanaConcurrentConnections)

Dboards 的作用中並行連線的OpenSearch數目。如果此數值持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

OpenSearchDashboardsHealthyNode (先前的 KibanaHealthyNode)

個別 OpenSearch Dboards 節點的運作狀態檢查。1 值表示正常行為。0 值表示無法存取 Dashboards。

相關節點統計數字:最小

相關叢集統計資訊:下限、上限、平均數

OpenSearchDashboardsHeapTotal (先前的 KibanaHeapTotal)

MiB 中配置給OpenSearch儀表板的堆積記憶體量。不同的 EC2 執行個體類型可能會影響精確的記憶體分配。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

OpenSearchDashboardsHeapUsed (先前的 KibanaHeapUsed)

OpenSearch儀表板在 MiB 中使用的堆積記憶體絕對數量。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

OpenSearchDashboardsHeapUtilization (先前的 KibanaHeapUtilization)

Dboards 使用的可用堆積記憶體的最大百分比。OpenSearch如果此值超過 80%,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:下限、上限、平均數

OpenSearchDashboardsOS1MinuteLoad (先前的 KibanaOS1MinuteLoad)

Dboards 的一分鐘平均 CPU 負載OpenSearch。CPU 負載理想情況下應該保持在 1.00 以下。雖然暫時峰值沒問題,但如果此指標一致高於 1.00,建議您增加執行個體類型的大小。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限

OpenSearchDashboardsRequestTotal (先前的 KibanaRequestTotal)

對 Dboards 發出的 HTTP 請求總OpenSearch數。如果您的系統速度緩慢或您看到大量 Dashboards 請求,請考慮增加執行個體類型的大小。

相關節點統計數字:總和

相關叢集統計資訊:總和

OpenSearchDashboardsResponseTimesMaxInMillis (先前的 KibanaResponseTimesMaxInMillis)

Dboards 回應請求所需的時間上限,單位為OpenSearch毫秒。如果請求持續需要很長的時間才能傳回結果,請考慮增加執行個體類型的大小。

相關節點統計資訊:上限

相關叢集統計數字:最大,平均

ThreadpoolForce_mergeQueue

強制合併執行緒集區中的已排入佇列任務數量。如果佇列大小持續高居不下,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

ThreadpoolForce_mergeRejected

強制合併執行緒集區中的已拒絕任務數量。如果這個數量持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和

ThreadpoolForce_mergeThreads

強制合併執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolIndexQueue

索引執行緒集區中的已排入佇列任務數量。如果佇列大小持續高居不下,請考慮擴展您的叢集。索引佇列的大小上限為 200。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

ThreadpoolIndexRejected

索引執行緒集區中的已拒絕任務數量。如果這個數量持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和

ThreadpoolIndexThreads

索引執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolSearchQueue

搜尋執行緒集區中的已排入佇列任務數量。如果佇列大小持續高居不下,請考慮擴展您的叢集。搜尋佇列的大小上限為 1,000。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

ThreadpoolSearchRejected

搜尋執行緒集區中的已拒絕任務數量。如果這個數量持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和

ThreadpoolSearchThreads

搜尋執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

Threadpoolsql-workerQueue

SQL 搜尋執行緒集區中的已排入佇列的任務數量。如果佇列大小持續高居不下,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

Threadpoolsql-workerRejected

SQL 搜尋執行緒集區中的已拒絕的任務數量。如果這個數量持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和

Threadpoolsql-workerThreads

SQL 搜尋執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolBulkQueue

大量執行緒集區中的已排入佇列任務數量。如果佇列大小持續高居不下,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

ThreadpoolBulkRejected

大量執行緒集區中的已拒絕任務數量。如果這個數量持續增加,請考慮擴展您的叢集。

相關節點統計資訊:上限

相關叢集統計資訊:總和

ThreadpoolBulkThreads

大量執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolWriteThreads

寫入執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolWriteQueue

寫入執行緒集區中的已排入佇列任務數量。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

ThreadpoolWriteRejected

寫入執行緒集區中的已拒絕任務數量。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

注意

由於 7.1 版中的預設寫入佇列大小從 200 增加到 10000,這個指標不再是 OpenSearch Service 拒絕的唯一指標。使用 CoordinatingWriteRejectedPrimaryWriteRejectedReplicaWriteRejected 指標來監控 7.1 版及更新版本中的拒絕。

CoordinatingWriteRejected

自上次 OpenSearch Service 處理程序啟動後,協調節點上由於索引壓力而發生的拒絕總數。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

在 7.1 版及更高版本中可使用此指標。

PrimaryWriteRejected

自上次 OpenSearch Service 處理程序啟動後,主碎片上由於索引壓力而發生的拒絕總數。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

在 7.1 版及更高版本中可使用此指標。

ReplicaWriteRejected

自上次 OpenSearch Service 處理程序啟動後,複本碎片上由於索引壓力而發生的拒絕總數。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

在 7.1 版及更高版本中可使用此指標。

UltraWarm 指標

亞馬遜OpenSearch服務為UltraWarm節點提供以下指標。

指標 描述
WarmCPUUtilization

叢集中UltraWarm節點的 CPU 使用率百分比。上限顯示具有最高 CPU 用量的節點。平均為叢集中的所有UltraWarm節點。此指標也適用於個別UltraWarm節點。

相關統計資訊:Maximum、Average

WarmFreeStorageSpace

可用暖儲存空間量 (以 MiB 為單位)。由於UltraWarm使用 Amazon S3,而不是連接的磁碟,Sum這個指標為唯一的相關統計資料。您必須保留一分鐘的間隔,才能取得正確的數值。

相關統計資料:總和

WarmSearchableDocuments

叢集中跨所有暖索引的可搜尋文件的總數。您必須保留一分鐘的間隔,才能取得正確的數值。

相關統計資料:總和

WarmSearchLatency

完成搜尋作業所需的平均時間,單位為毫秒。UltraWarm

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限

WarmSearchRate

UltraWarm節點上所有碎片的每分鐘搜尋請求總數。對於 _search API 發出的單一呼叫,可能會傳回來自多個不同碎片的結果。如果上述碎片當中有五個是在同一個節點上,則該節點會回報這個指標為 5,即使該用戶端僅發出一次請求。

相關節點統計資訊:平均數

相關叢集統計資訊:平均數、上限、總和

WarmStorageSpaceUtilization

叢集所使用暖儲存空間的總量 (單位為 MiB)。

相關統計資訊:Maximum

HotStorageSpaceUtilization

叢集所使用熱儲存空間的總量。

相關統計資訊:Maximum

WarmSysMemoryUtilization

已使用溫節點記憶體的百分比。

相關統計資訊:Maximum

HotToWarmMigrationQueueSize

目前等待從熱儲存遷移至暖儲存的索引數目。

相關統計資訊:Maximum

WarmToHotMigrationQueueSize

目前等待從暖儲存遷移至熱儲存的索引數目。

相關統計資訊:Maximum

HotToWarmMigrationFailureCount

從熱儲存遷移至暖儲存的失敗總數。

相關統計資料:總和

HotToWarmMigrationForceMergeLatency

遷移程序的強制合併階段的平均延遲。如果此階段始終需要太長時間,考慮增加 index.ultrawarm.migration.force_merge.max_num_segments

相關統計資訊:平均數

HotToWarmMigrationSnapshotLatency

遷移程序的快照階段的平均延遲。如果此階段持續需要太長時間,請確保您的碎片適當調整大小並分佈在整個叢集中。

相關統計資訊:平均數

HotToWarmMigrationProcessingLatency

從熱儲存成功遷移到暖儲存的平均延遲,包括佇列中花費的時間。此值是完成遷移程序的強制合併、快照和碎片重新放置階段所需的時間總和。

相關統計資訊:平均數

HotToWarmMigrationSuccessCount

從熱儲存遷移至暖儲存的成功總數。

相關統計資料:總和

HotToWarmMigrationSuccessLatency

從熱儲存成功遷移到暖儲存的平均延遲,包括佇列中花費的時間。

相關統計資訊:平均數

WarmThreadpoolSearchThreads

UltraWarm搜尋執行緒集區的大小。

相關節點統計資訊:上限

相關叢集統計資訊:平均數、總和

WarmThreadpoolSearchRejected

UltraWarm搜尋執行緒集區中已拒絕的任務數量。如果此數值持續增加,請考慮新增更多UltraWarm節點。

相關節點統計資訊:上限

相關叢集統計資訊:總和

WarmThreadpoolSearchQueue UltraWarm搜尋執行緒集區中已排入佇列的任務數量。如果佇列大小持續高居不下,請考慮新增更多UltraWarm節點。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

WarmJVMMemoryPressure

用於UltraWarm節點的 Java 堆積最大百分比。

相關統計資訊:Maximum

注意

此指標的邏輯在服務軟體 R20220323 中有所變更。如需詳細資訊,請參閱版本備註

WarmOldGenJVMMemoryPressure

用於每UltraWarm節點「舊一代」的 Java 堆積最大百分比。

相關統計資訊:Maximum

WarmJVMGCYoungCollectionCount

「新一代」廢棄項目收集在UltraWarm節點上執行的次數。大量、持續擴增的執行次數是叢集操作的正常情況。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

WarmJVMGCYoungCollectionTime

叢集在UltraWarm節點上執行「年輕一代」垃圾回收所需的時間,單位為毫秒。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

WarmJVMGCOldCollectionCount

「舊一代」廢棄項目收集在UltraWarm節點上執行的次數。在資源充足的叢集中,這個數字應該很小,而且不常擴增。

相關節點統計資訊:上限

相關叢集統計資訊:總和、上限、平均數

冷儲存指標

Amazon Ser OpenSearch vice 提供下列冷儲存指標。

指標 描述
ColdStorageSpaceUtilization

叢集所使用冷儲存空間的總量 (單位為 MiB)。

相關統計資料:上限

ColdToWarmMigrationFailureCount

從冷儲存遷移至暖儲存的失敗總數。

相關統計資料:總和

ColdToWarmMigrationLatency

成功完成從冷儲存遷移至暖儲存所需的時間量。

相關統計資訊:平均數

ColdToWarmMigrationQueueSize

目前等待從冷儲存遷移至暖儲存的索引數目。

相關統計資訊:Maximum

ColdToWarmMigrationSuccessCount

從冷儲存遷移至暖儲存的成功總數。

相關統計資料:總和

WarmToColdMigrationFailureCount

從暖儲存遷移至冷儲存的失敗總數。

相關統計資料:總和

WarmToColdMigrationLatency

成功完成從暖儲存遷移至冷儲存所需的時間量。

相關統計資訊:平均數

WarmToColdMigrationQueueSize

目前等待從暖儲存遷移至冷儲存的索引數目。

相關統計資訊:Maximum

WarmToColdMigrationSuccessCount

從暖儲存遷移至冷儲存的成功總數。

相關統計資料:總和

提醒指標

Amazon Ser OpenSearch vice 提供下列提指標。

指標 描述
AlertingDegraded

值為 1 表示提醒索引為紅色,或是有一或多個節點不在排程上。0 值表示正常行為。

相關統計資訊:Maximum

AlertingIndexExists

值為 1 表示存在 .opensearch-alerting-config 索引。值為 0 則表示不存在。直到您第一次使用提醒功能為止,這個值都會維持在 0。

相關統計資訊:Maximum

AlertingIndexStatus.green

索引的運作狀態。值為 1 表示綠色。值為 0 表示索引不存在,或是並非綠色。

相關統計資訊:Maximum

AlertingIndexStatus.red

索引的運作狀態。值為 1 表示紅色。值為 0 表示索引不存在,或是並非紅色。

相關統計資訊:Maximum

AlertingIndexStatus.yellow

索引的運作狀態。值為 1 表示黃色。值為 0 表示索引不存在,或是並非黃色。

相關統計資訊:Maximum

AlertingNodesNotOnSchedule

值為 1 表示有些任務並未依照排程執行。值為 0 則表示所有提醒任務都正在依照排程執行 (或是沒有提醒任務)。檢查 OpenSearch Service 主控台或提出_nodes/stats請求,以查看是否有任何節點顯示高資源使用量。

相關統計資訊:Maximum

AlertingNodesOnSchedule

值為 1 則表示所有提醒任務都正在依照排程執行 (或是沒有提醒任務)。值為 0 表示有些任務並未依照排程執行。

相關統計資訊:Maximum

AlertingScheduledJobEnabled

值為 1 表示 opensearch.scheduled_jobs.enabled 叢集設定為 true。值為 0 表示為 false,且已停用排程任務。

相關統計資訊:Maximum

異常偵測指標

Amazon Ser OpenSearch vice 提供下列異常偵測指標。

指標 描述
ADPluginUnhealthy

值 1 表示異常偵測外掛程式無法正常運作,原因是大量失敗或它使用的其中一個索引是紅色。值 0 表示外掛程式如預期般運作。

相關統計資訊:Maximum

ADExecuteRequestCount

偵測異常的請求數。

相關統計資料:總和

ADExecuteFailureCount

偵測異常的失敗請求數。

相關統計資料:總和

ADHCExecuteFailureCount

偵測高基數偵測器異常的失敗請求數。

相關統計資料:總和

ADHCExecuteRequestCount

偵測高基數偵測器異常的請求數。

相關統計資料:總和

ADAnomalyResultsIndexStatusIndexExists

值為 1 表示 .opensearch-anomaly-results 別名指向的索引存在。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

ADAnomalyResultsIndexStatus.red

值為 1 表示 .opensearch-anomaly-results 別名指向的索引是紅色。值為 0 則表示它不是紅色。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

ADAnomalyDetectorsIndexStatusIndexExists

值為 1 表示 .opensearch-anomaly-detectors 索引存在。值為 0 則表示不存在。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

ADAnomalyDetectorsIndexStatus.red

值為 1 表示 .opensearch-anomaly-detectors 索引是紅色。值為 0 則表示它不是紅色。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

ADModelsCheckpointIndexStatusIndexExists

值為 1 表示 .opensearch-anomaly-checkpoints 索引存在。值為 0 則表示不存在。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

ADModelsCheckpointIndexStatus.red

值為 1 表示 .opensearch-anomaly-checkpoints 索引是紅色。值為 0 則表示它不是紅色。在您第一次使用異常偵測之前,此值會保持為 0。

相關統計資訊:Maximum

Amazon Ser OpenSearch vice 提供下列非同步搜尋指標。

非同步搜尋協調器節點統計數字 (每個協調器節點)

指標 描述
AsynchronousSearchSubmissionRate

過去一分鐘內提交的非同步搜尋數量。

AsynchronousSearchInitializedRate

過去一分鐘內初始化的非同步搜尋數量。

AsynchronousSearchRunningCurrent

目前正在執行的非同步搜尋數量。

AsynchronousSearchCompletionRate

過去一分鐘內成功完成的非同步搜尋數量。

AsynchronousSearchFailureRate

過去一分鐘內完成和失敗的非同步搜尋數量。

AsynchronousSearchPersistRate

過去一分鐘內持續的非同步搜尋數量。

AsynchronousSearchPersistFailedRate

過去一分鐘內無法持續的非同步搜尋數量。

AsynchronousSearchRejected

自節點啟動時間以來拒絕的非同步搜尋總數。

AsynchronousSearchCancelled

自節點啟動時間以來已取消的非同步搜尋總數。

AsynchronousSearchMaxRunningTime

在最後一分鐘的節點上執行非同步搜尋的最長持續時間。

非同步搜尋叢集統計數字

指標 描述
AsynchronousSearchStoreHealth

最後一分鐘內持續索引中的存放運作狀態 (紅色/非紅色)。

AsynchronousSearchStoreSize

過去一分鐘內所有碎片的系統索引大小。

AsynchronousSearchStoredResponseCount

過去一分鐘內系統索引中存放的回應數量。

採用待命指標的多個可用

Amazon OpenSearch 服務為具備待命功能的異地同步備份提供下列指標。

作用中可用區域中資料節點的節點層級度量

指標 描述
CPUUtilization 叢集中資料節點的 CPU 用量百分比。上限顯示具有最高 CPU 用量的節點。平均值代表叢集中的所有節點。此指標也適用於個別節點。
FreeStorageSpace

叢集中資料節點的可用空間。Sum 會顯示叢集的總可用空間,但您必須保留一分鐘的間隔,才能取得正確的值。MinimumMaximum 分別會顯示具有最少和最多可用空間的節點。此指標也適用於個別節點。OpenSearchClusterBlockException當此量度達到時,服務會擲回一個0。若要恢復,您必須刪除索引、新增更大的執行個體,或為現有執行個體新增 EBS 式儲存。如需進一步了解,請參閱 缺少可用儲存空間

OpenSearchService 主控台會以 GiB 為單位顯示此值。Amazon 主CloudWatch控台會以 MiB 為單位顯示它。

JVMMemoryPressure 用於叢集中所有資料節點的 Java heap 的最大百分比。OpenSearchService 針對 Java 堆積使用執行個體 RAM 的一半,堆積大小最多可達 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM,屆時便能透過新增執行個體進行水平擴展。請參閱 推薦的亞馬遜OpenSearch服務CloudWatch警報
SysMemoryUtilization 已使用執行個體記憶體的百分比。此測量結果的高值是正常的,通常不代表叢集的問題。如需有關潛在效能和穩定性問題的更佳指標,請參閱 JVMMemoryPressure 指標。
IndexingLatency

一個碎片完成一次索引編製操作所需的平均時間 (單位為毫秒)。

IndexingRate ​每分鐘進行的索引操作次數。
SearchLatency

資料節點上的一個碎片完成一次搜尋操作所需的平均時間 (單位為毫秒)。

SearchRate 資料節點上每分鐘對所有碎片發出搜尋請求的總次數。
ThreadpoolSearchQueue 搜尋執行緒集區中的已排入佇列任務數量。如果佇列大小持續高居不下,請考慮擴展您的叢集。搜尋佇列的大小上限為 1,000。
ThreadpoolWriteQueue 寫入執行緒集區中的已排入佇列任務數量。
ThreadpoolSearchRejected

搜尋執行緒集區中的已拒絕任務數量。如果這個數量持續增加,請考慮擴展您的叢集。

ThreadpoolWriteRejected 寫入執行緒集區中的已拒絕任務數量。

作用中可用性區域中叢集層級指標

指標 描述
DataNodes 作用中碎片和待命碎片的總數。
DataNodesShards.active 作用中主要碎片和複本碎片的總數。
DataNodesShards.unassigned

未分配至叢集中節點的碎片數目。

DataNodesShards.initializing 正在初始化的碎片數量。
DataNodesShards.relocating 正在重新放置的碎片數量。

可用區域輪替量度

如果ActiveReads.Availability-Zone = 1,則區域處於作用中狀態。如果ActiveReads.Availability-Zone = 0,則區域處於待命狀態。

時間點量度

亞馬遜OpenSearch服務針對時間點 (PIT) 搜尋提供下列指標。

PIT 協調器節點統計 (每個協調器節點)

指標 描述
CurrentPointInTime 節點中使用中 PIT 搜尋前後關聯的數目。
TotalPointInTime 自節點啟動時間以來已過期的 PIT 搜尋內容的數量。
AvgPointInTimeAliveTime 自節點啟動時間以來 PIT 搜尋上下文的平均活動。
HasActivePointInTime 值 1 表示自節點啟動時間以來,節點上存在使用中 PIT 環境。值為 0 為單位為 0 為單位。
HasUsedPointInTime 值 1 表示自節點啟動時間以來,節點上有過期的 PIT 環境。值為 0 為單位為 0 為單位。

SQL 指標

Amazon Ser OpenSearch vice 提供下列 SQL 支援指標。

指標 描述
SQLFailedRequestCountByCusErr

因用戶端問題而失敗的 _sql API 請求數。例如,請求可能會因為 IndexNotFoundException 而傳回 HTTP 狀態碼 400。

相關統計資料:總和

SQLFailedRequestCountBySysErr

因伺服器問題或功能限制而失敗的 _sql API 請求數。例如,請求可能會因為 VerificationException 而傳回 HTTP 狀態碼 503。

相關統計資料:總和

SQLRequestCount

_sql API 提出的請求數。

相關統計資料:總和

SQLDefaultCursorRequestCount

類似於SQLRequestCount,但只計算分頁請求。

相關統計資料:總和

SQLUnhealthy

值為 1 表示在特定請求的回應中,SQL 外掛程式正在傳回 5xx 回應碼,或是正在將無效的查詢 DSL 傳遞至 OpenSearch。其他請求應會繼續成功。值為 0 表示最近沒有任何失敗。如果您看到值持續為 1,請針對您用戶端向外掛程式提出的請求進行故障診斷。

相關統計資訊:Maximum

k-NN 指標

Amazon Ser OpenSearch vice 包含 k 近鄰 (k-NN) 外掛程式的下列指標。

指標 描述
KNNCacheCapacityReached

是否已達到快取容量的每個節點指標。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:Maximum

KNNCircuitBreakerTriggered

是否觸發斷路器的每個叢集指標。如果任何節點為 KNNCacheCapacityReached 傳回一個值,此值也將傳回 1。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:Maximum

KNNEvictionCount

因記憶體限制或閒置時間而從快取移出的圖形數目的每個節點指標。因索引刪除而發生的明確移出不會計算在內。此指標僅與近似的 K-NN 搜尋相關。

相關統計資料:總和

KNNGraphIndexErrors

將文件的 knn_vector 欄位新增至圖形發生錯誤的請求數的每個節點指標。

相關統計資料:總和

KNNGraphIndexRequests

將文件的 knn_vector 欄位新增至圖形的請求數的每個節點指標。

相關統計資料:總和

KNNGraphMemoryUsage

目前快取大小 (記憶體中所有圖形的總大小) 的每個節點指標 (KB)。此指標僅與近似的 K-NN 搜尋相關。

相關統計資訊:平均數

KNNGraphQueryErrors

產生錯誤之圖形查詢數目的每個節點指標。

相關統計資料:總和

KNNGraphQueryRequests

圖形查詢數目的每個節點指標。

相關統計資料:總和

KNNHitCount

快取命中次數的每個節點指標。當使用者查詢已載入記憶體的圖形時,就會發生快取命中。此指標僅與近似的 K-NN 搜尋相關。

相關統計資料:總和

KNNLoadExceptionCount

嘗試將圖形載入快取時發生例外狀況的次數的每個節點指標。此指標僅與近似的 K-NN 搜尋相關。

相關統計資料:總和

KNNLoadSuccessCount

外掛程式成功將圖形載入快取的次數的每個節點指標。此指標僅與近似的 K-NN 搜尋相關。

相關統計資料:總和

KNNMissCount

快取遺漏次數的每個節點指標。當使用者查詢尚未載入記憶體的圖形時,就會發生快取遺漏。此指標僅與近似的 K-NN 搜尋相關。

相關統計資料:總和

KNNQueryRequests

K-NN 外掛程式接收之查詢請求數目的每個節點指標。

相關統計資料:總和

KNNScriptCompilationErrors

指令碼編譯期間錯誤數目的每個節點指標。此統計數字僅與 K-NN 分數指令碼搜尋相關。

相關統計資料:總和

KNNScriptCompilations

K-NN 指令碼編譯次數的每個節點指標。此值通常應該為 1 或 0,但是如果包含已編譯指令碼的快取已填滿,K-NN 指令碼可能會被重新編譯。此統計數字僅與 K-NN 分數指令碼搜尋相關。

相關統計資料:總和

KNNScriptQueryErrors

指令碼查詢期間錯誤數目的每個節點指標。此統計數字僅與 K-NN 分數指令碼搜尋相關。

相關統計資料:總和

KNNScriptQueryRequests

指令碼查詢總數的每個節點指標。此統計數字僅與 K-NN 分數指令碼搜尋相關。

相關統計資料:總和

KNNTotalLoadTime

K-NN 將圖形載入到快取所需的時間 (以奈秒為單位)。此指標僅與近似的 K-NN 搜尋相關。

相關統計資料:總和

Amazon Ser OpenSearch vice 提供下列跨叢集搜尋指標。

來源網域指標

指標 維度 描述
CrossClusterOutboundConnections

ConnectionId

連線節點數。如果回應包含一或多個略過的網域,請使用此指標以追蹤任何運作狀態不良的連線。如果這個數字掉到 0,則表示連線運作狀態不良。

CrossClusterOutboundRequests

ConnectionId

傳送至目的地網域的搜尋請求數。用來檢查跨叢集搜尋請求的負載是否佔用網域,將此指標中的任何尖峰與任何 JVM/CPU 尖峰相互關聯。

目的地網域指標

指標 維度 描述
CrossClusterInboundRequests

ConnectionId

從來源網域收到的傳入連線請求數。

在您意外失去連接的情況下添加CloudWatch警報。如需建立警示的步驟,請參閱根據靜態臨界值建立CloudWatch警示

跨叢集複寫指標

Amazon Ser OpenSearch vice 提供下列跨叢集複寫指標。

指標 描述
ReplicationRate

每秒平均複寫操作速率。此指標類似於 IndexingRate 指標。

LeaderCheckPoint

對於特定連線,為所有複寫索引中領導檢查點值的總和。您可以使用此指標來測量複寫延遲。

FollowerCheckPoint

對於特定連線,為所有複寫索引中追蹤檢查點值的總和。您可以使用此指標來測量複寫延遲。

ReplicationNumSyncingIndices

具有複寫狀態 SYNCING 的索引數目。

ReplicationNumBootstrappingIndices

具有複寫狀態 BOOTSTRAPPING 的索引數目。

ReplicationNumPausedIndices

具有複寫狀態 PAUSED 的索引數目。

ReplicationNumFailedIndices

具有複寫狀態 FAILED 的索引數目。

AutoFollowNumSuccessStartReplication

針對特定連線,複寫規則成功建立的追蹤索引數目。

AutoFollowNumFailedStartReplication

當有相符模式時,複寫規則無法建立的追蹤索引數目。此問題可能是因為遠端叢集上的網路問題或安全性問題 (也就是說,關聯的角色沒有啟動複寫的許可) 所導致。

AutoFollowLeaderCallFailure

從追蹤索引到領導索引以選取新資料的査詢是否失敗。值 1 意味著在最近一分鐘有 1 個或多個失敗的呼叫。

Learning to Rank 指標

Amazon Ser OpenSearch vice 提供下列 L earning to Rank 的指標。

指標 描述
LTRRequestTotalCount

排名請求的總數。

LTRRequestErrorCount

未成功請求的總數。

LTRStatus.red

追蹤需要執行外掛程式的其中一個索引是否為紅色。

LTRMemoryUsage

外掛程式使用的總記憶體。

LTRFeatureMemoryUsageInBytes

Learning to Rank 功能欄位使用的記憶體容量 (以位元組為單位)。

LTRFeaturesetMemoryUsageInBytes

所有 Learning to Rank 功能集使用的記憶體容量 (以位元組為單位)。

LTRModelMemoryUsageInBytes

所有 Learning to Rank 模型使用的記憶體容量 (以位元組為單位)。

Piped Processing Language 指標

Amazon Ser OpenSearch vice 提供下列 Piped Language Langu age 指標。

指標 描述
PPLFailedRequestCountByCusErr

因用戶端問題而失敗的 _ppl API 請求數。例如,請求可能會因為 IndexNotFoundException 而傳回 HTTP 狀態碼 400。

PPLFailedRequestCountBySysErr

因伺服器問題或功能限制而失敗的 _ppl API 請求數。例如,請求可能會因為 VerificationException 而傳回 HTTP 狀態碼 503。

PPLRequestCount

_ppl API 提出的請求數。