應監控哪些指標? - Amazon ElastiCache (雷迪OSS斯)

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

應監控哪些指標?

以下 CloudWatch 指標提供了對 ElastiCache 性能的良好洞察力。在大多數情況下,我們建議您為這些測量結果設定 CloudWatch 警示,以便在發生效能問題之前採取更正動作。

CPUUtilization

此為主機層級指標,以百分比報告。如需詳細資訊,請參閱 主機層級指標

對於具有 2 個或以下 vCPU 的小型節點類型,請使用 CPUUtilization 指標來監控工作負載。

一般而言,我們建議您將閾值設為您可用 CPU 的 90%。因為 Redis OSS 是單執行緒,所以實際的臨界值應該以節點總容量的一小部分來計算。例如,假設您使用擁有二核心的節點類型。在此情況下,CPUUtilization 的閾值將為 90/2 或 45%。

您將需要根據您所使用快取節點中的核心數,來判斷您自己的閾值。若您超過此閾值,並且您的主要工作負載是來自讀取請求,請透過新增僅供讀取複本來向外擴展您的快取叢集。若主要工作負載是來自寫入請求,取決於您的叢集組態,我們建議您:

  • Redis OSS (叢集模式已停用) 叢集:使用較大的快取執行個體類型進行擴展。

  • Redis OSS (已啟用叢集模式) 叢集:新增更多碎片,將寫入工作負載分散到更多主要節點。

提示

Redis OSS 使用者可能無法使用主機層級量度CPUUtilization,而是可以使用 Redis OSS 量度EngineCPUUtilization,該指標會報告 Redis OSS 引擎核心的使用量百分比。若要查看節點上是否提供此指標,以及如需詳細資訊,請參閱 Redis OSS 的量度

對於具有 4vCPU 或更多個的較大節點類型,您可能需要使用指標,該EngineCPUUtilization指標會報告 Redis OSS 引擎核心上的使用百分比。若要查看節點上是否提供此指標,以及如需詳細資訊,請參閱 Redis OSS 的量度

EngineCPUUtilization

對於具有 4vCPU 或更多個的較大節點類型,您可能需要使用指標,該EngineCPUUtilization指標會報告 Redis OSS 引擎核心上的使用百分比。若要查看節點上是否提供此指標,以及如需詳細資訊,請參閱 Redis OSS 的量度

如需詳細資訊,請參閱使用 Amazon 監控 Amazon ElastiCache (Redis OSS) 的最佳實務中心部分。 CloudWatch

SwapUsage

此為主機層級指標,以位元組報告。如需詳細資訊,請參閱 主機層級指標

FreeableMemory CloudWatch 量接近 0 (即低於 100MB) 或SwapUsage量度大於量度,表示節點處於記憶體壓力之下。FreeableMemory如果發生此情況,請見下列主題:

移出

此為快取引擎指標。建議您根據應用程式需求,親自判斷此指標的警示閾值。

CurrConnections

此為快取引擎指標。建議您根據應用程式需求,親自判斷此指標的警示閾值。

越來越多的CurrConnections可能表示您的應用程式發生問題;您必須調查應用程式行為以解決此問題。

如需詳細資訊,請參閱使用 Amazon 監控最佳實務 ElastiCache (Redis OSS) 中的「連線」一節。 CloudWatch

記憶體

記憶體是 Redis 的 OSS 的核心方面。為避免資料遺失以及因應資料集的未來成長而調整,了解叢集的記憶體使用率是必要的。有關節點記憶體使用率的統計資料,請參閱 Redis OSS INFO 命令的記憶體區段。

如需詳細資訊,請參閱使用 Amazon 監控 Amazon ElastiCache (Redis OSS) 的最佳實務中的記憶體一節。 CloudWatch

網路

叢集網路頻寬容量的決定因素之一,是您選取的節點類型。如需節點網路容量的詳細資訊,請參閱 Amazon ElastiCache 定價

如需詳細資訊,請參閱使用 Amazon 監控 Amazon ElastiCache (Redis OSS) 的最佳實務網路一節。 CloudWatch

Latency (延遲)

您可以使用一組指標來測量命令的延遲,這些指 CloudWatch 標可為每個資料結構提供彙總延遲。這些延遲量度是使用 Redis OSS INFO 命令的commandstats統計資料來計算的。

如需詳細資訊,請參閱使用 Amazon 監控 Amazon ElastiCache (Redis OSS) 的最佳實務中的延遲部分。 CloudWatch

複寫

遭複寫的資料量可透過 ReplicationBytes 指標顯示。雖然此指標代表複寫群組上的寫入負載,但並沒有提供複寫運作狀態的深入分析。針對這個用途,您可以使用 ReplicationLag 指標。

如需詳細資訊,請參閱使用 Amazon 監控 Amazon ElastiCache (Redis OSS) 的最佳實務中的複寫部分。 CloudWatch

流量管理

ElastiCache (Redis OSS) 會在傳送至節點的傳入命令超過 Redis OSS 所能處理的數量時,自動管理節點的流量。這樣做是為了讓引擎保持最佳運作狀態和穩定性。

若在節點上主動管理流量,則指標 TrafficManagementActive 會發出資料點 1。這表示節點的規模可能不足以因應所提供的工作負載。如果此指標長時間維持 1,請評估叢集,以決定是否需要縱向擴展或橫向擴展。

如需詳細資訊,請參閱指標頁面上的 TrafficManagementActive 指標。