本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
指標參考
下列指標描述 MSK Replicator 的效能或連線指標。
AutherRoR 指標不涵蓋主題層級的身分驗證錯誤。若要監控 MSK Replicator 的主題層級驗證錯誤,請監控 Replicator 的 ReplicationLatency 指標和來源叢集的主題層級指標 MessagesInPerSec。如果主題的 ReplicationLatency 降至 0,但主題仍然有產生資料,則表示複寫器有主題的身分驗證問題。檢查複寫器的服務執行 IAM 角色是否具有足夠的許可來存取主題。
| 指標類型 | 指標 | Description | 維度 | 單位 | 原始指標精細程度 | 原始指標彙總統計資料 |
|---|---|---|---|---|---|---|
| 效能 | ReplicationLatency | 將記錄從來源複寫至目標叢集所需的時間;從在來源產生記錄到複寫至目標之間的持續時間。如果 ReplicationLatency 增加,請檢查叢集是否具有足夠的分區來支援複寫。當分區計數過低而無法達到高輸送量時,可能會發生較長的複寫延遲。 | ReplicatorName | 毫秒 | 分割區 | 上限 |
| ReplicatorName、主題 | 毫秒 | 分割區 | 上限 | |||
| 效能 | MessageLag | 監控 MSK Replicator 和來源叢集之間的同步。MessageLag 指出產生至來源叢集的訊息與複寫器耗用的訊息之間的延遲。這不是來源和目標叢集之間的延遲。即使來源叢集無法使用/中斷,複寫器仍會完成將其消耗的訊息寫入目標叢集。中斷後,MessageLag 會顯示增加,這表示複寫器落後於來源叢集的訊息數量,您可以一直監控這個數量,直到訊息數量為 0,表示複寫器已追上來源叢集。 | ReplicatorName | 計數 | 分割區 | 總和 |
| ReplicatorName、主題 | 計數 | 分割區 | 總和 | |||
| 效能 | ReplicatorBytesInPerSec | 複寫器每秒處理的平均位元組數。MSK Replicator 處理的資料包含 MSK Replicator 收到的所有資料,其中包括複寫至目標叢集的資料,以及 MSK Replicator 篩選的資料 (僅當您的複寫器設定了相同的主題名稱組態時),以防止資料複製回其源自的相同主題。如果您的複寫器設定為「字首」主題名稱組態,則 ReplicatorBytesInPerSec和 ReplicatorThroughput指標將具有相同的值,因為 MSK 複寫器不會篩選任何資料。 |
ReplicatorName | BytesPerSecond | ReplicatorName | 總和 |
| 效能 | ReplicatorThroughput | 每秒平均複寫的位元組數量。如果某個主題的 ReplicatorThroughput 下降,請檢查 KafkaClusterPingSuccessCount 和 AuthError 指標,以確保複寫器可以與叢集通訊,然後檢查叢集指標以確保叢集並未關閉。 | ReplicatorName | BytesPerSecond | 分割區 | 總和 |
| ReplicatorName、主題 | BytesPerSecond | 分割區 | 總和 | |||
| 效能 | ReplicationFailures | 複寫失敗次數。對於運作狀態良好的複寫,應為 0。非零可能表示訊息大小限制、時間戳記違規或記錄批次大小問題。 | ReplicatorName | 計數 | 總和 | |
| 偵錯 | AuthError | 每秒身分驗證失敗的連線數量。如果此指標超過 0,您可以檢查複寫器的服務執行角色政策是否有效,並確定未針對叢集設定拒絕許可。根據 clusterAlias 維度,您可以識別來源或目標叢集是否遇到身分驗證錯誤。 | ReplicatorName、ClusterAlias | 計數 | 工作程序 | 總和 |
| 偵錯 | ThrottleTime | 叢集代理程式限流請求的平均時間 (毫秒)。設定限流以避免 MSK Replicator 使叢集不堪負荷。如果此指標為 0,而 replicationLatency 不高,且 replicatorThroughput 符合預期,則限流會如預期般運作。如果此指標大於 0,您可以相應地調整限流。 | ReplicatorName、ClusterAlias | 毫秒 | 工作程序 | 上限 |
| 偵錯 | ReplicatorFailure | 複寫器發生的失敗次數。 | ReplicatorName | 計數 | 總和 | |
| 偵錯 | KafkaClusterPingSuccessCount | 指出複寫器與 kafka 叢集之連線的運作狀態。如果此值為 1,表示連線的運作狀態良好。如果此值為 0 或沒有資料點,表示連線的運作狀態不佳。如果此值為 0,請檢查 Kafka 叢集的網路或 IAM 許可設定。根據 ClusterAlias 維度,您可以識別此指標是用於來源叢集還是目標叢集。 |
ReplicatorName、ClusterAlias | 計數 | 總和 | |
| 消費者群組 | ConsumerGroupCount | 要同步的取用者群組數量。驗證是否符合預期的取用者群組。 | ReplicatorName | 計數 | 總和 | |
| 消費者群組 | ConsumerGroupOffsetSyncFailure | 取用者群組位移同步失敗的數量。應為 0。如果大於 0,請檢查取用者群組是否作用中並驗證許可。 | ReplicatorName | 計數 | 總和 | |
| 消費者群組 | OffsetLag (MSK 叢集) | MSK 目標叢集上的分割區層級取用者延遲。與 OffsetLag (非 MSK 叢集) 進行比較,以確認延遲相等。 | 分割區 | 計數 | 總和 | |
| 消費者群組 | OffsetLag (非 MSK 叢集) | 自我管理 (非 MSK) 來源叢集上的分割區層級取用者延遲。與 OffsetLag (MSK 叢集) 比較。 | 分割區 | 計數 | 總和 |