建議的警示 - Amazon CloudWatch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建議的警示

以下各節列出了我們建議您設定最佳實務警示的指標。針對每項指標,還會顯示維度、警示目的、建議閾值、閾值對正,以及期間長度和資料點數目。

某些指標可能會在清單中出現兩次。若針對指標的不同維度組合建議不同的警示,就會發生這種情況。

警示資料點是指將警示傳送至 ALARM 狀態時必須違反的資料點數目。評估期是指評估警示時要考慮的期間數。如果這些數字相同,則僅當該連續週期數的值超出閾值時,警示才會進入 ALARM 狀態。如果警示資料點數目低於評估期數目,則為「M 超出 n」警示,並且如果在資料點設定的任何評估期內至少違反警示資料點的資料點數目,則警示會進入 ALARM 狀態。如需詳細資訊,請參閱 評估警示

Amazon API Gateway

4XXError

尺寸:ApiName, 舞台

警示描述:此警示可偵測用戶端的高速率錯誤。這可能表示授權或用戶端請求參數中存在問題。這也可能意味著資源已移除,或用戶端正在請求不存在的資源。請考慮啟用 CloudWatch 記錄檔,並檢查是否有任何可能造成 4XX 錯誤的錯誤。此外,請考慮啟用詳細 CloudWatch 度量來檢視每個資源和方法的此量度,並縮小錯誤來源的範圍。錯誤也可能是由於超過設定的限流限制所引起。如果回應和日誌均報告較高且非預期速率的 429 錯誤,請遵循本指南以對此問題進行故障診斷。

目的:此警示可偵測 API Gateway 請求中用戶端的高速率錯誤。

統計資料:平均值

建議的閾值:0.05

閾值對正:建議的閾值會在請求總計的 5% 以上出現 4XX 錯誤時偵測到。但是,您可調整閾值以適應請求的流量以及可接受的錯誤率。您還可分析歷史資料,以確定應用程式工作負載可接受的錯誤率,然後相應地調整閾值。經常發生的 4XX 錯誤需要觸發警示。但是,將閾值設定為極低的值可能會導致警示過於敏感。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

5XXError

尺寸:ApiName, 舞台

警示描述:此警示有助於偵測用戶端的高速率錯誤。這可能表示 API 後端、網路或 API 閘道與後端 API 之間的整合存在問題。本文件可協助您對 5xx 錯誤的原因進行故障診斷。

目的:此警示可偵測 API Gateway 請求中伺服器端的高速率錯誤。

統計資料:平均值

建議的閾值:0.05

閾值對正:建議的閾值會在請求總計的 5% 以上出現 5XX 錯誤時偵測到。但是,您可調整閾值以符合請求的流量以及可接受的錯誤率。您還可以分析歷史資料,以確定應用程式工作負載可接受的錯誤率,然後相應地調整閾值。經常發生的 5XX 錯誤需要觸發警示。但是,將閾值設定為極低的值可能會導致警示過於敏感。

期間:60

警示資料點數目:3

評估期:3

比較運算子:GREATER_THAN_THRESHOLD

Count (計數)

尺寸:ApiName, 舞台

警示描述:此警示有助於偵測低流量 REST API 階段。這可能是應用程式呼叫 API (例如使用不正確的端點) 發生問題的指示器。還可能是 API 設定或許可問題的指示器,讓用戶端無法連線。

目的:此警示可偵測非預期低流量 REST API 階段。如果您的 API 在正常情況下接收可預測且一致的請求數目,則建議您建立此警示。如果您啟用了詳細的 CloudWatch 指標,並且可以預測每個方法和資源的正常流量,我們建議您建立替代警示,以更精細地監控每個資源和方法的流量下降。建議不要將此警示用於預期並非具有持續且一致流量的 API。

統計:SampleCount

建議的閾值:視乎您的情況而定

閾值對正:根據歷史資料分析來設定閾值,以確定 API 的預期基準請求計數為何。將閾值設定為極高的值,可能會導致警示在正常和預期低流量期間過於敏感。相反,將其設定為極低的值,可能會導致警示錯過流量中較小的異常下降。

期間:60

警示資料點數目:10

評估期:10

比較運算子:LESS_THAN_THRESHOLD

Count (計數)

維度:ApiName、階段、資源、方法

警示描述:此警示有助於偵測階段中 REST API 資源和方法的低流量錯誤。這可能表示應用程式呼叫 API (例如使用不正確的端點) 發生問題。還可能是 API 設定或許可問題的指示器,讓用戶端無法連線。

目的:此警示可偵測階段中 REST API 資源和方法的非預期低流量錯誤。如果您的 API 在正常情況下接收可預測且一致的請求數目,則建議您建立此警示。建議不要將此警示用於預期並非具有持續且一致流量的 API。

統計:SampleCount

建議的閾值:視乎您的情況而定

閾值對正:根據歷史資料分析來設定閾值,以確定 API 的預期基準請求計數為何。將閾值設定為極高的值,可能會導致警示在正常和預期低流量期間過於敏感。相反,將其設定為極低的值,可能會導致警示錯過流量中較小的異常下降。

期間:60

警示資料點數目:10

評估期:10

比較運算子:LESS_THAN_THRESHOLD

Count (計數)

尺寸:ApiId, 舞台

警示描述:此警示有助於偵測低流量 HTTP API 階段。這可能表示應用程式呼叫 API (例如使用不正確的端點) 發生問題。還可能是 API 設定或許可問題的指示器,讓用戶端無法連線。

目的:此警示可偵測非預期低流量 HTTP API 階段。如果您的 API 在正常情況下接收可預測且一致的請求數目,則建議您建立此警示。如果您啟用了詳細的 CloudWatch 指標,並且可以預測每條路由的正常流量,我們建議您為此創建替代警報,以便對每個路由的流量下降進行更精細的監控。建議不要將此警示用於預期並非具有持續且一致流量的 API。

統計:SampleCount

建議的閾值:視乎您的情況而定

閾值對正:根據歷史資料分析來設定閾值,以確定 API 的預期基準請求計數為何。將閾值設定為極高的值,可能會導致警示在正常和預期低流量期間過於敏感。相反,將其設定為極低的值,可能會導致警示錯過流量中較小的異常下降。

期間:60

警示資料點數目:10

評估期:10

比較運算子:LESS_THAN_THRESHOLD

Count (計數)

維度:ApiId、階段、資源、方法

警示描述:此警示有助於偵測階段中 HTTP API 路由的低流量錯誤。這可能表示應用程式呼叫 API (例如使用不正確的端點) 發生問題。還可能表示 API 設定或許可問題,使用戶端無法連線。

目的:此警示可偵測階段中 HTTP API 路由的非預期低流量錯誤。如果您的 API 在正常情況下接收可預測且一致的請求數目,則建議您建立此警示。建議不要將此警示用於預期並非具有持續且一致流量的 API。

統計:SampleCount

建議的閾值:視乎您的情況而定

閾值對正:根據歷史資料分析來設定閾值,以確定 API 的預期基準請求計數為何。將閾值設定為極高的值,可能會導致警示在正常和預期低流量期間過於敏感。相反,將其設定為極低的值,可能會導致警示錯過流量中較小的異常下降。

期間:60

警示資料點數目:10

評估期:10

比較運算子:LESS_THAN_THRESHOLD

IntegrationLatency

尺寸:ApiId, 舞台

警示描述:此警示有助於偵測階段中 API 請求是否存在較高的整合延遲。您可將 IntegrationLatency 指標值與後端的對應延遲指標 (例如 Lambda 整合的 Duration 指標) 建立關聯。這可協助您確定 API 後端是否因效能問題而需要更多時間來處理用戶端的請求,或是初始化或冷啟動是否存在某些其他額外負荷。此外,請考慮為 API 啟用 CloudWatch 日誌,並檢查日誌中是否有任何可能導致高延遲問題的錯誤。此外,請考慮啟用詳細 CloudWatch 指標以取得每個路由的此指標檢視,以協助您縮小整合延遲的來源範圍。

目的:此警示可偵測階段中的 API Gateway 請求何時具有較高的整合延遲。我們建議您針對 WebSocket API 使用此警示,而且我們認為 HTTP API 是選用的,因為這些警示已針對「延遲」度量具有個別的警示建議。如果您已啟用詳細 CloudWatch 指標,而且每個路由都有不同的整合延遲效能需求,建議您建立替代警示,以便對每個路由的整合延遲進行更精細的監控。

統計資料:p90

建議的閾值:2000.0

閾值對正:建議的閾值不適用於所有 API 工作負載。但是,您可將其用做閾值的起點。然後,您可根據 API 的工作負載和可接受的延遲、效能和 SLA 需求,選擇不同的閾值。如果一般情況下可接受 API 具有較高的延遲,請設定較高的閾值以使警示不太敏感。但是,如果 API 預期會提供近乎即時的回應,請設定較低的閾值。您還可分析歷史資料,以確定應用程式工作負載的預期基準延遲,然後用於相應地調整閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

IntegrationLatency

尺寸:ApiId,舞台,路線

警示說明:此警示有助於偵測階段中路由的 WebSocket API 要求是否有很高的整合延遲。您可將 IntegrationLatency 指標值與後端的對應延遲指標 (例如 Lambda 整合的 Duration 指標) 建立關聯。這可協助您確定 API 後端是否因效能問題而需要更多時間來處理用戶端的請求,或是初始化或冷啟動是否有其他額外負荷。此外,請考慮為 API 啟用 CloudWatch 日誌,並檢查日誌中是否有任何可能導致高延遲問題的錯誤。

目的:此警示可偵測階段中路由的 API Gateway 請求何時具有較高的整合延遲。

統計資料:p90

建議的閾值:2000.0

閾值對正:建議的閾值不適用於所有 API 工作負載。但是,您可將其用做閾值的起點。然後,您可根據 API 的工作負載和可接受的延遲、效能和 SLA 需求,選擇不同的閾值。如果一般情況下可接受 API 具有較高的延遲,您可設定較高的閾值以使警示不太敏感。但是,如果 API 預期會提供近乎即時的回應,請設定較低的閾值。您還可分析歷史資料,以確定應用程式工作負載的預期基準延遲,然後用於相應地調整閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

Latency (延遲)

尺寸:ApiName, 舞台

警示描述:此警示會偵測階段中的高延遲錯誤。尋找 IntegrationLatency 指標值以檢查 API 後端延遲。如果兩個指標大多情況下是一致的,則 API 後端是較高延遲的來源,您應在此調查是否存在問題。也請考慮啟用 CloudWatch 記錄檔,並檢查是否有可能造成高延遲的錯誤。此外,請考慮啟用詳細 CloudWatch 指標以檢視每個資源和方法的量度,並縮小延遲來源的範圍。如果適用,請參閱 Lambda 故障診斷邊緣優化的 API 端點故障診斷指南。

目的:此警示可偵測階段中的 API Gateway 請求何時具有較高的延遲。如果您已啟用詳細 CloudWatch 指標,而且每個方法和資源的延遲效能需求都有不同,建議您建立替代警示,以更精細地監控每個資源和方法的延遲。

統計資料:p90

建議的閾值:2500.0

閾值對正:建議的閾值不適用於所有 API 工作負載。但是,您可將其用做閾值的起點。然後,您可根據 API 的工作負載和可接受的延遲、效能和 SLA 需求,選擇不同的閾值。如果一般情況下可接受 API 具有較高的延遲,您可設定較高的閾值以使警示不太敏感。但是,如果 API 預期會提供近乎即時的回應,請設定較低的閾值。您還可分析歷史資料,以確定應用程式工作負載的預期基準延遲,然後相應地調整閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

Latency (延遲)

維度:ApiName、階段、資源、方法

警示說明:此警示可偵測階段中資源和方法的高延遲錯誤。尋找 IntegrationLatency 指標值以檢查 API 後端延遲。如果兩個指標大多情況下是一致的,則 API 後端是較高延遲的來源,您應在此調查是否存在效能問題。也請考慮啟用 CloudWatch 記錄檔,並檢查是否有任何可能造成高延遲的錯誤。如果適用,您還可參閱 Lambda 故障診斷邊緣優化的 API 端點故障診斷指南。

目的:此警示可偵測階段中資源和方法的 API Gateway 請求何時具有較高的延遲。

統計資料:p90

建議的閾值:2500.0

閾值對正:建議的閾值不適用於所有 API 工作負載。但是,您可將其用做閾值的起點。然後,您可根據 API 的工作負載和可接受的延遲、效能和 SLA 需求,選擇不同的閾值。如果一般情況下可接受 API 具有較高的延遲,您可設定較高的閾值以使警示不太敏感。但是,如果 API 預期會提供近乎即時的回應,請設定較低的閾值。您還可分析歷史資料,以確定應用程式工作負載的預期基準延遲,然後相應地調整閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

Latency (延遲)

尺寸:ApiId, 舞台

警示描述:此警示會偵測階段中的高延遲錯誤。尋找 IntegrationLatency 指標值以檢查 API 後端延遲。如果兩個指標大多情況下是一致的,則 API 後端是較高延遲的來源,您應在此調查是否存在效能問題。也請考慮啟用 CloudWatch 記錄檔,並檢查是否有任何可能造成高延遲的錯誤。此外,請考慮啟用詳細 CloudWatch 指標以檢視每個路由的指標,並縮小延遲來源的範圍。如果適用,您還可參閱 Lambda 整合故障診斷指南

目的:此警示可偵測階段中的 API Gateway 請求何時具有較高的延遲。如果您已啟用詳細的 CloudWatch 指標,而且每個路由都有不同的延遲效能需求,建議您建立替代警示,以便對每個路由的延遲進行更精細的監控。

統計資料:p90

建議的閾值:2500.0

閾值對正:建議的閾值不適用於所有 API 工作負載。但其可用做閾值的起點。然後,您可根據 API 的工作負載和可接受的延遲、效能和 SLA 需求,選擇不同的閾值。如果一般情況下可接受 API 具有較高的延遲,則您可設定較高的閾值以讓其不太敏感。但如果 API 預期會提供近乎即時的回應,則設定較低的閾值。您還可分析歷史資料,以確定應用程式工作負載的預期基準延遲,然後相應地調整閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

Latency (延遲)

維度:ApiId、階段、資源、方法

警示說明:此警示可偵測階段中路由的高延遲錯誤。尋找 IntegrationLatency 指標值以檢查 API 後端延遲。如果兩個指標大多情況下是一致的,則 API 後端是較高延遲的來源,並且應調查是否存在效能問題。也請考慮啟用 CloudWatch 記錄檔,並檢查是否有任何可能造成高延遲的錯誤。如果適用,您還可參閱 Lambda 整合故障診斷指南

目的:此警示用於偵測階段中路由的 API Gateway 請求何時具有較高的延遲。

統計資料:p90

建議的閾值:2500.0

閾值對正:建議的閾值不適用於所有 API 工作負載。但其可用做閾值的起點。然後,您可根據 API 的工作負載和可接受的延遲、效能和 SLA 需求,選擇不同的閾值。如果一般情況下可接受 API 具有較高的延遲,您可設定較高的閾值以使警示不太敏感。但是,如果 API 預期會提供近乎即時的回應,請設定較低的閾值。您還可分析歷史資料,以確定應用程式工作負載的預期基準延遲,然後相應地調整閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

4xx

尺寸:ApiId, 舞台

警示描述:此警示可偵測用戶端的高速率錯誤。這可能表示授權或用戶端請求參數中存在問題。這也可能意味著路由已移除,或用戶端正在請求 API 中不存在的資源。請考慮啟用 CloudWatch 記錄檔,並檢查是否有任何可能造成 4xx 錯誤的錯誤。此外,請考慮啟用詳細 CloudWatch 指標來檢視每個路由的量度,以協助您縮小錯誤來源的範圍。錯誤也可能是由於超過設定的限流限制所引起。如果回應和日誌均報告較高且非預期速率的 429 錯誤,請遵循本指南以對此問題進行故障診斷。

目的:此警示可偵測 API Gateway 請求中用戶端的高速率錯誤。

統計資料:平均值

建議的閾值:0.05

閾值對正:建議的閾值會在請求總計的 5% 以上出現 4xx 錯誤時偵測到。但是,您可調整閾值以適應請求的流量以及可接受的錯誤率。您還可分析歷史資料,以確定應用程式工作負載可接受的錯誤率,然後相應地調整閾值。經常發生的 4xx 錯誤需要觸發警示。但是,將閾值設定為極低的值可能會導致警示過於敏感。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

5xx

尺寸:ApiId, 舞台

警示描述:此警示有助於偵測用戶端的高速率錯誤。這可能表示 API 後端、網路或 API 閘道與後端 API 之間的整合存在問題。本文件可協助您對 5xx 錯誤的原因進行故障診斷。

目的:此警示可偵測 API Gateway 請求中伺服器端的高速率錯誤。

統計資料:平均值

建議的閾值:0.05

閾值對正:建議的閾值會在請求總數的 5% 以上出現 5xx 錯誤時偵測到。但是,您可調整閾值以適應請求的流量以及可接受的錯誤率。您還可分析歷史資料,以確定應用程式工作負載可接受的錯誤率,然後您可相應地調整閾值。經常發生的 5xx 錯誤需要觸發警示。但是,將閾值設定為極低的值可能會導致警示過於敏感。

期間:60

警示資料點數目:3

評估期:3

比較運算子:GREATER_THAN_THRESHOLD

MessageCount

尺寸:ApiId, 舞台

警報說明:此警報有助於檢測 WebSocket API 階段的低流量。這可能表示用戶端呼叫 API 時發生問題,例如使用不正確的端點,或是後端向用戶端傳送訊息時發生問題。還可能表示 API 設定或許可問題,使用戶端無法連線。

意圖:此警報可以檢測 WebSocket API 階段的意外低流量。如果您的 API 在正常情況下接收和傳送可預測且一致的訊息數目,建議您建立此警示。如果您啟用了詳細的 CloudWatch 指標,並且可以預測每條路由的正常流量,則最好為此路由創建替代警報,以便對每條路線的流量下降進行更精細的監控。建議不要將此警示用於預期並非具有持續且一致流量的 API。

統計:SampleCount

建議的閾值:視乎您的情況而定

閾值對正:根據歷史資料分析來設定閾值,以確定 API 的預期基準訊息計數為何。將閾值設定為極高的值,可能會導致警示在正常和預期低流量期間過於敏感。相反,將其設定為極低的值,可能會導致警示錯過流量中較小的異常下降。

期間:60

警示資料點數目:10

評估期:10

比較運算子:LESS_THAN_THRESHOLD

MessageCount

尺寸:ApiId,舞台,路線

警示說明:此警示有助於偵測階段中 WebSocket API 路由的低流量。這可能表示用戶端呼叫 API 時發生問題,例如使用不正確的端點,或是後端向用戶端傳送訊息時發生問題。還可能表示 API 設定或許可問題,使用戶端無法連線。

意圖:此警示可以偵測階段中 WebSocket API 路由的意外低流量。如果您的 API 在正常情況下接收和傳送可預測且一致的訊息數目,建議您建立此警示。建議不要將此警示用於預期並非具有持續且一致流量的 API。

統計:SampleCount

建議的閾值:視乎您的情況而定

閾值對正:根據歷史資料分析來設定閾值,以確定 API 的預期基準訊息計數為何。將閾值設定為極高的值,可能會導致警示在正常和預期低流量期間過於敏感。相反,將其設定為極低的值,可能會導致警示錯過流量中較小的異常下降。

期間:60

警示資料點數目:10

評估期:10

比較運算子:LESS_THAN_THRESHOLD

ClientError

尺寸:ApiId, 舞台

警示描述:此警示可偵測用戶端的高速率錯誤。這可能表示授權或訊息參數中存在問題。這也可能意味著路由已移除,或用戶端正在請求 API 中不存在的資源。請考慮啟用 CloudWatch 記錄檔,並檢查是否有任何可能造成 4xx 錯誤的錯誤。此外,請考慮啟用詳細 CloudWatch 指標來檢視每個路由的量度,以協助您縮小錯誤來源的範圍。錯誤也可能是由於超過設定的限流限制所引起。如果回應和日誌均報告較高且非預期速率的 429 錯誤,請遵循本指南以對此問題進行故障診斷。

意圖:此警示可以偵測 WebSocket API Gateway 訊息的用戶端錯誤的高速率。

統計資料:平均值

建議的閾值:0.05

閾值對正:建議的閾值會在請求總計的 5% 以上出現 4xx 錯誤時偵測到。您可調整閾值以適應請求的流量,以及調整為可接受的錯誤率。您還可分析歷史資料,以確定應用程式工作負載可接受的錯誤率,然後相應地調整閾值。經常發生的 4xx 錯誤需要觸發警示。但是,將閾值設定為極低的值可能會導致警示過於敏感。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

ExecutionError

尺寸:ApiId, 舞台

警示描述:此警示有助於偵測執行的高速率錯誤。這可能是由於您的整合發生 5xx 錯誤、許可問題或其他阻止成功調用整合的因素導致,例如限流或刪除整合。考慮為 API 啟用 CloudWatch 日誌,並檢查日誌的類型和錯誤原因。此外,請考慮啟用詳細 CloudWatch 指標,以取得每個路由的此指標檢視,以協助您縮小錯誤的來源範圍。本文件可協助您對任何連線錯誤的原因進行故障診斷。

意圖:此警示可偵測 WebSocket API Gateway 訊息的高速執行錯誤。

統計資料:平均值

建議的閾值:0.05

閾值對正:建議的閾值會在請求總計的 5% 以上出現執行錯誤時偵測到。您可調整閾值以適應請求的流量,以及調整為可接受的錯誤率。您可分析歷史資料,以確定應用程式工作負載可接受的錯誤率,然後相應地調整閾值。經常發生的執行錯誤需要觸發警示。但是,將閾值設定為極低的值可能會導致警示過於敏感。

期間:60

警示資料點數目:3

評估期:3

比較運算子:GREATER_THAN_THRESHOLD

Amazon EC2 Auto Scaling

GroupInServiceCapacity

尺寸:AutoScalingGroupName

警示描述:此警示有助於偵測群組中的容量何時低於工作負載所需的容量。若要進行故障診斷,請檢查擴展活動是否存在啟動失敗,並確認所需的容量組態正確無誤。

目的:此警示可偵測由於啟動失敗或暫停啟動,Auto Scaling 群組中的低可用性問題。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:閾值應為執行工作負載所需的最小容量。在大多數情況下,您可以將其設定為符合 GroupDesiredCapacity 量度。

期間:60

警示資料點數目:10

評估期:10

比較運算子:LESS_THAN_THRESHOLD

Amazon CloudFront

5 xxErrorRate

尺寸:DistributionId,區域 = 全局

警示說明:此警示會監控來自原始伺服器的 5xx 錯誤回應百分比,以協助您偵測 CloudFront 服務是否有問題。如需可協助您了解伺服器問題的相關資訊,請參閱對原始伺服器的錯誤回應進行故障診斷。此外,開啟額外指標,以取得詳細的錯誤指標。

意圖:此警示用於偵測來自原始伺服器提供要求的問題,或與原始伺服器之間 CloudFront 的通訊問題。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:此警示的建議閾值很大程度上取決於 5xx 回應的容錯值。您可分析歷史資料和趨勢,然後相應地設定閾值。由於 5xx 錯誤可能是由於暫時性問題引起,因此建議您將閾值設定為大於 0 的值,以便警示不會過於敏感。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

OriginLatency

尺寸:DistributionId,區域 = 全局

警示描述:警示有助於監控原始伺服器是否花費太長時間來回應。如果伺服器需要太長時間來回應,可能會導致逾時。如果出現持續較高的 OriginLatency 值,請參閱尋找並修正原始伺服器上應用程式的延遲回應

目的:此警示用於偵測原始伺服器回應時間太長的問題。

統計資料:p90

建議的閾值:視乎您的情況而定

閾值對正:您應計算約 80% 的來源回應逾時值,並使用結果做為閾值。如果此指標持續接近來源伺服器回應逾時值,則可能會開始出現 504 錯誤。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

FunctionValidationErrors

尺寸:DistributionId、、區域 FunctionName = 全域

警示說明:此警示可協助您監控 CloudFront 功能的驗證錯誤,以便您可以採取措施來解決這些錯誤。分析 CloudWatch 函數日誌並查看函數代碼以查找並解決問題的根本原因。請參閱邊緣函數的限制以了解 CloudFront 函數的常見錯誤配置。

意圖:此警報用於檢測 CloudFront 功能的驗證錯誤。

統計資料:總和

建議的閾值:0.0

閾值對正:大於 0 的值表示驗證錯誤。我們建議將閾值設置為 0,因為驗證錯誤意味著 CloudFront 函數交回時出現問題。 CloudFront例如, CloudFront 需要 HTTP 主機標頭才能處理請求。沒有什麼可以阻止用戶刪除其 CloudFront 函數代碼中的 Host 頭文件。但是,當 CloudFront 獲取響應並且 Host 頭丟失時,會 CloudFront 拋出驗證錯誤。

期間:60

警示資料點數目:2

評估期:2

比較運算子:GREATER_THAN_THRESHOLD

FunctionExecutionErrors

尺寸:DistributionId、、區域 FunctionName = 全域

警報說明:此警報可幫助您監控 CloudFront 功能的執行錯誤,以便您可以採取措施來解決這些錯誤。分析 CloudWatch 函數日誌並查看函數代碼以查找並解決問題的根本原因。

意圖:此警報用於檢測 CloudFront 功能執行錯誤。

統計資料:總和

建議的閾值:0.0

閾值對正:建議將閾值設定為 0,因為執行錯誤表示在執行期發生程式碼問題。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

FunctionThrottles

尺寸:DistributionId、、區域 FunctionName = 全域

警報說明:此警報可幫助您監控 CloudFront 功能是否節流。如果函數受到限流,這意味著執行時間太長。若要避免函數限流,請考慮優化函數程式碼。

意圖:此警報可以檢測您的 CloudFront 功能何時被限制,以便您可以做出反應並解決問題,以獲得流暢的客戶體驗。

統計資料:總和

建議的閾值:0.0

閾值對正:建議將閾值設定為 0,以便更快地解析函數限流。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

Amazon Cognito

SignUpThrottles

尺寸:UserPool, UserPoolClient

警示描述:此警示可監控限流請求的計數。如果使用者持續受到限流,則您應透過請求增加服務配額來提高限制。請參閱 Amazon Cognito 中的配額,了解如何請求增加配額。若要主動執行動作,請考慮追蹤用量配額

目的:此警示有助於監控限流註冊請求的發生。這可協助您知道何時執行動作,以緩解註冊體驗出現任何降級。請求持續限流是一種負面的使用者註冊體驗。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:佈建良好的使用者集區不應遇到跨越多個資料點的任何限流。因此,預期工作負載的典型閾值應為零。對於經常爆量的不規則工作負載,您可分析歷史資料以確定應用程式工作負載可接受的限流,然後您可相應地調整閾值。應重試限流的請求,以將對應用程式的影響降至最低。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

SignInThrottles

尺寸:UserPool, UserPoolClient

警示描述:此警示可監控限流使用者驗證請求的計數。如果使用者持續受到限流,您可能需要透過請求增加服務配額來提高限制。請參閱 Amazon Cognito 中的配額,了解如何請求增加配額。若要主動執行動作,請考慮追蹤用量配額

目的:此警示有助於監控限流登入請求的發生。這可協助您知道何時執行動作,以緩解登入體驗出現任何降級。請求持續限流是一種糟糕的使用者身分驗證體驗。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:佈建良好的使用者集區不應遇到跨越多個資料點的任何限流。因此,預期工作負載的典型閾值應為零。對於經常爆量的不規則工作負載,您可分析歷史資料以確定應用程式工作負載可接受的限流,然後您可相應地調整閾值。應重試限流的請求,以將對應用程式的影響降至最低。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

TokenRefreshThrottles

尺寸:UserPool, UserPoolClient

警示描述:您可設定符合請求流量的閾值,以及符合權杖重新整理請求的可接受限流。限流用於保護您的系統免受太多請求的影響。但是,監控正常流量是否佈建不足也非常重要。您可分析歷史資料,尋找應用程式工作負載可接受的限流,然後再將警示閾值調整為高於可接受的限流層級。應用程式/服務應重試限流請求,因為它們是暫時的。因此,將閾值設定為極低的值可能會導致警示較為敏感。

目的:此警示有助於監控權杖重新整理請求的發生。這可協助您知道何時執行動作來緩解任何潛在問題,以確保順暢的使用者體驗,以及身分驗證系統的良好運作狀態與可靠性。請求持續限流是一種糟糕的使用者身分驗證體驗。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:還可設定/調整閾值以適應請求的流量,以及權杖重新整理請求的可接受限流。限流可保護您的系統免受太多請求的影響,但是,監控正常流量是否佈建不足並查看是否造成影響也非常重要。還可分析歷史資料,以了解應用程式工作負載可接受的限流,並且可將閾值調整為高於通常可接受的限流層級。應用程式/服務應重試限流請求,因為它們是暫時的。因此,將閾值設定為極低的值可能會導致警示較為敏感。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

FederationThrottles

尺寸:UserPool UserPoolClient, IdentityProvider

警示描述:此警示可監控限流聯合身分請求的計數。如果您持續發現受到限流,可能表示您需要透過請求增加服務配額來提高限制。請參閱 Amazon Cognito 中的配額,了解如何請求增加配額。

目的:此警示有助於監控限流聯合身分請求的發生。這可協助您主動回應效能瓶頸或設定錯誤,並確保為使用者提供順暢的身分驗證體驗。請求持續限流是一種糟糕的使用者身分驗證體驗。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:您可設定閾值以符合請求的流量,以及符合聯合身分請求的可接受限流。限流用於保護您的系統免受太多請求的影響。但是,監控正常流量是否佈建不足也非常重要。您可分析歷史資料,尋找應用程式工作負載可接受的節流,然後將閾值設定為高於可接受限流層級的值。應用程式/服務應重試限流請求,因為它們是暫時的。因此,將閾值設定為極低的值可能會導致警示較為敏感。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

Amazon DynamoDB

AccountProvisionedReadCapacityUtilization

維度:

警示描述:此警示可偵測帳戶的讀取容量是否達到其佈建限制。如果發生此情況,您可提高讀取容量使用率的帳戶配額。您可使用 Service Quotas 來檢視目前讀取容量單位的配額並請求增加。

目的:該警示可偵測帳戶的讀取容量使用率是否接近其佈建的讀取容量使用率。如果使用率達到其最大限制,DynamoDB 會開始對讀取請求限流。

統計資料:最大值

建議的閾值:80.0

閾值對正:將閾值設定為 80%,以便在達到容量已滿之前可執行動作 (例如提高帳戶限制) 以避免限流。

期間:300

警示資料點數目:2

評估期:2

比較運算子:GREATER_THAN_THRESHOLD

AccountProvisionedWriteCapacityUtilization

維度:

警示描述:此警示可偵測帳戶的寫入容量是否達到其佈建限制。如果發生此情況,您可提高寫入容量使用率的帳戶配額。您可使用 Service Quotas 來檢視目前寫入容量單位的配額並請求增加。

目的:此警示可偵測帳戶的寫入容量使用率是否接近其佈建的寫入容量使用率。如果使用率達到其最大限制,DynamoDB 會開始對寫入請求限流。

統計資料:最大值

建議的閾值:80.0

閾值對正:將閾值設定為 80%,以便在達到容量已滿之前可執行動作 (例如提高帳戶限制) 以避免限流。

期間:300

警示資料點數目:2

評估期:2

比較運算子:GREATER_THAN_THRESHOLD

AgeOfOldestUnreplicatedRecord

尺寸:TableName, DelegatedOperation

警示描述:此警示可偵測複寫到 Kinesis 資料串流的延遲。在正常的操作下,AgeOfOldestUnreplicatedRecord 應僅以毫秒為單位。若不成功的複寫嘗試是因客戶控制的組態選擇所引起,此數字會隨著不成功複寫嘗試的增加而增加。可能導致複寫嘗試失敗的客戶控制組態示例包括,佈建的 Kinesis 資料串流容量不足導致過度限流,或是手動更新 Kinesis 資料串流的存取原則因而拒絕 DynamoDB 新增資料至資料串流。為儘可能降低此指標,您需要確保妥善佈建 Kinesis 資料串流容量,並確保 DynamoDB 的許可保持不變。

目的:此警示可監控複寫嘗試失敗,以及複寫到 Kinesis 資料串流產生的延遲。

統計資料:最大值

建議的閾值:視乎您的情況而定

閾值對正:根據所需的複寫延遲 (以毫秒為單位) 設定閾值。此值取決於工作負載需求和預期效能。

期間:300

警示資料點數目:3

評估期:3

比較運算子:GREATER_THAN_THRESHOLD

FailedToReplicateRecordCount

尺寸:TableName, DelegatedOperation

警示描述:此警示可偵測 DynamoDB 無法複寫到您的 Kinesis 資料串流的記錄數目。大於 34KB 的某些項目可能會擴充大小,以變更大於 Kinesis Data Streams 1MB 項目大小限制的資料記錄。當這些大於 34KB 的項目包含大量的布林值或空白屬性值時,就會發生此大小擴充。布林值和空白屬性值會以 1 位元組形式儲存在 DynamoDB 中,但是在使用用於 Kinesis Data Streams 複寫的標準 JSON 將其序列化時,最多可擴充至 5 個位元組。DynamoDB 無法將這類變更記錄複寫到您的 Kinesis 資料串流。DynamoDB 會略過這些變更資料記錄,並自動繼續複寫後續記錄。

目的:此警示可監控 DynamoDB 因 Kinesis Data Streams 的項目大小限制而無法複寫到 Kinesis 資料串流的記錄數目。

統計資料:總和

建議的閾值:0.0

閾值對正:將閾值設定為 0,以偵測 DynamoDB 無法複寫的任何記錄。

期間:60

警示資料點數目:1

評估期:1

比較運算子:GREATER_THAN_THRESHOLD

ReadThrottleEvents

尺寸:TableName

警示描述:此警示可偵測 DynamoDB 資料表是否存在大量讀取請求限制。若要對該問題進行故障診斷,請參閱對 Amazon DynamoDB 中的限流問題進行故障診斷

目的:此警示可偵測 DynamoDB 資料表讀取請求的持續限流問題。持續限流讀取請求可能會對工作負載讀取操作產生負面影響,並降低系統的整體效率。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:根據 DynamoDB 資料表的預期讀取流量設定閾值,並以可接受的限流層級為基準。務必要監控是否佈建不足,並且不會導致持續限流。您還可分析歷史資料,尋找應用程式工作負載可接受的限流層級,然後將閾值調整為高於通常的限流層級。應用程式或服務應重試限流請求,因為它們是暫時的。因此,極低的閾值可能會導致警示過於敏感,從而引起不必要的狀態轉換。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

ReadThrottleEvents

尺寸:TableName, GlobalSecondaryIndexName

警示描述:此警示可偵測 DynamoDB 資料表的全域次要索引是否存在大量讀取請求限制。若要對該問題進行故障診斷,請參閱對 Amazon DynamoDB 中的限流問題進行故障診斷

目的:該警示可偵測 DynamoDB 資料表全域次要索引的讀取請求是否持續限流。持續限流讀取請求可能會對工作負載讀取操作產生負面影響,並降低系統的整體效率。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:根據 DynamoDB 資料表的預期讀取流量設定閾值,並以可接受的限流層級為基準。務必要監控是否佈建不足,並且不會導致持續限流。您還可分析歷史資料,尋找應用程式工作負載可接受的限流層級,然後將閾值調整為高於通常可接受的限流層級。應用程式或服務應重試限流請求,因為它們是暫時的。因此,極低的閾值可能會導致警示過於敏感,從而引起不必要的狀態轉換。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

ReplicationLatency

尺寸:TableName, ReceivingRegion

警示描述:警示可偵測全域資料表「區域」中的複本是否落後於「來源區域」。如果某個 AWS 區域降級,且您在該區域中有複本表格,則延遲可能會增加。在此情況下,您可以暫時將應用程式的讀取和寫入活動重新導向至不同的 AWS 區域。如果您正在使用 2017.11.29 (舊式) 全域資料表,您應確認每個複本資料表的寫入容量單位 (WCU) 是否相同。您還可確定遵循管理容量的最佳實務和需求中的建議。

目的:該警示可偵測區域中的複本資料表是否落後於另一個區域的複寫變更。這可能會導致您的複本與其他複本發生偏離。瞭解每個 AWS 區域的複寫延遲,並在複寫延遲持續增加時發出警示非常有用。資料表的複寫僅適用於全域資料表。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:此警示的建議閾值很大程度上取決於您的使用案例。複寫延遲超過 3 分鐘通常需要進行調查。檢閱複寫延遲的重要性和需求,並分析歷史趨勢,然後相應地選取閾值。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

SuccessfulRequestLatency

尺寸:TableName,操作

警示描述:此警示可偵測 DynamoDB 資料表操作的高延遲問題 (由警示中的維度值 Operation 表示)。如需對 Amazon DynamoDB 中的延遲問題進行故障診斷,請參閱此故障診斷文件

目的:此警示可偵測 DynamoDB 資料表操作的高延遲問題。較高的操作延遲可能會對系統的整體效率產生負面影響。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值理由:DynamoDB 針對單一作業 (例如 GetItem、 PutItem等) 提供平均 10 毫秒的延遲。但是,您可針對工作負載涉及的操作類型和資料表,根據其可接受的延遲容錯值來設定閾值。您可分析此指標的歷史資料,以尋找資料表操作的一般延遲問題,然後將閾值設定為代表操作嚴重延遲的數字。

期間:60

警示資料點數目:10

評估期:10

比較運算子:GREATER_THAN_THRESHOLD

SystemErrors

尺寸:TableName

警示描述:此警示可偵測 DynamoDB 資料表請求的大量持續性系統錯誤。如果您繼續收到 5xx 錯誤,請開啟 AWS 服務運作狀態儀表板,以檢查服務的操作問題。如果 DynamoDB 發生長時間內部服務問題,您可使用此警示獲得通知,並協助您關聯用戶端應用程式面臨的問題。如需詳細資訊,請參閱 DynamoDB 的錯誤處理

目的:此警示可偵測 DynamoDB 資料表請求的持續性系統問題。系統錯誤表示 DynamoDB 發生的內部服務錯誤,並有助於與用戶端發生的問題建立關聯。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:根據預期流量設定閾值,並以可接受的系統錯誤層級為基準。您還可分析歷史資料,以尋找應用程式工作負載可接受的錯誤計數,然後相應地調整閾值。應用程式/服務應重試系統錯誤,因為它們是暫時的。因此,極低的閾值可能會導致警示過於敏感,從而引起不必要的狀態轉換。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

ThrottledPutRecordCount

尺寸:TableName, DelegatedOperation

警示描述:此警示可偵測在將變更資料擷取複寫到 Kinesis 期間,Kinesis 資料串流受到限流的記錄。之所以發生此限流,是因為 Kinesis 資料串流容量不足。如果遇到過多且規律的調節,您可能需要按照觀察到的資料表寫入輸送量按比例增加 Kinesis 串流碎片的數量。若要進一步了解如何判斷 Kinesis 資料串流的大小,請參閱判斷 Kinesis Data Stream 的初始大小

目的:此警示可監控因 Kinesis 資料串流容量不足而受到 Kinesis Data Streams 限流的記錄數目。

統計資料:最大值

建議的閾值:視乎您的情況而定

閾值對正:在特殊用量尖峰期間,您可能會遇到限流的情況,但限流記錄應儘可能低以避免較高的複寫延遲 (DynamoDB 會重試將限流記錄傳送至 Kinesis 資料串流)。將閾值設定為可協助您擷取常規過度限流的數字。您還可分析此指標的歷史資料,以尋找應用程式工作負載可接受的限流速率。根據您的使用案例,將閾值調整為應用程式可容忍的值。

期間:60

警示資料點數目:10

評估期:10

比較運算子:GREATER_THAN_THRESHOLD

UserErrors

維度:

警示描述:此警示可偵測 DynamoDB 資料表請求的大量持續性使用者錯誤。您可在問題時間範圍內,檢查用戶端應用程式日誌,以了解請求無效的原因。您可檢查 HTTP 狀態碼 400,以查看收到的錯誤類型,並相應地執行動作。您可能必須修正應用程式邏輯,才能建立有效的請求。

目的:此警示可偵測 DynamoDB 資料表請求的持續性使用者問題。使用者請求操作錯誤意味著用戶端正在產生無效的請求,並且將會失敗。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:將閾值設定為零以偵測任何用戶端錯誤。或者,如果您想要避免因極少的錯誤而觸發警示,可將其設定為更高的值。根據您的使用案例和請求的流量來決定。

期間:60

警示資料點數目:10

評估期:10

比較運算子:GREATER_THAN_THRESHOLD

WriteThrottleEvents

尺寸:TableName

警示描述:此警示可偵測 DynamoDB 資料表是否存在大量寫入請求限制。若要對該問題進行故障診斷,請參閱對 Amazon DynamoDB 中的限流問題進行故障診斷

目的:此警示可偵測 DynamoDB 資料表讀取寫入的持續限流問題。持續限流寫入請求可能會對工作負載寫入操作產生負面影響,並降低系統的整體效率。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:根據 DynamoDB 資料表的預期寫入流量設定閾值,並以可接受的限流層級為基準。務必要監控是否佈建不足,並且不會導致持續限流。您還可分析歷史資料,尋找應用程式工作負載可接受的限流層級,然後將閾值調整為高於通常可接受的限流層級。應用程式/服務應重試限流請求,因為它們是暫時的。因此,極低的閾值可能會導致警示過於敏感,從而引起不必要的狀態轉換。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

WriteThrottleEvents

尺寸:TableName, GlobalSecondaryIndexName

警示描述:此警示可偵測 DynamoDB 資料表的全域次要索引是否存在大量寫入請求限制。若要對該問題進行故障診斷,請參閱對 Amazon DynamoDB 中的限流問題進行故障診斷

目的:該警示可偵測 DynamoDB 資料表全域次要索引的寫入請求是否持續限流。持續限流寫入請求可能會對工作負載寫入操作產生負面影響,並降低系統的整體效率。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:根據 DynamoDB 資料表的預期寫入流量設定閾值,並以可接受的限流層級為基準。務必要監控是否佈建不足,並且不會導致持續限流。您還可分析歷史資料,尋找應用程式工作負載可接受的限流層級,然後將閾值調整為高於通常可接受的限流層級。應用程式/服務應重試限流請求,因為它們是暫時的。因此,極低的值可能會導致警示過於敏感,從而引起不必要的狀態轉換。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

VolumeStalledIOCHECK

尺寸:VolumeId, InstanceId

警示說明:此警示可協助您監控 Amazon EBS 磁碟區的 IO 效能。此檢查可偵測 Amazon EBS 基礎設施的基本問題,例如 Amazon EBS 磁碟區底層儲存子系統上的硬體或軟體問題、影響 Amazon EBS 磁碟區從 Amazon EC2 執行個體可達性的實體主機上的硬體問題,以及偵測執行個體和 Amazon EBS 磁碟區之間的連線問題。如果「停止的 IO 檢查」失敗,您可以等待 AWS 解決問題,也可以採取動作,例如更換受影響的磁碟區,或停止並重新啟動磁碟區所連接的執行個體。在大多數情況下,當此指標失敗時,Amazon EBS 會在幾分鐘內自動診斷並恢復您的磁碟區。

意圖:此警示可偵測 Amazon EBS 磁碟區的狀態,以判斷這些磁碟區何時受損且無法完成 I/O 作業。

統計資料:最大值

建議的閾值:1.0

閾值對正:當狀態檢查失敗時,此指標的值為 1。設定閾值,以便每當狀態檢查失敗時,警示都會處於 ALARM 狀態。

期間:60

警示資料點數目:10

評估期:10

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

Amazon EC2

CPUUtilization

尺寸:InstanceId

警示描述:此警示有助於監控 EC2 執行個體的 CPU 使用率。視乎應用程式而定,持續的高使用率層級可能是正常的。但是,如果效能降級,且應用程式不受磁碟 I/O、記憶體或網路資源的限制,則 CPU 上限可能表示資源瓶頸或應用程式效能問題。高 CPU 使用率可能表示需要升級至 CPU 更密集的執行個體。如果已啟用詳細監控,您可將期間變更為 60 秒,而不是 300 秒。如需詳細資訊,請參閱啟用或關閉詳細監控您的執行個體

目的:此警示用於偵測高 CPU 使用率。

統計資料:平均值

建議的閾值:80.0

閾值對正:通常,您可將 CPU 使用率的閾值設定為 70-80%。但是,您可根據可接受的效能層級和工作負載特性來調整此值。對於某些系統來說,持續的高 CPU 使用率可能是正常的,並非表示存在問題,而對於其他系統來說,則可能是需要關注的問題。分析歷史 CPU 使用率資料以識別用量、尋找系統可接受的 CPU 使用率,並相應地設定閾值。

期間:300

警示資料點數目:3

評估期:3

比較運算子:GREATER_THAN_THRESHOLD

StatusCheckFailed

尺寸:InstanceId

警示描述:此警示有助於同時監控系統狀態檢查和執行個體狀態檢查。如果任一類型的狀態檢查失敗,則此警示應處於 ALARM 狀態。

目的:此警示用於偵測執行個體的基本問題,包括系統狀態檢查失敗和執行個體狀態檢查失敗。

統計資料:最大值

建議的閾值:1.0

閾值對正:當狀態檢查失敗時,此指標的值為 1。設定閾值,以便每當狀態檢查失敗時,警示都會處於 ALARM 狀態。

期間:300

警示資料點數目:2

評估期:2

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

StatusCheckFailed附件 (_)

尺寸:InstanceId

警示說明:此警示可協助您監控連接至執行個體的 Amazon EBS 磁碟區是否可連線,以及是否能夠完成 I/O 操作。此狀態檢查可偵測運算或 Amazon EBS 基礎設施的基本問題,如下所示:

  • Amazon EBS 磁碟區底層儲存子系統上的硬體或軟體問題

  • 影響 Amazon EBS 磁碟區可連接性的實體主機上的硬體問題

  • 執行個體和 Amazon EBS 磁碟區之間的連線問題

當連接的 EBS 狀態檢查失敗時,您可以等待 Amazon 解決問題,也可以採取動作,例如更換受影響的磁碟區或停止並重新啟動執行個體。

意圖:此警示用於偵測連接至執行個體的無法連接的 Amazon EBS 磁碟區。這些可能會導致 I/O 操作失敗。

統計資料:最大值

建議的閾值:1.0

閾值對正:當狀態檢查失敗時,此指標的值為 1。設定閾值,以便每當狀態檢查失敗時,警示都會處於 ALARM 狀態。

期間:60

警示資料點數目:10

評估期:10

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

Amazon ElastiCache

CPUUtilization

尺寸:CacheClusterId, CacheNodeId

警示說明:此警示可協助監督整個 ElastiCache 執行處理的 CPU 使用率,包括資料庫引擎處理序和執行處理上執行的其他處理作業。 AWS 彈性疼支持兩種引擎類型:內存緩存和 Redis。當您在 Memcached 節點上達到高 CPU 使用率時,您應考慮擴展執行個體類型或新增快取節點。針對 Redis,如果您的主要工作負載來自讀取請求,則應考慮將更多僅供讀取複本新增至快取叢集。如果您的主要工作負載來自寫入請求,則應考慮以下方面:在叢集模式下執行時,新增更多碎片以將工作負載分散到更多主節點;或在非叢集模式下執行 Redis 時,則擴展執行個體類型。

意圖:此警報用於檢測 ElastiCache 主機的 CPU 使用率高。能夠全面檢視整個執行個體 (包括非引擎程序) 的 CPU 使用率非常有幫助。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:將閾值設定為反映應用程式臨界 CPU 使用率層級的百分比。若是 Memcached,引擎可使用最多 num_threads 個核心。若是 Redis,引擎大部分是單一執行緒,但如果適用,可能會使用額外的核心來加速 I/O。在大多數情況下,您可將閾值設定為可用 CPU 的 90% 左右。因為 Redis 為單執行緒,實際閾值應以節點總容量的分數計算。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

CurrConnections

尺寸:CacheClusterId, CacheNodeId

警示描述:此警示可偵測高連線計數,這可能表示負載過重或效能問題。持續增加 CurrConnections 可能會導致 65,000 個可用連線用盡。這可能表示應用程式端連線關閉不正確,並在伺服器端建立連線。您應考慮使用連線集區或閒置連線逾時,來限制與叢集建立連線的數目,或者針對 Redis,考慮調整叢集上的 tcp-keepalive,以偵測並終止潛在的失效對等。

意圖:警示可協助您識別可能影響 ElastiCache 叢集效能和穩定性的高連線計數。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:此警示的建議閾值很大程度上取決於叢集可接受的連線範圍。檢閱 ElastiCache 叢集的容量和預期的工作負載,並分析一般使用期間的歷史連線計數以建立基準,然後選取臨界值。請記住,每個節點可支援最多 65,000 個並行連線。

期間:60

警示資料點數目:10

評估期:10

比較運算子:GREATER_THAN_THRESHOLD

DatabaseMemoryUsagePercentage

尺寸:CacheClusterId

警示描述:此警示可協助您監控叢集的記憶體使用率。當您的 DatabaseMemoryUsagePercentage 達到 100% 時,會觸發 Redis maxmemory 政策,而且可能會根據選取的政策發生移出。如果快取中沒有物件符合移出政策,寫入操作會失敗。某些工作負載預期或依賴於移出,但如果沒有,您將需要增加叢集的記憶體容量。您可新增更多主節點來擴展叢集,或使用較大的節點類型來擴展叢集。如需詳細資訊, ElastiCache 請參閱 Redis 叢集的縮放

目的:此警示用於偵測叢集的高記憶體使用率,以免在寫入叢集時出現失敗。如果您的應用程式預期不會移出,知道何時需要縱向擴展叢集會很有幫助。

統計資料:平均值

建議的閾值:視乎您的情況而定

臨界值理由:根據應用程式的記憶體需求和 ElastiCache 叢集的記憶體容量而定,您應該將臨界值設定為反映叢集臨界記憶體使用量層級的百分比。您可使用歷史記憶體用量資料,做為可接受記憶體用量閾值的參考。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

EngineCPUUtilization

尺寸:CacheClusterId

警示說明:此警示可協助監控執行個體內 Redis 引擎 ElastiCache 執行緒的 CPU 使用率。引擎 CPU 較高的常見原因包括長時間執行的命令,這些命令會取用較高的 CPU、具有大量請求、在短時間內增加新的用戶端連線請求,以及在快取沒有足夠的記憶體來保存新資料時的大量移出。您應該考慮新增更多節點或擴展 ElastiCache 執行個體類型,以擴展 Redis 叢集

目的:此警示用於偵測 Redis 引擎執行緒的高 CPU 使用率。如果您想要監控資料庫引擎本身的 CPU 使用率,這會很有幫助。

統計資料:平均值

建議的閾值:90.0

閾值對正:將閾值設定為反映應用程式臨界引擎 CPU 使用率層級的百分比。您可使用應用程式和預期工作負載來對叢集進行基準測試,以將 EngineCPUUtilization 和效能做為參考來關聯,然後相應地設定閾值。在大多數情況下,您可將閾值設定為可用 CPU 的 90% 左右。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

ReplicationLag

尺寸:CacheClusterId

警示說明:此警示有助於監視 ElastiCache 叢集的複寫健全狀況。高複寫延遲表示主節點或複本無法跟上複寫的速度。如果您的寫入活動太多,請考慮新增更多主節點來擴展叢集,或使用較大的節點類型來擴展叢集。如需詳細資訊, ElastiCache 請參閱 Redis 叢集的縮放。如果根據讀取請求數量,僅供讀取複本過載,則考慮新增更多僅供讀取複本。

目的:此警示用於偵測主節點上的資料更新與其同步處理複本節點之間的延遲。它有助於確保僅供讀取複本叢集節點的資料一致性。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:根據應用程式的需求和複寫延遲的潛在影響來設定閾值。針對可接受的複寫延遲,您應考慮應用程式的預期寫入速率和網路條件。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

Amazon EC2 (AWS/ElasticGPUs)

顯示卡 ConnectivityCheckFailed

尺寸:InstanceId, 輸出

警示描述:此警示有助於偵測執行個體與 Elastic Graphics 加速器之間的連線失敗。Elastic Graphics 使用執行個體網路將 OpenGL 命令傳送到遠端連接的顯示卡。此外,執行使用 Elastic Graphics 加速器之 OpenGL 應用程式的桌面,通常會使用遠端存取技術存取。區分 OpenGL 轉譯與桌面遠端存取技術相關的效能問題非常重要。若要進一步了解該問題,請參閱調查應用程式效能問題

目的:此警示用於偵測從執行個體到 Elastic Graphics 加速器的連線問題。

統計資料:最大值

建議的閾值:0.0

閾值對正:閾值 1 表示連線失敗。

期間:300

警示資料點數目:3

評估期:3

比較運算子:GREATER_THAN_THRESHOLD

顯示卡 HealthCheckFailed

尺寸:InstanceId, 輸出

警示描述:此警示可協助您了解 Elastic Graphics 加速器的狀態何時運作狀態不良。如果加速器運作狀態不良,請參閱解決運作狀態不良問題中的故障診斷步驟。

目的:此警示用於偵測 Elastic Graphics 加速器運作狀態是否良好。

統計資料:最大值

建議的閾值:0.0

閾值對正:閾值 1 表示狀態檢查失敗。

期間:300

警示資料點數目:3

評估期:3

比較運算子:GREATER_THAN_THRESHOLD

Amazon ECS

CPUReservation

尺寸:ClusterName

警示描述:此警示可協助您偵測 ECS 叢集的高 CPU 保留。高 CPU 保留可能表示叢集已用盡為任務註冊的 CPU。若要進行故障診斷,您可新增更多容量、擴展叢集,或是設定自動擴展。

目的:該警示用於偵測叢集上任務預留的 CPU 單元總數是否達到為叢集註冊的 CPU 單元總計。這有助於您了解何時縱向擴展叢集。達到叢集的 CPU 單元總計可能會導致任務的 CPU 用盡。如果您已開啟 EC2 容量供應商受管擴展,或者已將 Fargate 與容量供應商建立關聯,則不建議使用此警示。

統計資料:平均值

建議的閾值:90.0

閾值對正:將 CPU 預留的閾值設定為 90%。或者,您可根據叢集特性來選擇較低的值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

CPUUtilization

尺寸:ClusterName, ServiceName

警示描述:此警示可協助您偵測 ECS 服務的高 CPU 使用率。如果沒有進行中的 ECS 部署,CPU 使用率上限可能表示資源瓶頸或應用程式效能問題。若要進行故障診斷,您可增加 CPU 限制。

目的:此警示用於偵測 ECS 服務的高 CPU 使用率。持續的高 CPU 使用率可能表示資源瓶頸或應用程式效能問題。

統計資料:平均值

建議的閾值:90.0

閾值對正:CPU 使用率的服務指標可能超過 100% 的使用率。但是,建議您監控高 CPU 使用率的指標,以避免影響其他服務。將閾值設定為約 90-95%。建議您更新任務定義來反映實際用量,以避免未來其他服務發生問題。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

MemoryReservation

尺寸:ClusterName

警示描述:此警示可協助您偵測 ECS 叢集的高記憶體保留。高記憶體保留可能表示叢集的資源瓶頸。若要進行故障診斷,請分析服務任務的效能,以查看是否可優化任務的記憶體使用率。此外,您可註冊更多記憶體或設定自動擴展比例。

目的:該警示用於偵測叢集上任務預留的記憶體單元總計是否達到為叢集註冊的記憶體單元總計。這可協助您了解何時縱向擴展叢集。達到叢集的記憶體單元總計可能會導致叢集無法啟動新的任務。如果您已開啟 EC2 容量供應商受管擴展,或者已將 Fargate 與容量供應商建立關聯,不建議使用此警示。

統計資料:平均值

建議的閾值:90.0

閾值對正:將記憶體預留的閾值設定為 90%。您可根據叢集特性,將其調整為較低的值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

HTTPCode_Target_5XX_Count

尺寸:ClusterName, ServiceName

警示描述:此警示可協助您偵測 ECS 服務的高伺服器端錯誤計數。這可能表示存在導致服務無法發出請求的錯誤。若要進行故障診斷,請檢查應用程式日誌。

目的:此警示用於偵測 ECS 服務的高伺服器端錯誤計數。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:計算平均流量約 5% 的值,並使用此值作為閾值的起點。您可使用 RequestCount 指標尋找平均流量。您還可分析歷史資料,以確定應用程式工作負載可接受的錯誤率,然後相應地調整閾值。經常發生的 5XX 錯誤需要觸發警示。但是,將閾值設定為極低的值可能會導致警示過於敏感。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

TargetResponseTime

尺寸:ClusterName, ServiceName

警示描述:此警示可協助您偵測 ECS 服務請求的較長目標回應時間。這可能表示存在導致服務無法及時發出請求的問題。若要進行故障診斷,請檢查 CPUUtilization 指標,以查看服務是否用盡 CPU,或檢查服務所依賴的其他下游服務的 CPU 使用率。

目的:此警示用於偵測 ECS 服務請求較常的目標回應時間。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:此警示的建議閾值很大程度上取決於您的使用案例。請檢閱服務目標回應時間的重要性和要求,並分析此指標的歷史行為,以確定合理的閾值層級。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

具有 Container Insights 的 Amazon ECS

EphemeralStorageUtilized

尺寸:ClusterName, ServiceName

警示說明:此警示可協助您偵測 Fargate 叢集使用的高暫時性儲存。如果暫時性儲存持續很高,您可以檢查暫時性儲存的使用量並增加暫時性儲存空間。

意圖:此警示用於偵測 Fargate 叢集的較高暫時性儲存空間使用量。使用持續的高暫時性儲存可能表示磁碟已滿,並可能導致容器故障。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:將閾值設定為臨時儲存大小的 90%。可以根據 Fargate 叢集的可接受暫時性儲存使用率來調整此值。對於某些系統,持續使用高暫時性儲存可能是正常的,而對於其他系統,則可能會導致容器故障。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

RunningTaskCount

尺寸:ClusterName, ServiceName

警示說明:此警示可協助您偵測 ECS 服務的執行任務計數不足。如果執行中的任務計數太低,可能表示應用程式無法處理服務負載,並可能導致效能問題。如果沒有執行中的任務,則 Amazon ECS 服務可能無法使用,或者可能發生部署問題。

意圖:此警示用於檢測正在執行的任務數量是否過低。持續的低執行任務計數可能表示 ECS 服務部署或效能問題。

統計資料:平均值

建議的閾值:0.0

閾值對正:您可以根據 ECS 服務的最小執行中任務計數來調整閾值。如果執行中的任務計數為 0,則 Amazon ECS 服務將無法使用。

期間:60

警示資料點數目:5

評估期:5

比較運算子:LESS_THAN_OR_EQUAL_TO_THRESHOLD

instance_filesystem_utilization

尺寸:InstanceId ContainerInstanceId, ClusterName

警示描述:此警示可協助您偵測 ECS 叢集的高檔案系統使用率。如果檔案系統使用率持續很高,請檢查磁碟使用率。

意圖:此警示用於偵測 Amazon ECS 叢集的高檔案系統使用率。持續的高檔案系統使用率可能表示資源瓶頸或應用程式效能問題,而且可能無法執行新任務。

統計資料:平均值

建議的閾值:90.0

閾值對正:可將檔案系統使用率的閾值設定為 90-95%。您可以根據 Amazon ECS 叢集的可接受檔案系統容量級別來調整此值。對於某些系統而言,持續的高檔案系統使用率可能是正常的,並不表示有問題,而對其他系統而言,這可能是令人擔憂的原因,並且可能導致效能問題並阻止執行新任務。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

Amazon EFS

PercentIOLimit

尺寸:FileSystemId

警示描述:此警示有助於確保工作負載維持在檔案系統可用的 I/O 限制內。如果指標持續達到 I/O 限制,考慮將應用程式移至使用「I/O 效能上限」模式的檔案系統。如需進行故障診斷,請檢查連線至檔案系統的用戶端,以及對檔案系統限流的用戶端應用程式。

目的:此警示用於偵測檔案系統有多接近一般用途效能模式的 I/O 限制。持續較高的 I/O 百分比可能是檔案系統無法根據 I/O 請求進行足夠擴展的指標,而且檔案系統可能會成為使用檔案系統之應用程式的資源瓶頸。

統計資料:平均值

建議的閾值:100.0

閾值對正:當檔案系統達到其 I/O 限制時,可能會減慢讀取和寫入請求的回應。因此,建議您監控該指標,以免影響使用該檔案系統的應用程式。閾值可設定為 100% 左右。但是,可根據檔案系統特性將此值調整為較低的值。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

BurstCreditBalance

尺寸:FileSystemId

警示描述:此警示有助於確保檔案系統用量有可用的爆量額度餘額。若沒有可用的爆量額度,由於輸送量較低,應用程式對檔案系統的存取將會受到限制。如果指標持續降至 0,考慮將輸送量模式變更為彈性或佈建輸送量模式

目的:此警示用於偵測檔案系統的低爆量額度餘額。持續較低的爆量額度餘額可能是輸送量減慢和 I/O 延遲增加的指標。

統計資料:平均值

建議的閾值:0.0

臨界值理由:當檔案系統用完了突發積分,而且即使基準輸送量率較低,EFS 仍會繼續為所有檔案系統提供 1 MiBps 的計量輸送量。但是,建議監控指標是否為低爆量額度餘額,以避免檔案系統成為應用程式的資源瓶頸。閾值可設定為 0 位元組左右。

期間:60

警示資料點數目:15

評估期:15

比較運算子:LESS_THAN_OR_EQUAL_TO_THRESHOLD

具有 Container Insights 的 Amazon EKS

node_cpu_utilization

尺寸:ClusterName

警示描述:此警示有助於偵測 EKS 叢集工作節點中的高 CPU 使用率。如果使用率持續較高,則可能表示需要將工作節點取代為具有更大 CPU 或需要水平擴展系統的執行個體。

目的:此警示有助於監控 EKS 叢集中工作節點的 CPU 使用率,使系統效能不會降級。

統計資料:最大值

建議的閾值:80.0

閾值對正:建議將閾值設定為小於或等於 80%,以便在系統開始看到影響之前有足夠的時間對問題進行偵錯。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

node_filesystem_utilization

尺寸:ClusterName

警示描述:此警示有助於偵測 EKS 叢集中工作節點的高檔案系統使用率。如果使用率持續較高,則您可能需要更新工作節點以擁有更大的磁碟區,或者可能需要水平擴展。

目的:此警示有助於監控 EKS 叢集中工作節點的檔案系統使用率。如果使用率達到 100%,則可能導致應用程式失敗、磁碟 I/O 瓶頸、Pod 移出或節點完全無回應。

統計資料:最大值

建議的閾值:視乎您的情況而定

閾值對正:如果磁碟壓力足夠 (表示磁碟將變滿),則節點會標示為運作狀態不佳,並從節點移出 Pod。如果可用的檔案系統低於 kubelet 上設定的移出閾值,則會移出節點上具有磁碟壓力的 Pod。設定警示閾值,以便在從叢集中移出節點之前有足夠的回應時間。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

node_memory_utilization

尺寸:ClusterName

警示描述:此警示有助於偵測 EKS 叢集工作節點中的高記憶體使用率。如果使用率持續較高,可能表示需要擴展 Pod 複本的數目或優化您的應用程式。

目的:此警示有助於監控 EKS 叢集中工作節點的記憶體使用率,使系統效能不會降級。

統計資料:最大值

建議的閾值:80.0

閾值對正:建議將閾值設定為小於或等於 80%,以便在系統開始看到影響之前有足夠的時間對問題進行偵錯。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

pod_cpu_utilization_over_pod_limit

維度:ClusterName,命名空間,服務

警示描述:此警示有助於偵測 EKS 叢集 Pod 中的高 CPU 使用率。如果使用率持續較高,可能表示需要增加受影響 Pod 的 CPU 限制。

目的:此警示有助於監控屬於 EKS 叢集中 Kubernetes 服務的 Pod 的 CPU 使用率,以便您快速識別服務的 Pod 取用的 CPU 是否高於預期。

統計資料:最大值

建議的閾值:80.0

閾值對正:建議將閾值設定為小於或等於 80%,以便在系統開始看到影響之前有足夠的時間對問題進行偵錯。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

pod_memory_utilization_over_pod_limit

維度:ClusterName,命名空間,服務

警示描述:此警示有助於偵測 EKS 叢集 Pod 中的高記憶體使用率。如果使用率持續較高,可能表示需要增加受影響 Pod 的記憶體限制。

目的:此警示有助於監控 EKS 叢集中 Pod 的記憶體使用率,使系統效能不會降級。

統計資料:最大值

建議的閾值:80.0

閾值對正:建議將閾值設定為小於或等於 80%,以便在系統開始看到影響之前有足夠的時間對問題進行偵錯。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

Amazon Kinesis Data Streams

GetRecords.IteratorAgeMilliseconds

尺寸:StreamName

警示描述:此警示可偵測反覆運算器的存留期上限是否太長。針對即時資料處理應用程式,請根據延遲容容錯值設定資料保留。這通常在幾分鐘內即可完成。針對處理歷史資料的應用程式,請使用此指標來監控追趕速度。防止資料遺失的快速解決方案是,在診斷問題時增加保留期。您還可增加取用者應用程式中處理記錄的工作者數目。反覆運算器逐步存留期最常見的原因是實體資源不足,或者記錄處理邏輯沒有隨著串流輸送量的增加而進行擴展。如需詳細資訊,請參閱 連結

目的:此警示用於偵測串流中的資料是否因預留時間太長或記錄處理太慢而到期。它可協助您避免在達到 100% 串流保留時間之後遺失資料。

統計資料:最大值

建議的閾值:視乎您的情況而定

閾值對正:此警示的建議閾值很大程度上取決於串流保留期間和記錄處理延遲的容錯值。檢閱您的需求並分析歷史趨勢,然後將閾值設定為代表處理嚴重延遲的毫秒數。如果反覆運算器的存留期超過保留期的 50% (預設為 24 小時,最多可設定為 365 天),會有因記錄過期而遺失資料的風險。您可監控指標,以確保沒有任何碎片達到此限制。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

GetRecords. 成功

尺寸:StreamName

警示描述:每當您的取用者成功從串流中讀取資料時,此指標會增加。GetRecords 在擲出例外狀況時,不會傳回任何資料。最常見的例外狀況是 ProvisionedThroughputExceededException,因為串流的請求速率太高,或是因為在指定秒數已經提供可用的輸送量。請減少請求的頻率或大小。如需詳細資訊,請參閱《Amazon Kinesis Data Streams 開發人員指南》中的串流限制,以及 AWS中的錯誤重試和指數退避

目的:此警示可偵測取用者從串流中擷取記錄是否失敗。藉由在此指標上設定警示,您可主動偵測任何與資料取用相關的問題,例如提高錯誤率或拒絕成功擷取。這讓您能夠及時執行動作,以解決潛在問題並保持順從的資料處理管道。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:視乎從串流擷取記錄的重要性,根據應用程式失敗記錄的容錯值來設定閾值。閾值應與成功操作百分比相對應。您可以使用歷史 GetRecords 測量結果資料作為可接受失敗率的參考。您還應在設定閾值時考慮重試,因為失敗的記錄可以重試。這有助於防止暫時性尖峰觸發不必要的警示。

期間:60

警示資料點數目:5

評估期:5

比較運算子:LESS_THAN_THRESHOLD

PutRecord. 成功

尺寸:StreamName

警示描述:此警示可偵測失敗的 PutRecord 操作次數何時違反閾值。調查資料生產者日誌,以尋找失敗的根本原因。最常見的原因是,碎片上的輸送量佈建不足,從而導致 ProvisionedThroughputExceededException。之所以發生這種情況,是因為串流的請求速率太高,或是嘗試擷取到碎片中的輸送量太高。請減少請求的頻率或大小。如需詳細資訊,請參閱. AWS

目的:此警示可偵測將記錄擷取到串流中是否失敗。它可協助您識別將資料寫入串流的問題。藉由在此指標上設定警示,您可主動偵測生產者在將資料發布到串流時的任何問題,例如提高錯誤率或減少成功發布的記錄。這讓您能夠及時執行動作,以解決潛在問題並確保可靠的資料擷取程序。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:根據資料擷取和處理服務的重要性,根據應用程式失敗記錄的容錯值來設定閾值。閾值應與成功操作百分比相對應。您可以使用歷史 PutRecord 測量結果資料作為可接受失敗率的參考。您還應在設定閾值時考慮重試,因為失敗的記錄可以重試。

期間:60

警示資料點數目:5

評估期:5

比較運算子:LESS_THAN_THRESHOLD

PutRecords.FailedRecords

尺寸:StreamName

警示描述:此警示可偵測失敗的 PutRecords 何時超出閾值。Kinesis Data Streams 會嘗試處理每個 PutRecords 請求中的所有記錄,但單一記錄失敗不會停止處理後續記錄。這些失敗的主要原因是,超出串流或個別碎片的輸送量。常見的原因是,流量尖峰和網路延遲會導致記錄到達串流不均勻。您應偵測未成功處理的記錄,並在後續呼叫中重試這些記錄。如需詳細資訊,請參閱使 PutRecords用時處理失敗

目的:此警示可偵測在使用批次操作將記錄置於串流中時是否出現持續失敗。藉由在此指標上設定警示,您可主動偵測失敗記錄的增加,從而能夠及時執行動作來解決潛在問題,並確保順暢、可靠的資料擷取程序。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:將閾值設定為反映應用程式失敗記錄容錯值的失敗記錄數目。您可使用歷史資料,做為可接受失敗值的參考。您也應該在設定臨界值時考慮重試,因為失敗的記錄可以在後續 PutRecords 呼叫中重試。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

ReadProvisionedThroughputExceeded

尺寸:StreamName

警示描述:警示可追蹤導致讀取輸送容量限流的記錄數目。如果您發現持續受到限流,應考慮在串流中新增更多碎片,以增加佈建讀取輸送量。如果有多個取用者應用程式在串流中執行,並且共用 GetRecords 限制,建議您透過強化廣發功能來註冊新的取用者應用程式。如果新增更多碎片並不會降低限流數目,則可能相較於其他碎片,您可能正在讀取一個「熱」碎片。啟用增強型監控,尋找「熱」碎片,然後將其分割。

目的:此警示可偵測取用者在超過佈建讀取輸送量時 (由您擁有的碎片數目決定) 是否受到限流。在此情況下,您將無法從串流中讀取,並且串流可開始備份。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:通常限流請求可重試,因此將閾值設定為零會使警示過於敏感。但是,持續限流可能會影響從串流中讀取,並且應會觸發警示。根據應用程式的限流請求,將閾值設定為百分比,然後重試組態。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

SubscribeToShardEvent.MillisBehindLatest

尺寸:StreamName, ConsumerName

警示描述:此警示可偵測應用程式中的記錄處理延遲何時違反閾值。暫時性問題 (例如下游應用程式的 API 操作失敗) 可能會導指標突增。您應調查其是否持續發生。一個常見的原因是,取用者處理記錄的速度不夠快,因為隨著串流輸送量的增加,實體資源不足或是未擴展記錄處理邏輯。封鎖關鍵路徑中的呼叫,通常是記錄處理速度變慢的原因。您可增加碎片數目以提高並行處理程度。您還應確認基礎處理節點在尖峰需求期間擁有足夠的實體資源。

目的:此警示可偵測串流碎片事件訂閱中的延遲。這表示處理延遲,並且可協助識別取用者應用程式效能或整體串流運作狀態的潛在問題。若處理延遲變得顯著,您應調查並解決任何瓶頸或取用者應用程式效率問題,以確保即時處理資料,以及最大限度地減少資料積壓。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:此警示的建議閾值很大程度上取決於應用程式的延遲容錯值。檢閱應用程式需求並分析歷史趨勢,然後相應地選取閾值。 SubscribeToShard 通話成功時,您的消費者開始透過持續連線接收 SubscribeToShardEvent 事件最多 5 分鐘,在此之後,如果您想要繼續接收記錄,則需要 SubscribeToShard 再次呼叫以續訂訂閱。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

WriteProvisionedThroughputExceeded

尺寸:StreamName

警示描述:此警示可偵測導致寫入輸送容量限流的記錄數目何時達到閾值。若您的生產者超過佈建寫入輸送量 (由您擁有的碎片數目確定) 時,則會對其限流,並且您將無法將記錄放入串流。為了解決持續限流問題,您應考慮將碎片新增至串流。這會提高您的佈建寫入輸送量,並防止未來限流。擷取記錄時,您還應考慮選擇磁碟分割區索引鍵。隨機分割區索引鍵是首選,因為在可能的情況下它會將記錄平均分散到串流碎片中。

目的:此警示可偵測您的生產者是否因串流或碎片限流而被拒絕寫入記錄。如果您的串流處於佈建模式,則設定此警示可協助您在資料串流達到限制時主動執行動作,從而讓您優化佈建容量或執行適當的擴展動作,以避免資料遺失並確保順暢的資料處理。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:通常限流請求可重試,因此將閾值設定為零會使警示過於敏感。但是,持續限流可能會影響串流的寫入,因此您應設定警示閾值來偵測此問題。根據應用程式的限流請求,將閾值設定為百分比,然後重試組態。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

Lambda

ClaimedAccountConcurrency

維度:

警示說明:此警示有助於監控 Lambda 函數的並行是否已接近帳戶的區域層級並行限制。如果函數達到並行限制,則會開始對函數限流。您可執行下列動作以避免限流。

  1. 要求此區域的並行增加

  2. 識別並減少任何未使用的保留並行或佈建並行。

  3. 識別功能中的效能問題,以提高處理速度,從而提高輸送量。

  4. 增加函數的批處理大小,以便每次函數調用處理更多消息。

意圖:此警示可以主動偵測 Lambda 函數的並行性是否接近帳戶的區域層級並行配額,以便您可以採取行動。如果ClaimedAccountConcurrency達到帳戶的區域層級並行配額,則會限制函數。如果您使用的是保留並行 (RC) 或佈建並行 (PC),此警示可讓您更清楚地瞭解並行使用率,而不是開啟的警示。ConcurrentExecutions

統計資料:最大值

建議的閾值:視乎您的情況而定

閾值理由:您應該計算為區域中帳戶設定的並行配額約 90% 的值,並使用結果作為閾值。根據預設,您的帳戶設有一個區域中所有函數共計 1,000 的並行配額。不過,您應該從「Service Quotas」控制面板檢查帳戶的配額。

期間:60

警示資料點數目:10

評估期:10

比較運算子:GREATER_THAN_THRESHOLD

錯誤

尺寸:FunctionName

警示描述:此警示可偵測高錯誤計數。錯誤包括程式碼擲回的例外狀況,以及 Lambda 執行期擲回的例外狀況。您可檢查與該函數相關的日誌以診斷問題。

目的:警示有助於偵測函數調用中的高錯誤計數。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:將閾值設定為大於零的數字。準確值可能取決於應用程式中的容錯值。了解函數正在處理的調用重要性。針對某些應用程式,任何錯誤可能都是不可接受的,而其他應用程式可能會允許一定的錯誤餘度。

期間:60

警示資料點數目:3

評估期:3

比較運算子:GREATER_THAN_THRESHOLD

限流

尺寸:FunctionName

警示描述:此警示可偵測大量限流調用請求。若沒有可用於縱向擴展的並行,就會發生限流。有幾種方法可解決此問題。1) 要求並行增加本地區的 Sup AWS port。2) 識別函數中的效能問題,以提高處理速度,從而改善輸送量。3) 增加函數的批次大小,以便每次函數調用處理更多訊息。

目的:警示有助於偵測 Lambda 函數的大量限流調用請求。務必要了解請求是否因限流而持續遭拒,以及是否需要改善 Lambda 函數效能或增加並行容量來避免持續限流。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:將閾值設定為大於零的數字。閾值的準確值可取決於應用程式容錯值。根據函數的用量和擴展需求來設定閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

Duration (持續時間)

尺寸:FunctionName

警示描述:此警示可偵測 Lambda 函數處理事件較常的持續時間。較長的持續時間可能是因為函數程式碼的變更使得函數執行時間延長,或者函數的相依項需要更長的處理時間。

目的:此警示可偵測 Lambda 函數的長時間執行持續時間。較長的執行期持續時間表示函數調用時間延長,而且如果 Lambda 處理的事件數目增多,也會影響調用的並行容量。務必要了解 Lambda 函數是否持續花費比預期更長的執行時間。

統計資料:p90

建議的閾值:視乎您的情況而定

閾值對正:持續時間閾值取決於應用程式和工作負載以及您的效能需求。針對高效能需求,將閾值設定為較短的時間,以查看函數是否符合預期。您還可分析持續時間指標的歷史資料,以查看花費的時間是否符合函數的效能預期,然後將閾值設定為比歷史平均值更長的時間。確定將閾值設定為低於設定的函數逾時值。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

ConcurrentExecutions

尺寸:FunctionName

警示描述:此警示有助於監控函數的並行性是否接近您帳戶的區域層級並行限制。如果函數達到並行限制,則會開始對函數限流。您可執行下列動作以避免限流。

  1. 要求此區域的並行增加。

  2. 識別功能中的效能問題,以提高處理速度,從而提高輸送量。

  3. 增加函數的批處理大小,以便每次函數調用處理更多消息。

若要更好地瞭解保留並行使用率和佈建的並行使用率,請改為在新指標ClaimedAccountConcurrency上設定警示。

目的:此警示可主動偵測函數的並行性是否接近您帳戶的區域級並行配額,以便您可對其執行動作。如果函數達到帳戶的區域層級並行配額,則會對該函數限流。

統計資料:最大值

建議的閾值:視乎您的情況而定

閾值對正:將閾值設定為在區域帳戶中設定的約 90% 的並行配額。根據預設,您的帳戶設有一個區域中所有函數共計 1,000 的並行配額。但是,您可以檢查帳戶的配額,因為它可以通過聯繫 AWS 支持來增加。

期間:60

警示資料點數目:10

評估期:10

比較運算子:GREATER_THAN_THRESHOLD

Lambda Insights

建議針對下列 Lambda Insights 指標設定最佳實務警示。

memory_utilization

維度:function_name

警示描述:此警示用於偵測 Lambda 函數的記憶體使用率是否接近設定的限制。如需進行故障診斷,您可嘗試 1) 優化您的程式碼。2) 準確估計記憶體需求,藉此來正確調整記憶體配置大小。您可參考 Lambda 功能調校的相同內容。3) 使用連線集區。如需了解 RDS 資料庫的連線集區,請參閱搭配 Lambda 使用 Amazon RDS Proxy。4) 您還可考慮設計函數,以避免在調用之間記憶體中存放大量資料。

目的:此警示用於偵測 Lambda 函數的記憶體使用率是否接近設定的限制。

統計資料:平均值

建議閾值:90.0

閾值對正:將閾值設定為 90%,以便在記憶體使用率超過所配置記憶體的 90% 時收到警示。如果您為工作負載的記憶體使用率感到擔憂,可將其調整為較低的值。您還可檢查此指標的歷史資料,並相應地設定閾值。

期間:60

警示資料點數目:10

評估期:10

ComparisonOperator:大於 _ 臨界值

Amazon VPC (AWS/NATGateway)

ErrorPortAllocation

尺寸:NatGatewayId

警示描述:此警示有助於偵測 NAT Gateway 何時無法將連接埠配置給新的連線。若要解決此問題,請參閱解決 NAT Gateway 上的連接埠配置錯誤。

目的:此警示用於偵測 NAT Gateway 是否無法配置來源連接埠。

統計資料:總和

建議的閾值:0.0

閾值理由:如果的值大 ErrorPortAllocation 於零,則表示透過 NatGateway 開啟與單一熱門目的地的同時連線過多。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

PacketsDropCount

尺寸:NatGatewayId

警示描述:此警示有助於偵測 NAT Gateway 何時捨棄封包。這可能是因為 NAT 閘道發生問題,因此請檢查AWS 服務健康狀態儀表板以瞭解您所在地區的 AWS NAT 閘道狀態。這可協助您關聯與使用 NAT Gateway 的流量相關的網路問題。

目的:此警示用於偵測 NAT Gateway 是否會捨棄封包。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:您應計算 NAT Gateway 上總流量 0.01% 的值,並使用該結果作為閾值。使用 NAT Gateway 上的流量歷史資料來確定閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

AWS 私人連結 (AWS/PrivateLinkEndpoints)

PacketsDropped

維度:VPC ID、VPC 端點 ID、端點類型、子網路 ID、服務名稱

警示描述:此警示可監控端點捨棄的封包數目,藉此來協助偵測端點或端點服務是否運作狀態不良。請注意,封包大於 8,500 位元組且到達 VPC 端點的封包會被捨棄。如需進行故障診斷,請參閱介面 VPC 端點與端點服務之間的連線問題

目的:此警示用於偵測端點或端點服務是否運作狀態不良。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:根據使用案例設定閾值。如果您想要了解端點或端點服務的運作狀態不良情況,應將閾值設定為低,以便在大量資料遺失之前有機會修復問題。您可使用歷史資料來了解捨棄封包的容錯值,並相應地設定閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

AWS 私人連結 (AWS/PrivateLinkServices)

RstPacketsSent

維度:服務 ID、Load Balancer Arn、Az

警示描述:此警示可協助您根據傳送至端點的重設封包數目,偵測端點服務運作狀態不良的目標。當您對服務的用戶偵錯連線錯誤時,您可以驗證服務是否正在重設與 RstPacketsSent 指標的連線,或是網路路徑上是否有其他失敗。

目的:此警示用於偵測端點服務運作狀態不良的目標。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:閾值取決於使用案例。如果您的使用案例可容忍運作狀態不良的目標,您可將閾值設定為較高。如果使用案例無法容忍運作狀態不良的目標,您可將閾值設定得極低。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

Amazon RDS

CPUUtilization

尺寸:分貝 InstanceIdentifier

警示描述:此警示有助於監控一致的高 CPU 使用率。CPU 使用率會測量非閒置時間。請考慮使用 Enhanced MonitoringPerformance Insights 來檢閱 MariaDB、MySQL、Oracle 以及 PostgreSQL 的哪個等待時間正在耗用大部分 CPU 時間 (guestirqwaitnice 等)。然後評估哪些查詢消耗的 CPU 量最高。如果無法調整工作負載,請考慮移至較大的資料庫執行個體類別。

意圖:此警示用於檢測一致的高 CPU 使用率,以防止非常高的回應時間和逾時。如果要檢查 CPU 使用率的微爆量,可以設定較低的警示評估時間。

統計資料:平均值

建議的閾值:90.0

閾值對正:CPU 消耗的隨機峰值可能不會影響資料庫效能,但持續的高 CPU 使用率可能會阻礙即將到來的資料庫請求。視整體資料庫工作負載而定,RDS/Aurora 執行個體的高 CPU 使用率可能會降低整體效能。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

DatabaseConnections

尺寸:分貝 InstanceIdentifier

警示說明:此警示會偵測大量連線。檢閱現有連線,並終止處於「休眠」狀態或未正確關閉的連線。請考慮使用連線集區來限制新連線的數目。或者,增加資料庫執行個體大小,以使用具有更多記憶體的類別,以及較高的 `max_connections` 預設值,或在 RDS、Aurora MySQL 以及 PostgreSQL 中增加目前類別的 `max_connections` 值 (如果它支援您的工作負載)。

意圖:當達到資料庫連線數量上限時,此警示可協助防止被拒絕的連線。如果您經常變更資料庫執行個體類別,則不建議使用此警示,因為這樣做會變更記憶體和預設連線數目上限。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:允許的連線數目取決於資料庫執行個體類別的大小,以及與程序/連線相關的資料庫引擎特定參數。應該計算資料庫連線數目上限 90-95% 之間的值,並使用該結果作為閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

EBS 百分比 ByteBalance

尺寸:分貝 InstanceIdentifier

警示說明:此警示有助於監控剩餘輸送量額度的低百分比。如需疑難排解,請檢查 RDS 中的延遲問題

意圖:此警示用於偵測爆量儲存貯體中剩餘輸送量額度的低百分比。低位元組平衡百分比可能會造成輸送量瓶頸問題。不建議 Aurora PostgreSQL 執行個體使用此警示。

統計資料:平均值

建議閾值:10.0

閾值對正:低於 10% 的輸送量額度餘額被認為很差,應該相應地設定閾值。如果應用程式可以容忍較低的工作負載輸送量,也可以設定較低的閾值。

期間:60

警示資料點數目:3

評估期:3

比較運算子:LESS_THAN_THRESHOLD

EBSIOBalance%

尺寸:分貝 InstanceIdentifier

警示說明:此警示有助於監控剩餘 IOPS 額度的低百分比。如需疑難排解,請參閱 RDS 中的延遲問題

意圖:此警示用於偵測爆量儲存貯體中剩餘 I/O 額度的低百分比。低 IOPS 平衡百分比可能會造成 IOPS 瓶頸問題。不建議 Aurora 執行個體使用此警示。

統計資料:平均值

建議閾值:10.0

閾值對正:低於 10% 的 IOPS 額度餘額被認為很差,可相應地設定閾值。如果應用程式可以容忍較低的工作負載 IOPS,也可以設定較低的閾值。

期間:60

警示資料點數目:3

評估期:3

比較運算子:LESS_THAN_THRESHOLD

FreeableMemory

尺寸:分貝 InstanceIdentifier

警示說明:此警示有助於監控低可用記憶體,這可能表示資料庫連線出現峰值,或執行個體可能面臨高記憶體壓力。檢查內存壓力通過監測 CloudWatch 指標 SwapUsage「除了FreeableMemory。如果執行個體記憶體的耗用量經常太高,這表示您應該檢查工作負載或升級執行個體類別。對於 Aurora 讀取器資料庫執行個體,請考慮將其他讀取器資料庫執行個體新增至叢集。如需有關 Aurora 疑難排解的資訊,請參閱可用記憶體問題

意圖:此警示用於協助防止記憶體不足,從而導致連線被拒絕。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:視工作負載和執行個體類別而定,閾值的不同值可能適當。理想情況下,可用記憶體不應長時間低於總記憶體的 25%。對於 Aurora,可將此閾值設為接近 5%,因為接近 0 的指標意味著資料庫執行個體已盡可能擴展。您可以分析此指標的歷史行為,以判斷合理的閾值級別。

期間:60

警示資料點數目:15

評估期:15

比較運算子:LESS_THAN_THRESHOLD

FreeLocalStorage

尺寸:分貝 InstanceIdentifier

警示說明:此警示有助於監控免費本機儲存空間是否不足。Aurora PostgreSQL 相容版本使用本機儲存體來存放錯誤日誌和臨時檔案。Aurora MySQL 會使用本機儲存體,存放錯誤日誌、一般日誌、慢速查詢日誌、稽核日誌,以及非 InnoDB 暫存資料表。這些本機儲存磁碟區由 Amazon EBS Store 支援,且可透過使用更大的資料庫執行個體類別來擴充。如需疑難排解,請查看 Aurora PostgreSQL 相容版本MySQL 相容版本

意圖:如果您未使用 Aurora Serverless v2 或更高版本,則此警示用於偵測 Aurora 資料庫執行個體是否快達到本機儲存限制。當您將非持續性資料 (例如暫存資料表和日誌檔案) 儲存在本機儲存體時,本機儲存體可能會達到容量。此警示可防止資料庫執行個體在本機儲存空間用完時發生 out-of-space 錯誤。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:您應該根據磁碟區使用量的速度和趨勢計算大約 10%-20% 的可用儲存體容量,然後使用該結果作為閾值,以便在磁碟區達到限制之前主動採取行動。

期間:60

警示資料點數目:5

評估期:5

比較運算子:LESS_THAN_THRESHOLD

FreeStorageSpace

尺寸:分貝 InstanceIdentifier

警示說明:此警示會監測可用儲存空間是否不足。如果經常接近儲存容量限制,請考慮擴充資料庫儲存體。應加入一些緩衝,以應對應用程式中無法預見的需求增長。或者,請考慮啟用 RDS 儲存體自動擴展。此外,請考慮刪除未使用或過時的資料和日誌來釋放更多空間。如需進一步資訊,請參閱 RDS 耗盡儲存體文件和 PostgreSQL 儲存體問題文件。

意圖:此警示有助於防止儲存體已滿問題。當資料庫執行個體耗盡儲存體時,這可防止出現停機。如果已啟用儲存體自動擴展,或經常變更資料庫執行個體的儲存容量,則不建議使用此警示。

統計資料:最小值

建議的閾值:視乎您的情況而定

閾值對正:閾值將取決於目前配置的儲存空間。通常,應該計算已配置儲存空間 10% 的值,並使用該結果作為閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:LESS_THAN_THRESHOLD

MaximumUsedTransaction身份證

尺寸:分貝 InstanceIdentifier

警示說明:此警示有助於防止 PostgreSQL 的交易 ID 回卷。請參閱此部落格中的疑難排解步驟,以調查並解決問題。也可以參考此部落格,進一步熟悉自動清空概念、常見問題和最佳實務。

意圖:此警示可用於協助防止 PostgreSQL 的交易 ID 回卷。

統計資料:平均值

建議閾值:1.0E9

閾值對正:將此閾值設定為 10 億,讓您有時間調查問題。預設的 autovacuum_freeze_max_age 值為 2 億。如果最舊的交易存留期為 10 億,則自動清空將此閾值保持在 2 億個交易 ID 目標以下時遇到問題。

期間:60

警示資料點數目:1

評估期:1

比較運算子:GREATER_THAN_THRESHOLD

ReadLatency

尺寸:分貝 InstanceIdentifier

警示說明:此警示有助於監控高讀取延遲。如果儲存體延遲很高,這是因為工作負載超出資源限制。可以檢閱與執行個體相關的 I/O 使用率並配置儲存體組態。請參閱疑難排解 IOPS 瓶頸造成的 Amazon EBS 磁碟區延遲。對於 Aurora,可以切換到具有 I/O 優化儲存組態的執行個體類別。如需指引,請參閱規劃 Aurora 中的 I/O

意圖:此警示用於偵測高讀取延遲。資料庫磁碟通常具有較低的讀取/寫入延遲,它們可能存在會導致高延遲操作的問題。

統計資料:p90

建議的閾值:視乎您的情況而定

閾值對正:此警示的建議閾值很大程度上取決於您的使用案例。讀取延遲超過 20 毫秒可能是需要調查的原因。如果應用程式具有較高的讀取操作延遲,也可以設定較高的閾值。請檢閱讀取延遲的重要性和要求,並分析此指標的歷史行為,以確定合理的閾值級別。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

ReplicaLag

尺寸:分貝 InstanceIdentifier

警示說明:此警示協助您了解複本落後於主要執行個體的秒數。若在來源資料庫執行個體上未發生使用者交易,PostgreSQL 僅供讀取複本會回報最多五分鐘的複寫延遲。當 ReplicaLag 指標達到 0 時,複本已追上主要資料庫執行個體。如果 ReplicaLag 測量結果傳回 -1,則表示複寫目前未處於作用中狀態。如需 RDS PostgreSQL 的相關指引,請參閱複寫最佳做法和疑難排解ReplicaLag和相關錯誤,請參閱疑難排解。 ReplicaLag

意圖:此警示可以偵測複本延遲,這反映了在主要執行個體出現故障時可能發生資料丟失。如果複本遠遠落後於主要執行個體且主要執行個體失敗,則複本將遺失主要執行個體中的資料。

統計資料:最大值

建議閾值:60.0

閾值對正:通常情況下,可接受的延遲取決於應用程式。建議不要超過 60 秒。

期間:60

警示資料點數目:10

評估期:10

比較運算子:GREATER_THAN_THRESHOLD

WriteLatency

尺寸:分貝 InstanceIdentifier

警示說明:此警示有助於監控高寫入延遲。如果儲存體延遲很高,這是因為工作負載超出資源限制。可以檢閱與執行個體相關的 I/O 使用率並配置儲存體組態。請參閱疑難排解 IOPS 瓶頸造成的 Amazon EBS 磁碟區延遲。對於 Aurora,可以切換到具有 I/O 優化儲存組態的執行個體類別。如需指引,請參閱規劃 Aurora 中的 I/O

意圖:此警示用於偵測高寫入延遲。雖然資料庫磁碟通常具有低讀取/寫入延遲,但可能會遇到導致高延遲操作的問題。進行監控將確保磁碟延遲與預期一樣低。

統計資料:p90

建議的閾值:視乎您的情況而定

閾值對正:此警示的建議閾值很大程度上取決於您的使用案例。寫入延遲超過 20 毫秒可能是需要調查的原因。如果應用程式具有較高的寫入操作延遲,也可以設定較高的閾值。請檢閱寫入延遲的重要性和要求,並分析此指標的歷史行為,以確定合理的閾值級別。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

DBLoad

尺寸:分貝 InstanceIdentifier

警示說明:此警示有助於監控高資料庫負載。如果程序數目超過 vCPUs 數目,則程序會開始排入佇列。佇列增加時,效能會受到影響。若資料庫負載通常高於最大 vCPU,而主要等待狀態為 CPU,則 CPU 會超過負載。在此情況下,可以在 Performance Insights/Enhanced Monitoring 中監控 CPUUtilizationDBLoadCPU 和排入佇列的任務。您可能會想要節制與執行個體間的連線、以高 CPU 負載來微調任何 SQL 查詢、或者考慮使用較大的執行個體類別。處於任何等待狀態的密集且穩定的執行個體表示可能有您應解決的瓶頸或資源爭用問題。

意圖:此警示用於偵測高資料庫負載。高資料庫負載可能會導致資料庫執行個體發生效能問題。此警示不適用於無伺服器資料庫執行個體。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:最大 vCPU 數值由資料庫執行個體的 vCPU (虛擬 CPU) 核心數目決定。根據最大 vCPU 的不同,閾值有不同的值。理想情況下,資料庫負載不應超過 vCPU 數線。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

AuroraVolumeBytesLeftTotal

尺寸:分貝 ClusterIdentifier

警示說明:此警示有助於監控低剩餘總容量。當剩餘的總磁碟區達到大小限制時,叢集會報告錯 out-of-space 誤。Aurora 儲存會根據叢集磁碟區中的資料自動擴展,並根據資料庫引擎版本擴充高達至 128 TiB 或 64 TiB。因此,可捨棄不再需要的資料表和資料庫,以減少儲存空間。如需詳細資訊,請參閱儲存體擴展

意圖:此警示用於偵測 Aurora 叢集與磁碟區大小限制的差距。此警示可防止叢集空間不足時發生 out-of-space 錯誤。建議此警示僅用於 Aurora MySQL。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:應該根據磁碟區使用量增加的速度和趨勢來計算 10%-20% 的實際大小限制,然後使用該結果作為閾值,以便在磁碟區達到限制之前主動採取行動。

期間:60

警示資料點數目:5

評估期:5

比較運算子:LESS_THAN_THRESHOLD

AuroraBinlogReplicaLag

尺寸:DBClusterIdentifier,角色 = 寫入器

警示說明:此警示有助於監控 Aurora 寫入器執行個體複寫的錯誤狀態。如需詳細資訊,請參閱跨 AWS 區域複寫 Aurora MySQL 資料庫叢集。如需疑難排解,請參閱 Aurora MySQL 複寫問題

意圖:此警示用於偵測寫入器執行個體是否處於錯誤狀態,並且無法複寫來源。建議此警示僅用於 Aurora MySQL。

統計資料:平均值

建議閾值:-1.0

閾值對正:建議使用 -1 作為閾值,因為如果複本處於錯誤狀態,Aurora MySQL 會發佈此值。

期間:60

警示資料點數目:2

評估期:2

比較運算子:LESS_THAN_OR_EQUAL_TO_THRESHOLD

BlockedTransactions

尺寸:分貝 InstanceIdentifier

警示說明:此警示有助於監控 Aurora 資料庫執行個體中較高的封鎖交易計數。被封鎖的交易可以在轉返或遞交中結束。高並行性、交易閒置或長時間執行的交易都可能導致交易遭到封鎖。如需疑難排解,請參閱 Aurora MySQL 文件。

意圖:此警示用於偵測 Aurora 資料庫執行個體中較高的封鎖交易計數,以防止交易轉返和效能降低。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:應使用 ActiveTransactions 指標來計算執行個體所有交易的 5%,並使用該結果作為閾值。也可檢閱被封鎖交易的重要性和要求,並分析此指標的歷史行為,以確定合理的閾值級別。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

BufferCacheHitRatio

尺寸:分貝 InstanceIdentifier

警示說明:此警示可協助您監控 Aurora 叢集的持續較低的快取命中率。低命中率表示您對此資料庫執行個體的查詢經常移至磁碟。如需進行疑難排解,請調查工作負載,查看哪些查詢導致了此行為,並參閱資料庫執行個體 RAM 建議文件。

意圖:此警示用於偵測持續較低的快取命中率,以防止 Aurora 執行個體中的持續效能降低。

統計資料:平均值

建議的閾值:80.0

閾值對正:可以將緩衝區快取命中率的閾值設定為 80%。但是,您可根據可接受的效能層級和工作負載特性來調整此值。

期間:60

警示資料點數目:10

評估期:10

比較運算子:LESS_THAN_THRESHOLD

EngineUptime

尺寸:DBClusterIdentifier,角色 = 寫入器

警示說明:此警示有助於監控寫入器資料庫執行個體的低停機時間。寫入器資料庫執行個體可能會因為重新開機、維護、升級或容錯移轉而關閉。當執行時間由於叢集中的容錯移轉而達到 0 並且叢集擁有一個或多個 Aurora 複本時,Aurora 複本會在失敗事件期間提升為主要寫入器執行個體。若要提高資料庫叢集的可用性,可考慮在兩個或更多不同的可用區域建立一個或多個 Aurora 複本。如需詳細資訊,請參閱影響 Aurora 停機時間的因素

意圖:此警示用於偵測 Aurora 寫入器資料庫執行個體是否處於停機狀態。這可以防止因為當機或容錯移轉而在寫入器執行個體中發生長時間故障。

統計資料:平均值

建議的閾值:0.0

閾值對正:失敗事件會導致短暫中斷,在此期間,讀取和寫入操作會失敗,並引發例外狀況。不過,服務通常會在 60 秒之內還原,往往不超過 30 秒。

期間:60

警示資料點數目:2

評估期:2

比較運算子:LESS_THAN_OR_EQUAL_TO_THRESHOLD

RollbackSegmentHistoryListLength

尺寸:分貝 InstanceIdentifier

警示說明:此警示有助於監控 Aurora 執行個體的持續較高的轉返區段歷史記錄長度。若 InnoDB 歷史記錄清單長度較長,表示該清單具有過多舊資料列版本,導致查詢和資料庫關閉變慢。如需詳細資訊和疑難排解,請參閱 InnoDB 歷史記錄清單長度顯著增加文件。

意圖:此警示用於偵測持續較高的轉返區段歷史記錄長度。這可協助您避免 Aurora 執行個體中的持續效能降低和 CPU 使用率過高。建議此警示僅用於 Aurora MySQL。

統計資料:平均值

建議閾值:1000000.0

閾值對正:將此閾值設定為 100 萬,讓您有時間調查問題。但是,您可根據可接受的效能層級和工作負載特性來調整此值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

StorageNetworkThroughput

尺寸:DBClusterIdentifier,角色 = 寫入器

警示說明:此警示有助於監控高儲存網路輸送量。如果儲存網路輸送量超過 EC2 執行個體的總網路頻寬,可能會導致較高的讀取和寫入延遲,進而導致效能降低。您可以從 AWS 主控台檢查 EC2 執行個體類型。若要進行疑難排解,請檢查有關寫入/讀取延遲的任何變更,並評估您是否也對此指標發出警示。如果是這種情況,請在觸發警示時評估您的工作負載模式。這可以協助您確定是否可以優化工作負載以減少網路流量的總量。如果這是不可能的,可能需要考慮擴展您的執行個體。

意圖:此警示用於偵測高儲存網路輸送量。偵測高輸送量可防止網路封包丟失和效能降低。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:應該計算 EC2 執行個體類型總網路頻寬的 80%-90% 左右,然後使用該結果作為閾值,以便在網路封包受到影響之前主動採取動作。也可檢閱儲存網路輸送量的重要性和要求,並分析此指標的歷史行為,以確定合理的閾值級別。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

Amazon Route 53 Public Data Plane

HealthCheckStatus

尺寸:HealthCheckId

警示描述:此警示有助於根據運作狀態檢程式來偵測運作狀態不良的端點。若要了解導致運作狀態不良的失敗原因,使用 Route 53 運作狀態檢查主控台中的「運作狀態檢查程式」索引標籤來檢視每個區域的狀態,以及運作狀態檢查的上一次失敗。狀態索引標籤也會顯示端點報告為運作狀態不良的原因。請參閱故障診斷步驟

目的:此警示使用 Route53 運作狀態檢查程式來偵測運作狀態不良的端點。

統計資料:平均值

建議的閾值:1.0

閾值對正:端點運作狀態良好時,會將其狀態報告為 1。小於 1 的一切數值都為運作狀態不良。

期間:60

警示資料點數目:3

評估期:3

比較運算子:LESS_THAN_THRESHOLD

Amazon S3

4xxErrors

尺寸:BucketName, FilterId

警示描述:此警示可協助我們報告對用戶端請求做出回應時產生的 4xx 錯誤狀態碼總數。例如,403 錯誤碼可能表示 IAM 政策不正確,而 404 錯誤碼可能表示用戶端應用程式操作不正確。暫時啟用 S3 伺服器存取日誌記錄可協助您使用 HTTP 狀態和錯誤碼欄位,來找出問題的來源。若要了解有關錯誤碼的詳細資訊,請參閱錯誤回應

目的:此警示用於建立典型 4xx 錯誤率的基準,以便您查看任何可能表示設定問題的異常狀況。

統計資料:平均值

建議的閾值:0.05

閾值對正:建議的閾值會在請求總數的 5% 以上出現 4XX 錯誤時偵測到。經常發生的 4XX 錯誤應觸發警示。但是,將閾值設定為極低的值可能會導致警示過於敏感。您還可調整閾值以適應請求的負載,以可接受的 4XX 錯誤層級為基準。您還可分析歷史資料,以尋找應用程式工作負載可接受的錯誤率,然後相應地調整閾值。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

5xxErrors

尺寸:BucketName, FilterId

警示描述:此警示有助於偵測用戶端的大量錯誤。這些錯誤表示用戶端發出伺服器無法完成的請求。這可協助您關聯應用程式因 S3 而將面臨的問題。如需協助您有效處理或減少錯誤的詳細資訊,請參閱優化效能設計模式。錯誤也可能是由 S3 問題引起,請檢查 AWS 服務運作狀態儀表板,了解您所在區域中 Amazon S3 的狀態。

目的:此警示可協助偵測應用程式是否因 5xx 錯誤而出現問題。

統計資料:平均值

建議的閾值:0.05

閾值對正:建議將閾值設定為在請求總數的 5% 以上出現 5XXError 時偵測到。但是,您可調整閾值以適應請求的流量以及可接受的錯誤率。您還可分析歷史資料,以查看應用程式工作負載可接受的錯誤率,並相應地調整閾值。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

OperationsFailedReplication

尺寸:SourceBucket DestinationBucket, RuleId

警示描述:此警示有助於了解複寫失敗。此指標可追蹤使用 S3 CRR 或 S3 SRR 複寫的新物件的狀態,還可追蹤使用 S3 批次複寫來複寫的現有物件。如需詳細資訊,請參閱複寫故障診斷

目的:此警示用於偵測複寫操作是否失敗。

統計資料:最大值

建議的閾值:0.0

閾值對正:此指標針對成功的操作發出值 0,而此時若沒有執行複寫操作,則不會發出任何值。當指標發出大於 0 的值時,複寫操作就會失敗。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

S3ObjectLambda

4xxErrors

尺寸:AccessPointName DataSource

警示描述:此警示可協助我們報告對用戶端請求做出回應時產生的 4xx 錯誤狀態碼總數。暫時啟用 S3 伺服器存取日誌記錄可協助您使用 HTTP 狀態和錯誤碼欄位,來找出問題的來源。

目的:此警示用於建立典型 4xx 錯誤率的基準,以便您查看任何可能表示設定問題的異常狀況。

統計資料:平均值

建議的閾值:0.05

閾值對正:建議將閾值設定為在請求總數的 5% 以上出現 4XXError 時偵測到。經常發生的 4XX 錯誤應觸發警示。但是,將閾值設定為極低的值可能會導致警示過於敏感。您還可調整閾值以適應請求的負載,以可接受的 4XX 錯誤層級為基準。您還可分析歷史資料,以尋找應用程式工作負載可接受的錯誤率,然後相應地調整閾值。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

5xxErrors

尺寸:AccessPointName DataSource

警示描述:此警示有助於偵測用戶端的大量錯誤。這些錯誤表示用戶端發出伺服器無法完成的請求。這些錯誤可能是由 S3 問題引起,請檢查 AWS 服務運作狀態儀表板,了解您所在區域中 Amazon S3 的狀態。這可協助您關聯應用程式因 S3 而將面臨的問題。如需協助您有效處理或減少這些錯誤的資訊,請參閱優化效能設計模式

目的:此警示可協助偵測應用程式是否因 5xx 錯誤而出現問題。

統計資料:平均值

建議的閾值:0.05

閾值對正:建議將閾值設定為在請求總數的 5% 以上出現 5XX 錯誤時偵測到。但是,您可調整閾值以適應請求的流量以及可接受的錯誤率。您還可分析歷史資料,以查看應用程式工作負載可接受的錯誤率,並相應地調整閾值。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

LambdaResponse4xx

尺寸:AccessPointName DataSource

警示描述:此警示可協助您偵測並診斷呼叫 S3 Object Lambda 時的失敗 (500 )。這些錯誤可能是由負責回應請求的 Lambda 函數中的錯誤或設定錯誤導致。調查與物件 Lambda 存取點關聯之 Lambda 函數的 CloudWatch 日誌串流,可協助您根據 S3 物件 Lambda 的回應,精確找出問題的來源。

意圖:此警報用於檢測 WriteGetObjectResponse 呼叫 4xx 客戶端錯誤。

統計資料:平均值

建議的閾值:0.05

閾值對正:建議將閾值設定為在請求總數的 5% 以上出現 4XXError 時偵測到。經常發生的 4XX 錯誤應觸發警示。但是,將閾值設定為極低的值可能會導致警示過於敏感。您還可調整閾值以適應請求的負載,以可接受的 4XX 錯誤層級為基準。您還可分析歷史資料,以尋找應用程式工作負載可接受的錯誤率,然後相應地調整閾值。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_THRESHOLD

Amazon SNS

NumberOfMessagesPublished

尺寸:TopicName

警示描述:此警示可偵測何時發布的 SNS 訊息數目太少。如需進行疑難排解,請檢查發布者傳送較少流量的原因。

目的:此警示可協助您主動監控並偵測通知發布中的重大捨棄。這可協助您識別應用程式或商務程序的潛在問題,以便您執行適當的動作來確保預期的通知流程。如果您期望系統提供的流量達到最低,您應建立此警示。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:發布的訊息數目應與應用程式預期發布的訊息數目一致。您還可分析歷史資料、趨勢和流量以尋找合適的閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:LESS_THAN_THRESHOLD

NumberOfNotificationsDelivered

尺寸:TopicName

警示描述:此警示可偵測何時傳遞的 SNS 訊息數目太少。這可能是因為無意中取消訂閱端點,或是因為導致訊息發生延遲的 SNS 事件。

目的:此警示可協助您偵測傳遞的數量下降。如果您期望系統提供的流量達到最低,您應建立此警示。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:傳送的訊息數目應與預期產生的訊息數目和取用者數目一致。您還可分析歷史資料、趨勢和流量以尋找合適的閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:LESS_THAN_THRESHOLD

NumberOfNotificationsFailed

尺寸:TopicName

警示描述:此警示可偵測何時的失敗 SNS 訊息數目太多。如果要疑難排解失敗的通知,請啟用記 CloudWatch 錄到記錄 檢查日誌可協助您尋找哪些訂閱用戶失敗,及其正在傳回的狀態碼。

目的:此警示可協助您主動尋找傳遞通知時發生的問題,並執行適當的動作來解決這些問題。

統計資料:總和

建議的閾值:視乎您的情況而定

閾值對正:此警示的建議閾值很大程度上取決於失敗通知的影響。檢閱提供給最終使用者的 SLA、容錯和通知的重要性,並分析歷史資料,然後相應地選取閾值。針對只有 SQS、Lambda 或 Firehose 訂閱的主題,失敗的通知數目應為 0。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

NumberOfNotificationsFilteredOut-InvalidAttributes

尺寸:TopicName

警示描述:此警示有助於監控和解決發布者或訂閱用戶的潛在問題。檢查發布者是否發布具有無效屬性的訊息,或者是否將不適當的篩選條件套用至訂閱用戶。您也可以分析 CloudWatch 記錄檔,協助尋找問題的根本原因。

目的:該警示用於偵測發布的訊息是否無效,或是否已將不適當的篩選條件套用至訂閱用戶。

統計資料:總和

建議的閾值:0.0

閾值對正:無效的屬性幾乎總是發布者的錯誤。建議將閾值設定為 0,因為運作狀態良好的系統中不需要無效的屬性。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

NumberOfNotificationsFilteredOut-InvalidMessageBody

尺寸:TopicName

警示描述:此警示有助於監控和解決發布者或訂閱用戶的潛在問題。檢查發布者是否發布具有無效訊息內文的訊息,或者是否將不適當的篩選條件套用至訂閱用戶。您也可以分析 CloudWatch 記錄檔,協助尋找問題的根本原因。

目的:該警示用於偵測發布的訊息是否無效,或是否已將不適當的篩選條件套用至訂閱用戶。

統計資料:總和

建議的閾值:0.0

閾值對正:無效的郵件內文幾乎總是發布者的錯誤。建議將閾值設定為 0,因為運作狀態良好的系統中不需要無效的訊息內文。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

NumberOfNotificationsRedrivenToDlq

尺寸:TopicName

警示描述:此警示有助於監控移至無效字母佇列的訊息數目。

目的:該警示用於偵測移至無效字母佇列的訊息。建議您在將 SNS 與 SQS、Lambda 或 Firehose 搭配使用時建立此警示。

統計資料:總和

建議的閾值:0.0

閾值對正:在任何訂閱用戶類型的運作狀態良好的系統中,訊息都不應移至無效字母佇列。建議在有任何訊息置於佇列時收到通知,以便識別並解決根本原因,並可能重新驅動無效字母佇列中的訊息,進而避免資料遺失。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

NumberOfNotificationsFailedToRedriveToDlq

尺寸:TopicName

警示描述:此警示有助於監控無法移至無效字母佇列的訊息。檢查您的無效字母佇列是否存在,以及設定是否正確。此外,請確認 SNS 具有存取無效字母佇列的許可。如需進一步了解,請參閱無效字母佇列文件

目的:該警示用於偵測無法移至無法移至無效字母佇列的訊息。

統計資料:總和

建議的閾值:0.0

閾值對正:如果消息無法移至無效字母佇列,則幾乎總是出現錯誤。建議閾值為 0,意味著所有處理失敗的訊息必須在設定無效字母佇列後,才能到達無效字母佇列。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

MonthToDateSpent美元短信

尺寸:TopicName

警示描述:警示有助於監控您的帳戶中是否有足夠的配額,以便讓 SNS 能夠傳遞訊息。如果達到配額,SNS 將無法傳遞 SMS 訊息。如需設定每月 SMS 支出配額的相關資訊,或要求使用提高支出配額的相關資訊 AWS,請參閱設定 SMS 訊息偏好設定。

目的:此警示用於偵測您的帳戶中是否有足夠的配額,以便成功傳遞 SMS 訊息。

統計資料:最大值

建議的閾值:視乎您的情況而定

閾值對正:根據帳戶的配額 (帳戶支出限制) 設定閾值。選擇一個閾值,在達到配額限制時儘早通知您,以便您有時間請求增加配額。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

短信 SuccessRate

尺寸:TopicName

警示描述:此警示有助於監控 SMS 訊息傳遞失敗的速率。您可設定 Cloudwatch Logs 來了解失敗的本質,並據此執行動作。

目的:此警示用於偵測傳遞失敗的 SMS 訊息。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:根據 SMS 訊息傳送失敗的容錯值來設定警示的閾值。

期間:60

警示資料點數目:5

評估期:5

比較運算子:GREATER_THAN_THRESHOLD

Amazon SQS

ApproximateAgeOfOldestMessage

尺寸:QueueName

警示描述:此警示可監控佇列中最舊訊息的存留期。您可使用此警示來監控您的取用者是否以所需速度來處理 SQS 訊息。考慮增加取用者計數或取用者輸送量,以減少訊息存留期。此指標可與 ApproximateNumberOfMessagesVisible 結合使用,以確定佇列積壓程度,以及處理訊息的速度。若要防止郵件在處理之前遭到刪除,請考慮將無效字母佇列設定為旁邊潛在的毒藥訊息。

意圖:此警報用於檢測 QueueName 隊列中最舊消息的年齡是否過高。較長的存留期可能表示訊息的處理速度不夠快,或者有一些毒丸訊息停滯在佇列中且無法處理。

統計資料:最大值

建議的閾值:視乎您的情況而定

閾值對正:此警示的建議閾值很大程度上取決於預期的訊息處理時間。您可使用歷史資料來計算平均訊息處理時間,然後將閾值設定為高於佇列取用者預期 SQS 訊息處理時間上限的 50%。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

ApproximateNumberOfMessagesNotVisible

尺寸:QueueName

警示描述:此警示有助於偵測與 QueueName 相關的大量傳輸中訊息。如需進行疑難排解,請檢查訊息積壓減少

目的:此警示用於偵測佇列中的大量傳輸中訊息。如果取用者未在可視性逾時期間內刪除訊息,則輪詢佇列時,訊息會重新出現在佇列中。若是 FIFO 佇列,最多可有 20,000 則傳輸中訊息。如果達到此配額,SQS 不會傳回錯誤訊息。FIFO 佇列會查看前 20,000 則訊息,以確定可用的訊息群組。這意味著,如果您在單一訊息群組中有積壓訊息,您將無法取用稍後傳送至佇列的其他訊息群組中的訊息,直至您成功取用積壓訊息為止。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:此警示的建議閾值很大程度上取決於預期的傳輸中訊息數目。您可使用歷史資料來計算預期的傳送中訊息數目上限,並將閾值設定為超過此值的 50%。如果佇列取用者正在處理,但並未刪除佇列中的訊息,則此數目會突增。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

ApproximateNumberOfMessagesVisible

尺寸:QueueName

警示描述:此警示會監視訊息佇列積壓是否超出預期,表示取用者太慢或沒有足夠的取用者。如果此警示進入 ALARM 狀態,考慮增加取用者計數或加快取用者速度。

目的:此警示用於偵測作用中佇列的訊息計數是否太高,取用者處理訊息較慢,或者沒有足夠的取用者來處理這些訊息。

統計資料:平均值

建議的閾值:視乎您的情況而定

閾值對正:顯示非預期的較高訊息數目,表示取用者未以預期的速率處理訊息。設定此閾值時,您應考慮歷史資料。

期間:60

警示資料點數目:15

評估期:15

比較運算子:GREATER_THAN_OR_EQUAL_TO_THRESHOLD

NumberOfMessagesSent

尺寸:QueueName

警示描述:此警示有助於偵測是否沒有從生產者傳送與 QueueName 相關的訊息。如需進行疑難排解,請檢查生產者未傳送訊息的原因。

目的:此警示用於偵測生產者何時停止傳送訊息。

統計資料:總和

建議的閾值:0.0

閾值對正:如果傳送的訊息數目為 0,則生產者不會傳送任何訊息。如果此佇列的 TPS 較低,請 EvaluationPeriods 相應地增加的數目。

期間:60

警示資料點數目:15

評估期:15

比較運算子:LESS_THAN_OR_EQUAL_TO_THRESHOLD

AWS VPN

TunnelState

尺寸:VpnId

警示描述:此警示可協助您了解一個或多個通道的狀態是否為 DOWN。如需進行疑難排解,請參閱 VPN 通道故障診斷

目的:此警示用於偵測此 VPN 是否至少有一個通道處於 DOWN 狀態,以便您對受影響的 VPN 進行故障診斷。對於只設定單一通道的網路,此警示將一律處於 ALARM 狀態。

統計資料:最小值

建議的閾值:1.0

閾值對正:值小於 1 表示至少有一個通道處於 DOWN 狀態。

期間:300

警示資料點數目:3

評估期:3

比較運算子:LESS_THAN_THRESHOLD

TunnelState

尺寸:TunnelIpAddress

警示描述:此警示可協助您了解此通道的狀態是否為 DOWN。如需進行疑難排解,請參閱 VPN 通道故障診斷

目的:此警示用於偵測通道是否處於 DOWN 狀態,以便您對受影響的 VPN 進行故障診斷。對於只設定單一通道的網路,此警示將一律處於 ALARM 狀態。

統計資料:最小值

建議的閾值:1.0

閾值對正:值小於 1 表示通道處於 DOWN 狀態。

期間:300

警示資料點數目:3

評估期:3

比較運算子:LESS_THAN_THRESHOLD