監控工作負載資源 - 可靠性支柱

監控工作負載資源

日誌和指標是深入了解工作負載運作狀態的強大工具。您可以設定工作負載以監控日誌和指標,並在超過閾值或發生重大事件時傳送通知。監控可讓您的工作負載識別何時會超過低效能閾值或發生故障,以便自動復原來回應。

監控是關鍵步驟,可確保您滿足可用性要求。需高效監控,以偵測故障。最糟糕的故障模式是「沉默」故障,在這種情況下,功能不再發揮功用,但除了間接處理之外,無法偵測到該問題。您的客戶比您知悉的還要早。提醒問題出現的時間,是您監控的主要原因之一。您的提醒應盡量與您的系統解偶。若服務中斷讓您無法接收提醒,您的中斷期會延長。

在 AWS,我們在多個層級進行應用程式偵測。我們會記錄每個請求、所有相依性及流程中關鍵營運的延遲、錯誤率和可用性。我們還記錄成功營運的指標。這樣一來,我們就能在問題即將發生之前加以預防。我們不只考量平均延遲。我們更專注於延遲異常值,例如第 99.9 和 99.99 個百分位數。這是因為如果 1,000 或 10,000 中的一個請求進行緩慢,這仍是個差勁的體驗。此外,雖然您的平均值是可接受的,但如果 100 個請求中有一個造成極端延遲,最終會在流量增加時變成問題。

AWS 監控包含四個不同的階段:

  1. 產生 – 監控工作負載的所有元件

  2. 彙總 – 定義和計算指標

  3. 即時處理和警示 – 傳送通知並將回應自動化

  4. 儲存與分析