監控工作負載資源

日誌和指標是可深入洞察工作負載運作狀態的強大工具。您可以設定工作負載以監控日誌和指標，並在超過閾值或發生重大事件時傳送通知。監控可讓您的工作負載識別何時會超過低效能閾值或發生故障，以便自動復原來回應。

監控是確保您會滿足可用性要求的關鍵步驟。需高效監控，以偵測故障。最糟糕的失敗模式是「沉默」失敗，在這種情況下，功能不再發揮功用，但除了間接處理之外，無法偵測到該問題。您的客戶比您知悉的還要早。提醒問題出現的時間，是您監控的主要原因之一。您的提醒應盡量與您的系統解偶。若服務中斷讓您無法接收提醒，您的中斷期會延長。

在 AWS，我們在多個層級進行應用程式偵測。我們會記錄每個請求、所有相依性及流程中關鍵營運的延遲、錯誤率和可用性。我們還記錄成功營運的指標。這樣一來，我們就能在問題即將發生之前加以預防。我們不只考量平均延遲。我們更專注於延遲異常值，例如第 99.9 和 99.99 個百分位數。這是因為如果 1,000 或 10,000 中的一個請求進行緩慢，這仍是個差勁的體驗。此外，雖然您的平均值是可接受的，但如果 100 個請求中有一個造成極端延遲，最終會在流量增加時變成問題。

AWS 監控包含四個不同的階段：

產生 – 監控工作負載的所有元件
彙總 – 定義和計算指標
即時處理和警示 – 傳送通知並將回應自動化
儲存與分析

最佳實務

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

變更管理

REL06-BP01 監控工作負載的所有元件 (產生)