REL11-BP01 監控工作負載的所有元件以偵測失敗

持續監控工作負載的運作狀態，讓您和自動化系統在發生效能降低或失敗時能夠察覺。根據商業價值監控關鍵績效指標 (KPI)。

所有復原和修復機制首先都必須能夠快速偵測問題。應該先偵測技術故障，以便解決問題。不過，可用性取決於工作負載提供商業價值的能力，因此測量此需求的關鍵績效指標 (KPI) 必須成為偵測和修復策略的一部分。

常用的反模式：

未設定任何警示，因此會在未發出通知的情況下發生停機。
警示存在，但在此臨界值下無法提供足夠的回應時間。
收集的指標經常不足以符合復原時間目標 (RTO)。
只會主動監控面對客戶的工作負載層。
只會收集技術指標，不收集業務功能指標。
無測量工作負載的使用者體驗的指標。

建立此最佳實務的優勢： 在各層級內進行適當的監控，可讓您減少偵測時間，進而減少復原時間。

若未建立此最佳實務，暴露的風險等級為： 高

實作指引

根據您的復原目標決定元件的收集間隔。
- 您的監控間隔取決於復原必須多快完成。您的復原時間取決於所需的復原時間，因此您必須考量此時間和復原時間目標 (RTO)，藉以決定收集頻率。
設定元件的詳細監控。
- 判斷 EC2 執行個體和 Auto Scaling 是否需要詳細監控。詳細監控提供 1 分鐘的間隔指標，預設監控則提供 5 分鐘的間隔指標。
  - 為執行個體啟用或停用詳細監控
  - 使用 Amazon CloudWatch 監控 Auto Scaling 群組和執行個體
- 判斷 RDS 是否需要增強型監控。增強型監控使用 RDS 執行個體上的代理程式，以取得 RDS 執行個體上不同處理程序或執行緒的實用資訊。
  - 增強監控
建立自訂指標來測量業務關鍵績效指標 (KPI)。工作負載會實作關鍵業務功能。這些功能應做為 KPI，以協助確定何時發生間接問題。
- 發布自訂指標
以使用者 Canary 監控使用者的故障體驗。可執行和模擬客戶行為的綜合交易測試 (也稱為 Canary 測試，但請別與 Canary 部署混淆)，是最重要的測試程序之一。針對來自不同遠端位置的工作負載端點持續執行這些測試。
- Amazon CloudWatch Synthetics 可讓您建立使用者 Canary
建立追蹤使用者體驗的自訂指標。如果您可以檢測客戶的體驗，則可以判斷消費者體驗何時變差。
- 發布自訂指標
設定警示以偵測工作負載的任何部分何時未正常運作，並指示何時自動擴展資源。警示會在儀表板上以視覺化方式顯示、透過 Amazon SNS 或電子郵件傳送提醒，以及使用 Auto Scaling 向上或向下擴展工作負載的資源。
- 使用 Amazon CloudWatch 警示
建立儀表板以視覺化指標。儀表板可以讓您以視覺化方式查看趨勢、極端值和其他潛在問題的指標，或提供您可能想要調查之問題的指示。
- 使用 CloudWatch 儀表板

資源

相關文件：

相關範例：

Well-Architected 實驗室：第 300 級：實作運作狀態檢查和管理相依性以提升可靠性

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

REL 11 如何設計工作負載以承受元件失敗？

REL11-BP02 容錯移轉至運作良好的資源