失敗管理 - AWS Well-Architected 架構

失敗管理

在任何合理複雜的系統中,均有可能會發生失敗。為達可靠性要求,您的工作負載應在發生失敗時察覺此情況,並採取行動以免影響可用性。工作負載必須能夠承受失敗並自動修復問題。

藉助 AWS,您可以利用自動化對監控資料作出反應。例如,當特定指標超過臨界值時,您可以觸發可修補問題的自動化動作。此外,您無需嘗試診斷和修正生產環境中的失敗資源,而是可以用新的資源取代它,並對失敗的頻外資源執行分析。由於雲端可讓您以低成本建立整個系統的臨時版本,因此您可以使用自動化測試來驗證完整的復原程序。

下列問題著重於可靠性方面的這些考量。

REL 9:您如何備份資料?
備份資料、應用程式和組態,以符合復原時間目標 (RTO) 和復原點目標 (RPO) 的要求。
REL 10:如何使用故障隔離來保護您的工作負載?
故障隔離界限會在工作負載內將失敗影響限制至有限數量的元件。界限外的元件不受失敗影響。使用多個故障隔離界限時,您可以限制對工作負載的影響。
REL 11:如何設計工作負載以承受元件失敗?
需要高可用性和低平均復原時間 (MTTR) 的工作負載必須建立彈性架構。
REL 12:如何測試可靠性?
在將工作負載設計為可彈性應對生產壓力之後,測試是確保其依設計運作並交付您預期之彈性的唯一方法。
REL 13:您如何規劃災難復原 (DR)?
備妥備份和冗餘工作負載元件是 DR 策略的開始。RTO 和 RPO 是您還原 工作負載的目標。根據業務需求設定這些目標。實作策略以滿足這些目標,考量工作負載資源和資料的位置和功能。發生中斷的可能性和復原成本也是重要因素,可反映為工作負載提供災難復原的商業價值。

定期備份資料並測試備份檔案,從而確保您可以從邏輯和物理錯誤中復原。管理失敗的關鍵是對導致失敗的工作負載頻繁進行自動化測試,然後觀察它們可如何復原。定期執行此操作,並確保在出現重大工作負載變更後也能觸發此類測試。主動追蹤 KPI,以及復原時間目標 (RTO) 和復原點目標 (RPO),以評估工作負載的彈性 (尤其是在失敗測試情境下)。追蹤 KPI 將能助您識別和減輕單一失敗點。其目標是徹底測試您的工作負載復原程序,以便您確信即使面對持續問題,您也可以復原所有資料並繼續為客戶提供服務。應與執行正常生產程序一樣執行復原程序。