選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

失敗管理

焦點模式
失敗管理 - AWS Well-Architected 架構

在任何合理複雜的系統中,均有可能會發生失敗。為達可靠性要求,您的工作負載應在發生失敗時察覺此情況,並採取行動以免影響可用性。工作負載必須能夠承受失敗並自動修復問題。

藉助 AWS,您可以利用自動化對監控資料作出反應。例如,當特定指標超過臨界值時,您可以觸發可修補問題的自動化動作。此外,您無需嘗試診斷和修正生產環境中的失敗資源,而是可以用新的資源取代它,並對失敗的頻外資源執行分析。由於雲端可讓您以低成本建立整個系統的臨時版本,因此您可以使用自動化測試來驗證完整的復原程序。

下列問題著重於可靠性方面的這些考量。

REL 9:您如何備份資料?
備份資料、應用程式和組態,以符合復原時間目標 (RTO) 和復原點目標 (RPO) 的要求。
REL 10:如何使用故障隔離來保護您的工作負載?
故障隔離界限會在工作負載內將失敗影響限制至有限數量的元件。界限外的元件不受失敗影響。使用多個故障隔離界限時,您可以限制對工作負載的影響。
REL 11:如何設計工作負載以承受元件失敗?
需要高可用性和低平均復原時間 (MTTR) 的工作負載必須建立彈性架構。
REL 12:如何測試可靠性?
在將工作負載設計為可彈性應對生產壓力之後,測試是確保其依設計運作並交付您預期之彈性的唯一方法。
REL 13:您如何規劃災難復原 (DR)?
備妥備份和冗餘工作負載元件是 DR 策略的開始。RTO 和 RPO 是您還原 工作負載的目標。根據業務需求設定這些目標。實作策略以滿足這些目標,考量工作負載資源和資料的位置和功能。發生中斷的可能性和復原成本也是重要因素,可反映為工作負載提供災難復原的商業價值。

定期備份資料並測試備份檔案,從而確保您可以從邏輯和物理錯誤中復原。管理失敗的關鍵是對導致失敗的工作負載頻繁進行自動化測試,然後觀察它們可如何復原。定期執行此操作,並確保在出現重大工作負載變更後也能觸發此類測試。主動追蹤 KPI,以及復原時間目標 (RTO) 和復原點目標 (RPO),以評估工作負載的彈性 (尤其是在失敗測試情境下)。追蹤 KPI 將能助您識別和減輕單一失敗點。其目標是徹底測試您的工作負載復原程序,以便您確信即使面對持續問題,您也可以復原所有資料並繼續為客戶提供服務。應與執行正常生產程序一樣執行復原程序。

下一個主題:

資源

上一個主題:

變更管理
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。