AWS Resilience Hub — 復原力管理 - AWS 韌性樞紐

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Resilience Hub — 復原力管理

AWS Resilience Hub 為您提供一個集中的位置來定義、驗證和追蹤 AWS 應用程式的恢復能力。 AWS Resilience Hub 協助您保護應用程式免受中斷的影響,並降低回復成本,以最佳化業務連續性,以協助符合法規遵循與法規要求。您可以使用 AWS Resilience Hub 來執行下列動作:

  • 分析您的基礎架構並取得改善應用程式復原能力的建議。除了改善應用程式恢復能力的架構指導之外,這些建議還提供符合恢復原則、實作測試、警示和標準作業程序 (SOP) 的程式碼,您可以在整合和交付 (CI/CD) 管道中部署和執行應用程式。

  • 評估不同條件下的復原時間目標 (RTO) 和復原點目標 (RPO) 目標。

  • 優化業務連續性,同時降低回復成本。

  • 在生產環境中發生之前找出問題並加以解決。

將應用程式部署到生產環境之後,您可以新增 AWS Resilience Hub 至 CI/CD 管線,以便在每個組建發行到生產環境之前驗證每個組建。

如何 AWS Resilience Hub 工作

下圖提供了如何 AWS Resilience Hub 工作的高層次概述。

顯示如何 AWS Resilience Hub 工作的流程圖。
描述

透過從 AWS CloudFormation 堆疊、Terraform 狀態檔案、Amazon Elastic Kubernetes Service 叢集匯入資源來描述您的應用程式,或者您也可以從中已定義的應用程式中進行選擇。 AWS Resource Groups AWS Service Catalog AppRegistry

定義

定義應用程式的復原原則。這些原則包括適用於應用程式、基礎結構、可用區域和區域中斷的 RTO 和 RPO 目標。這些目標是用來估計應用程式是否符合復原原則。

評估

在您描述應用程式並將復原原則附加至應用程式之後,請執行復原評估。 AWS Resilience Hub 評估使用 AWS Well-Architected Framework 的最佳做法來分析應用程式的元件,並發現潛在的彈性弱點。這些弱點可能是由於基礎結構設定不完整、組態錯誤或需要其他組態改善的情況所導致。若要改善恢復能力,請根據評估報告的建議更新您的應用程式和復原政策。建議包括組件,警報,測試和恢復 SOP 的配置。然後,您可以執行另一個評估,並將結果與先前的報告進行比較,以查看有多少彈性提升。重申此程序,直到您估計的工作負載 RTO 和估計的工作負載 RPO 符合 RTO 和 RPO 目標為止。

驗證

執行測試以測量 AWS 資源的彈性,以及從應用程式、基礎結構、可用區域和 AWS 區域 事件復原所需的時間。為了測量彈性,這些測試會模擬資源中斷。 AWS 中斷的範例包括網路無法使用的錯誤、容錯移轉、已停止的程序、Amazon RDS 開機復原,以及可用區域的問題。

檢視和追蹤

將 AWS 應用程式部署到生產環境之後,您可以使用 AWS Resilience Hub 繼續追蹤應用程式的復原狀態。如果發生中斷,操作員可以檢視中斷, AWS Resilience Hub 並啟動相關的復原程序。