REL13-BP03 測試災難復原實作以驗證實作 - 可靠性支柱

REL13-BP03 測試災難復原實作以驗證實作

定期測試容錯移轉到您的復原站點以確認它正常操作,並符合 RTO 和 RPO。

常見的反模式:

  • 切勿在生產環境中執行容錯移轉。

建立此最佳實務的優勢:定期測試您的災難復原計畫,可驗證該計畫能在需要時運作,也能讓您的團隊知道如何執行策略。

未建立此最佳實務時的曝險等級:

實作指引

要避免的模式是:開發鮮少執行的復原路徑。例如,您可能有一個次要資料存放區,只供唯讀查詢之用。當您寫入資料存放區而主資料存放區發生故障時,您可能需要容錯移轉到次要資料存放區。如果您不經常測試此容錯移轉,則可能會發現您對次要資料存放區的功能的假設不正確。次要資料存放區的容量 (在您上次測試時可能已經足夠) 在這種情況下可能無法再容忍負載。我們的經驗顯示,唯一能發揮功用的錯誤復原,是您經常測試的路徑。因此,最好擁有少量的復原路徑。您可建立復原模式,並定期進行測試。若擁有複雜或關鍵復原路徑,您還是需要定期在生產環境中執行該故障,說服自己該復原路徑能發揮功用。在我們剛剛討論的範例中,無論是否需要,您都應定期容錯移轉到備用資料庫。

實作步驟

  1. 為復原設計您的工作負載。定期測試您的復原路徑。復原導向運算可識別系統中能增強復原能力的特性:隔離和備援,系統範圍內的回復變更能力,監控和確定運行狀態的能力,提供診斷、自動復原和模組化設計的能力,以及重新啟動的能力。練習復原路徑,以確認您可以在指定時間內完成復原到指定狀態。在復原過程中使用您的執行手冊,以記錄問題並在下一次測試前找出其解決方案。

  2. 對於以 Amazon EC2 為基礎的工作負載,請使用 AWS Elastic Disaster Recovery 為 DR 策略實作和啟動演練執行個體。AWS Elastic Disaster Recovery 提供有效執行演練的功能,協助您準備容錯移轉事件。您也可以使用 Elastic Disaster Recover 頻繁啟動您的執行個體進行測試和演練,而不需要重新導向流量。

資源

相關文件:

相關影片:

相關範例: