REL12-BP01 使用程序手冊調查失敗 - AWS Well-Architected 架構

REL12-BP01 使用程序手冊調查失敗

透過在程序手冊中記錄調查程序,實現對無法充分理解的失敗情境進行快速一致的回應。程序手冊是為識別造成失敗情境的因素所執行的預先定義步驟。在確定或向上呈報問題之前,任何程序步驟的結果都用於確定要採取的後續步驟。

程序手冊是您必須進行的主動規劃,然後才能有效地採取回應動作。在生產環境中遇到程序手冊未涵蓋的故障情境時,請先解決問題 (解決燃眉之急)。然後返回並查看您為解決問題所採取的步驟,並使用這些步驟在程序手冊中新增新的項目。

請注意,程序手冊用於回應特定事件,而執行手冊則用於實現特定成果。執行手冊通常用於例行活動,而程序手冊則用於回應非例行事件。

常用的反模式:

  • 在不知道診斷問題或回應事件的程序之情況下,規劃部署工作負載。

  • 調查事件時,未規劃即決定要向哪些系統收集日誌和指標。

  • 指標和事件的保留時間過短,無法用以擷取資料。

建立此最佳實務的優勢: 擷取程序手冊可確保一致地遵循程序。有系統地編纂您的程序手冊可限制手動活動引入錯誤。程序手冊自動化可免除團隊成員介入的需要,或在介入開始時提供其他資訊,從而縮短事件回應時間。

若未建立此最佳實務,暴露的風險等級為:

實作指引

資源

相關文件:

相關範例: