本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
OPS07-BP04 使用教戰手冊調查問題
Playbook 是 step-by-step用來調查事件的指南。事件發生時,我們會使用程序手冊來調查、確認影響範圍和找出根本原因。程序手冊適用於各種情況,從失敗的部署到安全性事故。在許多案例中,程序手冊可釐清根本原因,而執行手冊則用來緩解該根本原因。程序手冊是組織事件應變計劃的關鍵要素。
一個好的程序手冊有幾個關鍵功能。它循序漸進地引導使用者完成探索過程。從外到內思考,應該遵循哪些步驟來診斷事件? 在程序手冊中明確定義程序手冊中是否需要特殊工具或更高權限。制定溝通計畫,向利益相關者通報調查進展情況,這非常關鍵。在無法確定根本原因的情況下,程序手冊應具有升級計畫。如果確定了根本原因,程序手冊應該指向說明如何解決問題的執行手冊。程序手冊應集中存放並定期維護。如果程序手冊用於特定提醒,請在提醒中為您的團隊提供指向程序手冊的指引。
隨著組織的成熟,會將您的程序手冊自動化。從涵蓋低風險事件的程序手冊開始。使用指令碼自動執行探索步驟。確認您有配套的執行手冊來減輕常見根本原因。
預期成果:您的組織擁有常見事件的程序手冊。程序手冊存放在中心位置,並可供您的團隊成員使用。程序手冊會經常更新。對於任何已知的根本原因,都會構建配套的執行手冊。
常見的反模式:
-
調查事件沒有標準方法。
-
團隊成員依賴肌肉記憶或機構知識來疑難排解失敗的部署。
-
新團隊成員學習如何透過試驗和錯誤來調查問題。
-
調查問題的最佳實務不會跨團隊共用。
建立此最佳實務的優勢:
-
程序手冊可加強您減輕事故的努力。
-
不同的團隊成員可以使用相同的程序手冊,以一致的方式識別根本原因。
-
您可以為已知的根本原因制定執行手冊,進而縮短復原時間。
-
程序手冊有助於團隊成員更快地開始做出貢獻。
-
團隊可以透過可重複的程序手冊擴展其程序。
未建立此最佳實務時的曝險等級:中
實作指引
建置和使用程序手冊的方式取決於組織的成熟度。如果您是雲端新手,請在中央文件儲存庫中以文字形式建立程序手冊。隨著組織的成熟,程序手冊可以使用 Python 之類的指令碼語言進行半自動化。這些指令碼可以在 Jupyter 筆記本內部運行,以加快發現速度。進階組織具有完全自動化的程序手冊,可解決使用執行手冊自動修復的常見問題。
列出工作負載發生的常見事件,開始建置程序手冊。為低風險並且根本原因已縮小到幾個問題的事件選擇程序手冊以開始。在您擁有更簡單案例的程序手冊之後,請轉到風險較高的案例或根本原因尚不明確的案例。
隨著組織的成熟,應自動化文字程序手冊。使用 AWS Systems Manager Automation 等服務,可以將純文字轉換為自動化功能。可以針對您的工作負載執行這些自動化,以加快調查速度。可以啟動這些自動化以回應事件,減少發現和解決事故的平均時間。
客戶可以使用 AWS Systems Manager Incident Manager 來回應事故。此服務提供單一介面來分類事故、在發現和緩解期間通知利益相關者,並在整個事故中進行協同合作。它使用 AWS Systems Manager Automations 來加速偵測和復原。
客戶範例
生產事件影響 AnyCompany 了零售。隨時待命的工程師使用程序手冊來調查問題。隨著他們逐步完成這些步驟,他們會讓程序手冊中確定的關鍵利益相關者了解最新狀況。工程師將根本原因確定為後端服務中的競爭條件。工程師使用 Runbook 重新啟動服務,讓 AnyCompany零售重新上線。
實作步驟
如果您沒有現有的文件儲存庫,建議您為程序手冊庫建立版本控制儲存庫。您可以使用 Markdown 構建程序手冊,它可與大多數程序手冊自動化系統相容。如果您是從頭開始,請使用下列範例程序手冊範本。
# Playbook Title ## Playbook Info | Playbook ID | Description | Tools Used | Special Permissions | Playbook Author | Last Updated | Escalation POC | Stakeholders | Communication Plan | |-------|-------|-------|-------|-------|-------|-------|-------|-------| | RUN001 | What is this playbook for? What incident is it used for? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name | Stakeholder Name | How will updates be communicated during the investigation? | ## Steps 1. Step one 2. Step two
-
如果您沒有現有的文件儲存庫或 wiki,請在版本控制系統中為您的程序手冊建立新的版本控制儲存庫。
-
找出需要調查的常見問題。這種情況應該是根本原因僅限於少數問題且解決方案風險較低。
-
使用 Markdown 範本,填寫 [程序手冊名稱] 部分和 [程序手冊資訊] 下方的欄位。
-
填寫疑難排解步驟。盡可能明確要執行哪些操作或應該調查哪些領域。
-
將程序手冊交給團隊成員,讓他們仔細閱讀以驗證。如果有任何遺漏或不清楚的內容,請更新程序手冊。
-
在文件儲存庫中發布程序手冊,並通知您的團隊和任何利益相關者。
-
此程序手冊庫會隨著您新增更多程序手冊而增加。擁有多個教戰手冊後,開始使用 AWS Systems Manager Automations 等工具來自動化這些手冊,以保持自動化和教戰手冊的同步。
實作計劃的工作量:低。您的程序手冊應該是存放在中央位置的文字文件。更成熟的組織將推進程序手冊自動化。
資源
相關的最佳實務:
相關文件:
相關影片:
相關範例:
相關服務: