OPS07-BP02 確保對營運準備度進行一致的審查
使用營運準備度審查 (ORR),來確認您可以運行工作負載。 ORR 是在 Amazon 開發的機制,可確認團隊是否可放心地運行工作負載。ORR 是使用需求檢查清單的審查和檢查程序。ORR 是一種自助服務體驗,團隊會透過此體驗來進行工作負載的認證。ORR 包含的最佳實務皆汲取我們多年來建置軟體所獲得的經驗。
ORR 檢查清單包含架構建議、營運程序、事件管理和發行品質。錯誤糾正 (CoE) 程序是這些項目的主要驅動要素。您專屬的事件後分析應有助於專屬 ORR 的發展。ORR 不只是遵循最佳實務,還能防止先前發生過的事件再發。最後,ORR 中也能夠包含安全性、管控和合規需求。
在工作負載啟動以全面供應前,並在整個軟體開發生命週期執行 ORR。在啟動前執行 ORR 可改善安全運行工作負載的能力。定期針對工作負載重新執行 ORR 可捕捉最佳實務中的任何偏移。您可以為新服務的推出制定 ORR 檢查清單,並為定期審查制定 ORR。此可協助您掌握新出現的最佳實務最新狀態,並採納從事件後分析獲得的經驗。隨著您可以更熟練地使用雲端後,您就可以在架構中建置 ORR 需求作為預設值。
預期成果: 您制定 ORR 檢查清單,內含組織的最佳實務。ORR 會在工作負載啟動前執行。ORR 會在工作負載生命週期的過程中定期執行。
常見的反模式:
-
您啟動工作負載,但不知道自己是否能夠運行工作負載。
-
啟動工作負載的認證中未納入管控和安全性需求。
-
不會定期重新評估工作負載。
-
工作負載啟動,但不需設置必要的程序。
-
您可以在多個工作負載中看到重複出現的相同根本原因失敗。
建立此最佳實務的優勢:
-
工作負載包含架構、程序和管理最佳實務。
-
經驗已納入 ORR 程序中。
-
工作負載啟動時,已設置必要的程序。
-
ORR 會在工作負載的整個軟體生命週期執行。
若未建立此最佳實務的風險等級: 高
實作指引
ORR 有兩個部分:程序和檢查清單。貴組織應採用 ORR 程序,並由執行主辦人支援此程序。至少,必須在工作負載啟動以全面供應前執行 ORR。在整個軟體開發生命週期執行 ORR,使其與最佳實務或新需求保持同步。ORR 檢查清單應包含組態項目、安全性和管控需求,以及來自貴組織的最佳實務。在經過一段時間後,您可以使用服務,例如 AWS Config、 AWS Security Hub,和 AWS Control Tower 防護機制,來將 ORR 中的最佳實務建置在防護機制中,以便自動偵測最佳實務。
客戶範例
在發生數個生產事件後,AnyCompany Retail 決定實作 ORR 程序。他們建立了一份檢查清單,其中由最佳實務、管控和合規需求,以及從中斷中汲取的經驗教訓所組成。在工作負載啟動前,新的工作負載會執行 ORR。每個工作負載每年都會使用一部分的最佳實務來執行 ORR,以便納入在 ORR 檢查清單中新增的最佳實務和需求。經過一段時間後,AnyCompany Retail 使用 AWS Config 來偵測最佳實務,進而縮短 ORR 程序的時間。
實作步驟
若要進一步了解 ORR,請閱讀 「營運準備度審查 (ORR)」白皮書。其中提供詳細的資訊,說明 ORR 程序的歷史、如何建立您專屬的 ORR 實務,以及如何制定 ORR 檢查清單。以下步驟是該文件的精簡版本。如需深入了解 ORR 是什麼,以及如何建立您專屬的 ORR,我們建議閱讀該白皮書。
-
召集關鍵利害關係人,包含安全性、營運和開發等團隊的代表人員。
-
請每位利害關係人提供至少一個需求。對於第一次的反覆測試,請嘗試將項目數限制在三十個以下。
-
附錄 B:來自「營運準備度審查 (ORR)」白皮書的 ORR 問題範例包含您可以開始使用的範例問題。
-
-
將需求集中放在試算表中。
-
找出要在其中執行 ORR 的一個工作負載。啟動前的工作負載或內部工作負載是理想的選擇。
-
演練 ORR 檢查清單,並記下任何所探索的項目。如果採取緩解措施,那就可能無法進行探索。對於缺少緩解措施的任何探索,請將那些探索新增至項目的待辦清單中,然後在啟動前加以實作。
-
隨著時間持續在 ORR 檢查清單中新增最佳實務和需求。
使用 Enterprise Support 的 AWS Support 客戶可請求 「營運準備度審查」研討會
實作計劃的工作量: 高。在組織中採用 ORR 實務需要高層和利害關係人的支持。使用貴組織提供的各方意見,來建立和更新檢查清單。
資源
相關的最佳實務:
-
OPS01-BP03 評估管控要求 – ORR 檢查清單原本就很適合用來管控需求。
-
OPS01-BP04 評估合規要求 – ORR 檢查清單中有時會包含合規需求。有些時候,它們會是獨立的程序。
-
OPS03-BP07 適當地為團隊提供資源 – 團隊能力是 ORR 需求的絕佳候選項。
-
OPS06-BP01 為失敗變更進行規劃 – 啟動工作負載前,必須先建立回復或向前回復計劃。
-
OPS07-BP01 確保人員能力 – 若要支援工作負載,您必須具備所需的人員。
-
SEC01-BP03 識別和驗證控制目標 – 安全性控制目標是絕佳的 ORR 需求。
-
REL13-BP01 定義停機和資料遺失的復原目標 – 災難復原計劃是絕佳的 ORR 需求。
-
COST02-BP01 根據貴組織的需求制定政策 – 將成本管理政策納入 ORR 檢查清單是很棒的做法。
相關文件:
相關影片:
相關範例:
相關服務: