營運 - AWS Well-Architected 架構

營運

可觀測性讓您能夠專注於有意義的資料,並了解工作負載的互動和結果。透過專注於基本洞見並消除不必要的資料,您就能持續使用簡單直接的方式來了解工作負載效能。重點不只是收集資料,還要正確解譯資料。定義清楚的基準、設定適當的警示閾值,並主動監控任何偏差情況。一旦關鍵指標稍有變化,尤其是與其他資料相關時,就能精確指出特定問題所在。有了可觀測性,您就具備更優異的預測能力,並且能應付潛在的挑戰,進而確保工作負載順利運行並滿足業務需求。

我們可根據業務和客戶成果的實現情況,衡量是否成功運作工作負載。定義預期成果,確定如何衡量成功,並識別可用於這些計算的指標,以判斷您的工作負載和營運是否成功。營運運作狀態包括工作負載的運作狀態,以及為支援工作負載所執行營運活動 (例如,部署和事件回應) 的運作狀態和成功情況。建立指標基準以便進行改善、調查和介入;收集並分析指標;然後,驗證您對營運成功及其隨著時間的變化情況的理解。使用收集的指標來確定您是否滿足客戶和業務需求,並識別有待改善的領域。

要實現卓越營運,必須有效地管理營運事件。這適用於計劃和非計劃中的營運事件。使用已建立的執行手冊處理已充分了解的事件,並使用程序手冊協助調查和解決問題。根據事件對業務和客戶的影響來確定回應事件的優先順序。確認若因回應事件而發出警示,則將由明確識別的擁有者執行關聯程序。事先定義解決事件所需的人員,並納入向上呈報程序,以在必要時根據緊迫性和影響力,在其中新增額外的參與人員。識別並邀請具有權限的個人來決定行動方案,該方案將受到先前未解決的事件回應的業務影響。

透過針對目標受眾 (例如,客戶、業務、開發人員、營運) 量身定制的儀表板和通知來傳達工作負載的運行狀態,以便他們能採取適當的動作,進而管理他們的期望並在恢復正常營運時得到通知。

在 AWS 中,您可以產生儀表板視圖,用以顯示從工作負載或以原生方式從 AWS 收集的指標。您可以利用 CloudWatch 或第三方應用程式來彙總和顯示營運活動的業務、工作負載和營運等級視圖。AWS 可透過記錄功能 (包括 AWS X-Ray 、CloudWatch、CloudTrail 和 VPC Flow Logs) 提供工作負載洞見,讓您從中識別工作負載問題,以支援根本原因分析和修復。

下列問題著重於卓越營運方面的這些考量。

OPS 8:  How do you utilize workload observability in your organization?
Ensure optimal workload health by leveraging observability. Utilize relevant metrics, logs, and traces to gain a comprehensive view of your workload's performance and address issues efficiently.
OPS 9:  How do you understand the health of your operations?
Define, capture, and analyze operations metrics to gain visibility to operations events so that you can take appropriate action.
OPS 10:  How do you manage workload and operations events?
Prepare and validate procedures for responding to events to minimize their disruption to your workload.

您收集的所有指標都應該符合業務需求及其支援的結果。開發針對已充分了解之事件的指令碼式回應,並自動化其效能以回應事件辨識。