REL06-BP06 定期進行審查 - AWS Well-Architected 架構

REL06-BP06 定期進行審查

經常審查工作負載監控的實作方式,並根據重大事件和變更進行更新。

有效的監控是由關鍵業務指標推動。當業務優先事項變更時,確保您的工作負載中會包含這些指標。

稽核您的監控有助於您知道應用程式何時達到其可用性目標。根本原因分析需要能夠發現發生故障時的具體情況。AWS 提供的服務可讓您在事件發生時追蹤服務狀態:

  • Amazon CloudWatch Logs: 您可以將日誌儲存在此服務中並檢查其內容。

  • Amazon CloudWatch Logs Insights:是一項全受管服務,讓您可以在數秒內分析大量日誌。其可為您提供快速且互動式的查詢和視覺化。 

  • AWS Config: 您可以查看在不同時間點使用的 AWS 基礎設施。

  • AWS CloudTrail: 您可以查看在什麼時間及透過什麼主體叫用了哪些 AWS API。

在 AWS,我們每週舉行一次會議, 以審查營運效能 及在團隊之間分享經驗。由於 AWS 旗下有太多團隊,我們建立了 The Wheel 以隨機挑選要審查的工作負載。建立定期執行營運效能審查和知識共享的機制,可增強您從營運團隊獲得更高效能的能力。

常用的反模式:

  • 僅收集預設指標。

  • 設定監控策略,但絕不檢閱。

  • 部署重大變更時不討論監控。

建立此最佳實務的優勢: 定期檢閱監控可預期潛在問題,而不是在預期問題實際發生時對通知作出反應。

若未建立此最佳實務,暴露的風險等級為:

實作指引

  • 為工作負載建立多個儀表板。您必須擁有最上層儀表板,其中包含關鍵業務指標,以及經您確認與工作負載預估運作狀態最相關的 (因為用量不同) 技術指標。您也應該有可以檢查各種應用程式層和相依性的儀表板。

  • 排程及定期檢閱工作負載儀表板。定期執行儀表板檢查。您對於檢查深度可能有不同規律。

    • 檢查指標中的趨勢。比較指標值與歷史值,以查看是否有可能指出某項需要調查的趨勢。這些範例包括:增加延遲、減少主要業務功能,以及增加失敗回應。

    • 檢查指標中的異常值/異常。平均值或中位數可以遮罩異常值。查看時間範圍內的最高和最低值,並調查極端分數的原因。隨著您持續消除這些原因,降低極端的定義可讓您持續改善工作負載效能的一致性。

    • 尋找行為中的急劇變化。指標的數量或方向立即變更,可能表示應用程式有所變更,或您可能需要新增其他指標以追蹤的外部因素。

資源

相關文件: