OPS08-BP01 分析工作負載指標 - AWS Well-Architected 架構

OPS08-BP01 分析工作負載指標

實作應用程式遙測之後,請定期分析收集到的指標。雖然延遲、請求、錯誤和容量 (或配額) 可提供深入了解系統效能的洞見,但務必將檢閱業務成果指標視為優先事項。這樣做可確保您所做的資料驅動決策符合您的業務目標。

預期成果: 獲得深入工作負載效能的精確洞見,有助於做出資料驅動的決策,確保與業務目標保持一致。

常見的反模式:

  • 單獨分析指標,未能考慮到其對業務目標的影響。

  • 過度依賴技術指標,而輕忽業務指標。

  • 未能時常檢閱指標,而錯失即時決策的機會。

建立此最佳實務的優勢:

  • 增進對於技術表現與業務成果之間相互關聯的了解。

  • 透過即時資料改善了決策過程。

  • 主動識別並緩解問題,不讓問題影響業務成果。

未建立此最佳實務時的曝險等級:

實作指引

利用像是 Amazon CloudWatch 等工具進行指標分析。AWS 服務 (如 AWS Cost Anomaly Detection 和 Amazon DevOps Guru) 可用來偵測異常狀況,特別是在靜態閾值未知,或行為模式更適合異常偵測的情況下。

實作步驟

  1. 分析與檢閱: 定期檢閱和解讀您的工作負載指標。

    1. 將業務成果指標視為優先於純粹技術指標的事項。

    2. 了解資料中峰值、下降或模式的重要性。

  2. 利用 Amazon CloudWatch: 使用 Amazon CloudWatch 集中檢視並進行深入分析。

    1. 設定 CloudWatch 儀表板以視覺化您的指標,並長時間進行比較。

    2. CloudWatch 中使用百分位數 以清楚了解指標的分佈情形,這有助於定義 SLA 和了解極端值。

    3. 設定 AWS Cost Anomaly Detection 以識別不尋常的模式,而不依賴靜態閾值。

    4. 實作 CloudWatch 跨帳戶可觀測性 以監控跨區域內多個帳戶的應用程式並進行疑難排解。

    5. 使用 CloudWatch Metric Insights 查詢和分析跨帳戶和區域的指標資料,以找出趨勢和異常狀況。

    6. 套用 CloudWatch Metric Math 來轉換、彙總或對您的指標執行計算,以獲得更深入的洞見。

  3. 採用 Amazon DevOps Guru: 納入 Amazon DevOps Guru 以利用其機器學習強化的異常偵測功能,識別無伺服器應用程式操作問題的早期跡象,並矯正問題以免影響客戶。

  4. 根據洞見最佳化: 根據您的指標分析做出明智的決策,以調整和改善您的工作負載。

實作計劃的工作量:

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例: