範例:使用 Application Signals 來解決操作運作狀態問題 - Amazon CloudWatch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

範例:使用 Application Signals 來解決操作運作狀態問題

下列案例提供如何使用 Application Signals 來監控服務及識別服務品質問題的範例。深入分析以找出潛在的根本原因,並採取行動來解決問題。此範例的重點是寵物診所應用程式,該應用程式由多個呼叫的微服務 AWS 服務 (例如 DynamoDB) 組成。

Jane 是一個 DevOps 團隊的成員,負責監督寵物診所申請的運營健康狀況。Jane 的團隊致力於確保應用程式具有高可用性和高回應速度。他們使用服務水準目標 (SLO),根據這些業務承諾來衡量應用程式效能。她收到有關數個不良服務水準指標 (SLI) 的警示。她開啟 CloudWatch 主控台並導覽至「服務」頁面,在此頁面上看到數個服務處於不健康狀態。

SLI 狀態不佳的服務

在頁面頂端,Jane 看到 visits-service 是故障率最高的服務。她選取圖表中的連結,開啟該服務的「服務」詳細資訊頁面。她看到服務操作資料表中有狀態不佳的操作。她選取此操作,並在「磁碟區與可用性」圖表中看到有定期呼叫量尖峰,這似乎與可用性下降相關。

服務操作量和可用性

為了更深入了解服務可用性的下降,Jane 會在圖表中選取其中一個可用性資料點。隨即開啟一個選單,其中顯示與所選資料點相關的 X-Ray 追蹤。她看到有多個包含故障的追蹤。

服務可用性和相關追蹤

Jane 會選取其中一個具有錯誤狀態的相關追蹤,這會開啟所選追蹤的「X-Ray 追蹤」詳細資訊頁面。Jane 向下捲動至「區段時間軸」部分,並遵循呼叫路徑,直到看到對 DynamoDB 資料表的呼叫傳回錯誤為止。她選取 DynamoDB 區段,並導覽至右側抽屜的「例外狀況」索引標籤。

具有 DynamoDB 錯誤的追蹤區段

Jane 發現 DynamoDB 資源設定錯誤,導致客戶請求尖峰期間發生錯誤。DynamoDB 資料表的佈建輸送量水平會定期超出範圍,導致服務可用性問題和運作狀態不佳的 SLI。根據此資訊,她的團隊能夠設定更高層級的佈建輸送量,並確保應用程式的高可用性。