使用服務詳細資訊頁面檢視詳細的服務活動和作業狀態 - Amazon CloudWatch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用服務詳細資訊頁面檢視詳細的服務活動和作業狀態

當您檢測應用程式時,Amazon CloudWatch 應用程式信號會對應應用程式發現的所有服務。您可以在「服務詳細資訊」頁面查看單一服務的服務、作業、相依性、Canary 以及從屬端要求的簡介。若要檢視服務詳細資訊頁面,請執行下列動作:

  • 開啟 CloudWatch 主控台

  • 在左側導覽窗格的「應用程式訊號」區段下選擇「務」。

  • 從「服務」、「常用服務」或「相依性」表格中選擇任何服務的名稱。

服務詳細資訊頁面會組織成下列索引標籤:

  • 概觀 — 使用此標籤可查看單一服務的概觀,包括作業數目、相依性、合成和用戶端頁面。此索引標籤會顯示整個服務、常用作業和相依性的關鍵指標。這些指標包括該服務所有服務作業的延遲、錯誤和錯誤的時間序列資料。

  • 服務作業 — 使用此索引標籤可查看服務呼叫的作業清單,以及可測量每項作業健全狀況的關鍵指標的互動式圖形。您可以在圖形中選取資料點,以取得與該資料點相關聯的追蹤、記錄或指標的相關資訊。

  • 相依性 — 使用此頁籤可查看服務呼叫的相依性清單,以及這些相依性的測量結果清單。

  • Synthetics 金絲雀 — 使用此選項卡可查看模擬用戶對服務調用的合成金絲雀列表,以及有關這些金絲雀的關鍵性能指標。

  • 戶端頁面 — 使用此索引標籤可查看呼叫服務的用戶端頁面清單,以及衡量用戶端與應用程式之間互動品質的度量。

檢視您的服務概述

您可以使用「服務簡介」頁面,檢視單一位置中所有服務作業的測量結果高階摘要。檢查與您的應用程序交互的所有操作,依賴關係,客戶端頁面和合成金絲雀的性能。使用此資訊可協助您決定要將精力集中在何處,以識別問題、疑難排解錯誤,以及尋找最佳化的機會。

選擇「服務詳細資料」中的任何連結,即可檢視與特定服務相關的資訊。例如,對於 Amazon EKS 中託管的服務,服務詳細資料頁面會顯示叢集命名空間工作負載資訊。對於在 Amazon ECS 或 Amazon EC2 中託管的服務,服務詳細資訊頁面會顯示環境值。

在 [服務] 底下,[概觀] 索引標籤會顯示下列項目的摘要:

  • 作業 — 使用此索引標籤可查看服務作業的健全狀況。健全狀況狀態是由定義為服務等級目標 (SLO) 一部份的服務層次指標 (SLI) 決定。

  • 相依性 — 使用此標籤可查看應用程式所呼叫之服務的前幾項相依性 (依故障率列出)。

  • Synthetics 金絲雀 — 使用此索引標籤可查看對與服務相關聯的端點或 API 進行模擬呼叫的結果,以及失敗的金絲雀數量。

  • 用戶端頁面 — 使用此索引標籤可查看發生非同步 JavaScript 和 XML (AJAX) 錯誤的用戶端呼叫的首頁。

下圖顯示您的服務概述:

服務概述小工具

[概觀] 索引標籤也會顯示所有服務之間延遲最高的相依性圖表。使用 p99、p 90 和 p 50 延遲指標快速評估哪些相依性會導致您的總服務延遲,如下所示:

服務作業延遲圖

例如,先前的圖表顯示 99% 對客戶服務相依性所做的要求已在大約 4,950 毫秒內完成。其他依賴關係花費的時間更少。

按延遲顯示前四個服務作業的圖形顯示這些服務的要求數量、使用狀態、錯誤率和錯誤率,如下圖所示:

服務作業磁碟區、使用狀態、故障率及錯誤率圖表

檢視服務操作

當您檢測應用程式時,「應用程式信號」會探索應用程式呼叫的所有服務作業。您可以使用「服務作業」頁籤來查看包含服務作業的表格,以及一組測量所選作業效能的測量結果。這些測量結果包括 SLI 狀態、相依性數目、延遲、磁碟區、錯誤、錯誤和可用性,如下圖所示:

服務操作資料表

從篩選文字方塊中選擇一或多個屬性,篩選表格以便更輕鬆地尋找服務作業。當您選擇每個屬性時,系統會引導您完成篩選條件,並在篩選文字方塊下方看到完整的篩選條件。可隨時選擇清除篩選條件以移除資料表篩選條件。

選擇作業的 SLI 狀態以顯示快顯視窗,其中包含任何狀況不良的 SLI 連結,以及查看作業所有 SLO 的連結,如下表所示:

服務操作 SLI 狀態

服務作業表格會列出 SLI 狀態、狀況良好或狀況不良的 SLI 數目,以及每個作業的 SLO 總數。

使用 SLI 監控延遲、可用性和其他用於測量服務運作狀態的操作指標。使用 SLO 來檢查服務和作業的效能和健全狀況狀態。

若要建立 SLO,請執行下列動作:

  • 如果作業沒有 SLO,請在「SLI 狀態」欄中選擇「建立 SL O」按鈕。

  • 如果作業已有 SLO,請執行下列動作:

    • 選取作業名稱旁邊的選項按鈕。

    • 從表格右上角的「動作」 向下箭頭選擇「建立 SLO」。

如需詳細資訊,請參閱服務水準目標 (SLO)

相依性欄會顯示此操作所呼叫的相依性數目。選擇此數字可開啟已根據所選操作篩選的相依性索引標籤。

檢視服務作業指標、相關追蹤和應用程式記錄

應用程式訊號會將服務作業指標與 AWS X-Ray 追蹤、 CloudWatch容器深入解析和應用程式記錄相關聯。使用這些指標疑難排解作業健康狀態問題。若要以圖形資訊的形式檢視量度,請執行下列動作:

  1. 在「服務作業」表格中選取服務作業,即可在表格上方查看所選作業的一組圖形,其中包含「磁碟區和使用狀態」、「延遲」以及錯誤和錯誤」的測量結果。

  2. 將游標暫留在圖表中的某個點上可檢視更多資訊。

  3. 選取點以開啟診斷窗格,其中顯示圖形中所選點的相關追蹤、測量結果和應用程式記錄。

下圖展示了將游標懸停在圖形中某個點上後出現的工具提示,以及按一下點後顯示的診斷窗格。工具提示包含「錯誤與錯誤」圖表中關聯資料點的相關資訊。窗格包含與所選點相關聯的相關追蹤、主要貢獻者應用程式記錄檔

故障和錯誤的相關追蹤

相關痕跡

查看相關跟踪以了解帶有跟踪的基本問題。您可以檢查相關聯的跟踪或與它們關聯的任何服務節點的行為是否類似。若要檢查相關的追蹤,請從「相關的追蹤」表格中選擇追蹤 ID,以開啟所選追蹤的「X-R ay」追蹤詳細資訊頁面。追蹤詳細資訊頁面包含與所選追蹤相關聯的服務節點對應,以及追蹤區段的時間表。

頂尖貢獻者

檢視頂尖的貢獻者,以尋找量度的主要輸入來源。依不同元件將貢獻者分組,以尋找群組內的相似性,並瞭解它們之間的追蹤行為有何不同。

[排名最高的貢獻者] 索引標籤會提供每個群組的通話量可用性平均延遲錯誤故障等指標。下列範例影像顯示 Amazon EKS 平台上部署之應用程式指標套件的主要貢獻者:

服務運營頂級貢獻者

頂級貢獻者包含以下指標:

  • 通話磁碟區-使用通話磁碟區來瞭解群組每個時間間隔的要求數目。

  • 可用-使用可用性來查看群組未偵測到任何錯誤的時間百分比。

  • 均延遲-使用延遲來檢查在一段時間間隔內為群組執行要求的平均時間,此時間間隔取決於您正在調查的要求是多久之前而定。在 15 天之前提出的要求會以 1 分鐘的間隔進行評估。在 15 到 30 天之前提出的要求 (含) 會以 5 分鐘的間隔進行評估。例如,如果您正在調查 15 天前造成錯誤的要求,則呼叫量度等於每 5 分鐘間隔的要求數目。

  • 錯誤-在一段時間間隔內測量的每個群組的錯誤數。

  • 錯誤-每個群組在一段時間間隔內的錯誤數目。

頂級貢獻者使用 Amazon EKS 或 Kubernetes

使用 Amazon EKS 上部署應用程式的主Kubernetes要貢獻者相關資訊,或查看依節點PodPodTemplateHash分組的操作健康狀態指標。下列定義適用:

  • 網繭是一或多個共用儲存區和資源的Docker容器所組成的群組。網繭是可在Kubernetes平台上部署的最小單位。依網繭分組,以檢查錯誤是否與網繭特定限制相關。

  • 點是執行 Pod 的伺服器。按節點分組以檢查錯誤是否與節點特定限制有關。

  • 繭範本雜湊可用來尋找部署的特定版本。依網繭範本雜湊分組,以檢查錯誤是否與特定部署相關。

頂級貢獻者使用 Amazon EC2

使用 Amazon EKS 上部署應用程式的主要貢獻者相關資訊,查看依執行個體 ID 和 auto 擴展群組分組的操作狀態指標。下列定義適用:

  • 執行個體 ID 是您服務執行之 Amazon EC2 執行個體的唯一識別碼。依執行個體 ID 分組,以檢查錯誤是否與特定 Amazon EC2 執行個體相關。

  • auto 擴展群組是 Amazon EC2 執行個體的集合,可讓您擴展或縮減處理應用程式請求所需的資源。如果您想要檢查群組內的執行個體範圍是否有錯誤限制,請依照 auto 調整資源調整群組進行分組。

使用自訂平台的頂尖貢獻者

使用有關使用自訂檢測部署之應用程式的主要貢獻者資訊,查看依主機名稱分組的作業健全狀況指標。下列定義適用:

  • 主機名稱可識別連線到網路的裝置,例如端點或 Amazon EC2 執行個體。按主機名稱分組,以檢查您的錯誤是否與特定的物理或虛擬設備有關。

檢視Log Insights和中的頂尖貢獻者 Container Insights

Log Insights 中檢視和修改為頂尖貢獻者產生指標的自動查詢。依特定群組 (例如容器深入解析中的網繭或節點) 檢視基礎結構效能指標。您可以按資源消耗對叢集、節點或工作負載進行排序,並在最終使用者體驗受到影響之前快速識別異常情況或主動降低風險。顯示如何選取這些選項的影像如下:

頂部貢獻者表

容器深入解析中,您可以檢視 Amazon EKS 或 Amazon ECS 容器的指標,這些指標是專門針對頂尖貢獻者的群組。例如,如果您針對 EKS 容器依網繭分組以產生最高貢獻者,容器深入解析將會顯示針對您的網繭篩選的度量和統計資料。

Log Insights 中,您可以使用下列步驟修改「頂尖貢獻者」下產生量度的查詢:

  1. 在日誌深入解析中選取檢視。開啟的「記錄見解」頁面包含自動產生的查詢,其中包含下列資訊:

    • 記錄叢集群組名稱。

    • 你正在調查的行 CloudWatch動

    • 與圖表上互動的作業健康度量彙總。

    系統會自動篩選記錄結果,以顯示您在服務圖表上選取資料點前五分鐘的資料。

  2. 若要編輯查詢,請以您的變更取代產生的文字。您也可以使用「查詢產生器」來協助您產生新查詢或更新既有查詢。

應用程式記錄

使用 [應用程式記錄] 索引標籤中的查詢來產生目前記錄群組、服務的記錄資訊,並插入時間戳記。記錄群組是一組日誌串流,您可以在設定應用程式時定義這些串流。

使用記錄群組來組織具有類似特性的記錄檔,包括下列各項:

  • 從特定組織、來源或功能擷取記錄。

  • 擷取特定使用者存取的日誌。

  • 擷取特定時段的記錄檔。

您可以使用這些記錄串流來追蹤特定群組或時間範圍。您也可以設定這些記錄群組的監視規則、警示和通知。如需有關記錄群組的詳細資訊,請參閱使用記錄群組和記錄資料流

應用程式記錄查詢會傳回記錄檔、週期性文字模式和日誌群組的圖形視覺效果。

若要執行查詢,請選取 [在記錄檔見解中執行查詢],以執行自動產生的查詢或修改查詢。若要編輯查詢,請以您的變更取代自動產生的文字。您也可以使用「查詢產生器」來協助您產生新查詢或更新既有查詢。

下圖顯示了根據服務操作圖中選取的點自動產生的查詢範例:

應用程式記錄表

在前面的影像中, CloudWatch 已自動偵測到與所選點相關聯的記錄群組,並將其包含在產生的查詢中。

檢視服務相依性

選擇相依性索引標籤,即可顯示相依性資料表,以及所有服務操作或單個操作之相依性的一組指標。此資料表包含 Application Signals 發現的相依性清單,包括延遲、呼叫量、故障率、錯誤率和可用性的指標。

在頁面頂端,從向下箭號清單選擇作業以檢視其相依性,或選擇「全部」以查看所有作業的相依性。

篩選資料表,可讓您更容易找到要尋找的內容,方法是從篩選文字方塊中選擇一個或多個屬性。當您選擇每個屬性時,系統會引導您完成篩選條件,並在篩選文字方塊下方看到完整的篩選條件。可隨時選擇清除篩選條件以移除資料表篩選條件。選取資料表右上角的按相依性分組,可按服務和操作名稱對相依性分組。開啟分組時,使用相依性名稱旁邊的 + 圖示來展開或摺疊相依性群組。

相依性資料表

相依性資料欄會顯示相依性服務名稱,而遠端操作資料欄則顯示服務操作名稱。呼叫 AWS 服務時,「目標」欄會顯示 AWS 資源,例如 DynamoDB 表格或 Amazon SNS 佇列。

若要選取相依性,請選取相依性資料表中某個相依性旁邊的選項。這會顯示一組圖形,其中顯示通話量、使用狀態、錯誤和錯誤的詳細測量結果。將游標暫留在圖表中的某個點上,即可看到包含更多資訊的快顯視窗。在圖形中選取一個點以開啟診斷窗格,該窗格顯示圖形中所選點的相關繪線。從「相關聯」追蹤表格中選擇追蹤 ID,以開啟所選追蹤的「X-Ray 追蹤詳細資訊」頁面。

相依性圖表和相關追蹤

檢視 Synthetics Canaries

選擇 Synthetics Canaries 索引標籤以顯示 Synthetics Canaries 資料表,以及資料表中每個 Canary 的一組指標。此表格包含成功百分比、平均持續時間、執行次數和失敗率的指標。只會顯示已啟用 AWS X-Ray 追蹤的金絲雀。

使用合成金絲雀表格中的篩選文字方塊,尋找您感興趣的金絲雀。您建立的每個篩選器都會顯示在篩選文字方塊下方。可隨時選擇清除篩選條件以移除資料表篩選條件。

Synthetics Canaries 資料表

選取初期測試名稱旁邊的圓鈕,即可查看一組標籤,其中包含詳細量度的圖表,包括成功百分比、錯誤和持續時間。將游標暫留在圖表中的某個點上,即可看到包含更多資訊的快顯視窗。在圖形中選取一個點以開啟診斷窗格,該窗格顯示與所選點相關的初期測試執行。選取初期測試執行,然後選擇 [執行時間] 以查看所選初期測試執行的成品,包括記錄HTTP檔、封存 (HAR) 檔案、螢幕擷取畫面和建議步驟,以協助您疑難排解問題。選擇更多拉恩以打開金絲雀跑步旁邊的 CloudWatch Synthetics 金絲雀頁面。

Synthetics Canary 圖表和執行

檢視您的用戶端頁面

選擇「客戶端頁面」標簽以顯示調用服務的客戶端網頁列表。使用所選用戶端頁面的一組指標來衡量客戶與服務或應用程式互動時的體驗品質。這些量度包括頁面載入、Web 重要資料和錯誤。

若要在表格中顯示用戶端頁面,您必須設定 R CloudWatch UM Web 用戶端的 X-Ray 追蹤,並為用戶端頁面開啟「應用程式訊號」度量。選擇「管理頁面」以選取啟用「應用程式訊號」測量結果的頁面。

使用篩選器文字方塊,在篩選器文字方塊下方尋找您感興趣的用戶端頁面或應用程式監視器。選擇 [清除篩選器] 以移除表格篩選器。選取按用戶端分組,可按用戶端對用戶端頁面進行分組。分組後,選擇用戶端名稱旁邊的 + 圖示以展開該列,並查看該用戶端的所有頁面。

用戶端頁面資料表

若要選取用戶端頁面,請在用戶端頁面資料表中選取用戶端頁面旁邊的選項。您將看到一組顯示詳細指標的圖表。將游標暫留在圖表中的某個點上,即可看到包含更多資訊的快顯視窗。在圖形中選取一個點以開啟診斷窗格,其中顯示圖形中所選點的相關效能導覽事件。從導覽事件清單中選擇事件 ID,以開啟所選事件的 CloudWatch RUM 頁面檢視

CloudWatch RUM 客戶端頁面請求
注意

若要查看用戶端頁面中的 AJAX 錯誤,請使用 CloudWatch RUM 網頁用戶端版本 1.15 或更新版本。

目前,每個服務最多可顯示 100 個操作、canary 和用戶端頁面,以及最多 250 個相依性。