OPS04-BP02 實作應用程式遙測 - 卓越營運支柱

OPS04-BP02 實作應用程式遙測

應用程式遙測是工作負載可觀測性的基礎。提供遙測相當重要,因為能讓您獲得可付諸行動的洞見,深入了解應用程式的狀態以及實現的技術與業務成果。從疑難排解到衡量新功能的影響,或確保與業務關鍵績效指標 (KPI) 保持一致,應用程式遙測都能為您指出建置、操作和發展工作負載的方式。

指標,日誌和追蹤是構成可觀測性的三大要素。這些要素可做為診斷工具來描述應用程式的狀態。經過一段時間後,這些要素可協助建立基準和識別異常狀況。然而,為了確保監控活動與業務目標保持一致,就必須定義並監控 KPI。與單獨的技術指標相比,業務 KPI 通常更容易找出問題所在。

其他遙測類型 (例如實際使用者監控 (RUM) 和綜合交易) 可與這些主要資料來源相輔相成。RUM 提供即時使用者互動的洞見,而綜合交易則模擬可能的使用者行為,有助於在實際使用者遇到瓶頸之前便偵測到瓶頸。

期望的結果:獲得有關工作負載效能的可付諸行動洞見。這些洞見可讓您做出有關效能最佳化的主動決策、提高工作負載穩定性、使 CI/CD 程序更順暢,並且有效利用資源。

常見的反模式:

  • 不完整的可觀測性:忽略在工作負載的每一層納入可觀測性,導致出現可能遮蔽重要系統效能和行為洞見的盲點。

  • 分散的資料檢視:當資料分散在多個工具和系統中時,便難以提供涵蓋工作負載運作狀況和效能的全面概覽。

  • 使用者回報的問題:這種現象表示未能透過遙測和業務 KPI 監視主動偵測問題。

建立此最佳實務的優勢:

  • 明智的決策:透過遙測和業務 KPI 獲得洞見,就能做出資料驅動的決策。

  • 改善運作效率:以資料驅動方式善用資源可帶來成本效益。

  • 提高工作負載穩定性:更快偵測並解決問題,進而改善正常運作。

  • 更順暢的 CI/CD 程序:從遙測資料獲得的洞見,有助於改進程序並交付可靠的程式碼。

未建立此最佳實務時的風險暴露等級:

實作指引

若要為您的工作負載實作應用程式遙測,請使用 Amazon CloudWatchAWS X-Ray 等 AWS 服務。Amazon CloudWatch 提供全面的監控工具套件,如此一來您就可在 AWS 和內部部署環境中觀察資源和應用程式。還會收集、追蹤和分析指標、合併和監控日誌資料,並且回應資源的變更,以增進您對工作負載運作方式的了解。同時,AWS X-Ray 可讓您追蹤、分析和偵錯應用程式,藉此深入了解工作負載的行為。透過像是服務圖、延遲分佈情形和追蹤時間軸等功能,AWS X-Ray 提供了洞見,讓您深入了解工作負載的效能及影響它的瓶頸。

實作步驟

  1. 確定要收集的資料:確定可提供工作負載運作狀況、效能和行為實質洞見的重要指標、日誌和追蹤。

  2. 部署 CloudWatch 代理程式 CloudWatch 代理程式的作用在於,方便您從工作負載及其基礎設施中取得系統和應用程式指標和日誌。CloudWatch 代理程式也可用來收集 OpenTelemetry 或 X-Ray 追蹤,並傳送至 X-Ray。

  3. 為日誌和指標實作異常偵測:使用 CloudWatch Logs 異常偵測CloudWatch 指標異常偵測,自動識別應用程式操作中的異常活動。這些工具使用機器學習演算法來偵測並針對異常狀況發出提醒,進而提高您的監控功能,並加快對潛在的中斷或安全威脅的回應時間。設定這些功能以主動管理應用程式運作狀態和安全性。

  4. 保護敏感日誌資料:使用 Amazon CloudWatch Logs 資料保護來隱藏日誌檔中的敏感資訊。此功能在敏感資料經存取前自動偵測和遮罩,進而協助維護隱私權及合規性。實作資料遮罩,以安全地處理和保護敏感詳細資訊,例如個人身分識別資訊 (PII)。

  5. 定義和監控業務 KPI:建立與業務成果相符的自訂指標

  6. 使用 AWS X-Ray 檢測您的應用程式:除了部署 CloudWatch 代理程式之外,檢測您的應用程式以發出追蹤資料也至關重要。此程序可提供工作負載行為和效能的進一步洞見。

  7. 標準化整個應用程式的資料收集:標準化整個應用程式的資料收集實務。採取一致的方式有助於找出資料關聯並進行分析,進而提供應用程式行為的全面概覽。

  8. 實作跨帳戶可觀測性:透過 Amazon CloudWatch 跨帳戶可觀測性提高跨多個 AWS 帳戶 的監控效率。使用此功能時,您可以將來自不同帳戶的指標、日誌檔和警示合併到單一檢視中,進而簡化管理並改善針對組織 AWS 環境中已確認之問題的回應時間。

  9. 分析資料並採取行動:資料收集和正規化完成後,可將 Amazon CloudWatch 用於指標和日誌分析,以及將 AWS X-Ray 用於追蹤分析。這類分析可產生有關工作負載運作狀況、效能和行為的洞見,進而引導您進行決策。

實作計畫的工作量:

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例: