OPS04-BP04 實作相依性遙測
對於監控工作負載所依賴的外部服務和元件運作狀況與效能,相依項遙測至關重要,可提供連線能力、逾時,以及像是 DNS、資料庫或第三方 API 等其他與相依項相關重要事件的寶貴洞見。當檢測應用程式以產生有關這些相依項的指標、日誌和追蹤時,可更清楚了解可能影響工作負載的潛在瓶頸、效能問題或故障。
期望的結果:確保工作負載所依賴的相依項如預期般正常運作,讓您能夠主動解決問題並確保最佳的工作負載效能。
常見的反模式:
-
忽略外部相依項:僅關注內部應用程式指標,而忽略與外部相依項相關的指標。
-
缺乏主動監控:等待問題出現,而非持續監控相依項的運作狀況與效能。
-
單獨運作的監控:使用多種分散的監控工具,如此可能導致僅掌握相依項的部分運作狀況且獲得不一致的資訊。
建立此最佳實務的優勢:
-
改善工作負載可靠性:確保外部相依項穩定運作並保持最佳效能。
-
更快偵測並解決問題:主動找出並解決相依項相關問題,不讓問題影響工作負載。
-
全方位視角:獲得全方位視角,有效掌握影響工作負載運作狀況的內部和外部元件。
-
增強工作負載可擴展性:了解外部相依項的可擴展性限制與效能特性。
未建立此最佳實務時的風險暴露等級:高
實作指引
從識別您的工作負載所依賴的服務、基礎設施和程序開始,實作相依項遙測。將相依項正常運作時的良好條件量化,然後判斷衡量時所需的資料。有了這些資訊,您就可以打造儀表板並設定警示,以便為營運團隊提供這些相依項狀態的洞見。相依項無法按需求運作時,使用 AWS 工具探索並量化其影響。不斷重新檢視您的策略,以考量優先順序、目標和所獲得洞見的變化。
實作步驟
若要有效實作相依項遙測:
-
識別外部相依項:與利害關係人協作,共同找出工作負載所依賴的外部相依項。外部相依項可能包含各種服務,像是外部資料庫、第三方 API、前往其他環境的網路連線能力路由,以及 DNS 服務。實現有效相依項遙測的第一步,就是徹底了解這些相依項。
-
擬訂監控策略:清楚了解外部相依項之後,就可以為其量身打造監控策略。這包括了解每一項相依項的重要性、預期行為,以及任何相關的服務層級協議或目標 (SLA 或 SLT)。設定主動警示,以便在發生狀態變更或效能偏差時通知您。
-
使用網路監控:使用網際網路監視器和網路監視器,提供全球網際網路和網路狀況的全方位洞見。這些工具可協助您了解並回應影響外部相依項的中斷、干擾或效能降低。
-
使用 AWS Health Dashboard
隨時掌握資訊:它會在 AWS 遇到可能影響服務的事件時,發出警示並提供修復指引。 -
監控使用 Amazon EventBridge 規則的 AWS Health 事件,或以程式設計方式與 AWS Health API 整合,以在您收到 AWS Health 事件時自動執行動作。這些可能是一般動作 (例如將所有計畫的生命週期事件訊息傳送到聊天介面) 或特定動作 (例如在 IT 服務管理工具中啟動工作流程)。
-
如果您使用 AWS Organizations,請跨帳戶彙總 AWS Health 事件。
-
-
使用 AWS X-Ray
檢測您的應用程式:AWS X-Ray 提供關於應用程式及其基礎相依項如何運作的洞察。透過從頭到尾追蹤請求,您就可以找出應用程式所依賴的外部服務或元件的瓶頸或故障。 -
使用 Amazon DevOps Guru
:這項機器學習驅動的服務可識別操作問題,預測重大問題可能在什麼時候發生,並且建議可採取的特定行動。對於獲得相依項洞見並確保它們不是造成操作問題的根源來說,這項服務非常寶貴。 -
定期監控:持續監控與外部相依項相關的指標和日誌。針對非預期的行為或效能降低的情況設定警示。
-
變更後驗證:每當有任何外部相依項更新或變更,便驗證其效能並檢查是否符合您的應用程式需求。
實作計畫的工作量:中
資源
相關的最佳實務:
相關文件:
相關影片:
相關範例: