OPS04-BP04 實作相依性遙測 - AWS Well-Architected 架構

OPS04-BP04 實作相依性遙測

對於監控工作負載所依賴的外部服務和元件運作狀況與效能,相依項遙測至關重要,可提供連線能力、逾時,以及像是 DNS、資料庫或第三方 API 等其他與相依項相關重要事件的寶貴洞見。當檢測應用程式以產生有關這些相依項的指標、日誌和追蹤時,可更清楚了解可能影響工作負載的潛在瓶頸、效能問題或故障。

期望的結果:確保工作負載所依賴的相依項如預期般正常運作,讓您能夠主動解決問題並確保最佳的工作負載效能。

常見的反模式:

  • 忽略外部相依項:僅關注內部應用程式指標,而忽略與外部相依項相關的指標。

  • 缺乏主動監控:等待問題出現,而非持續監控相依項的運作狀況與效能。

  • 單獨運作的監控:使用多種分散的監控工具,如此可能導致僅掌握相依項的部分運作狀況且獲得不一致的資訊。

建立此最佳實務的優勢:

  • 改善工作負載可靠性:確保外部相依項穩定運作並保持最佳效能。

  • 更快偵測並解決問題:主動找出並解決相依項相關問題,不讓問題影響工作負載。

  • 全方位視角:獲得全方位視角,有效掌握影響工作負載運作狀況的內部和外部元件。

  • 增強工作負載可擴展性:了解外部相依項的可擴展性限制與效能特性。

未建立此最佳實務時的風險暴露等級:

實作指引

從識別您的工作負載所依賴的服務、基礎設施和程序開始,實作相依項遙測。將相依項正常運作時的良好條件量化,然後判斷衡量時所需的資料。有了這些資訊,您就可以打造儀表板並設定警示,以便為營運團隊提供這些相依項狀態的洞見。相依項無法按需求運作時,使用 AWS 工具探索並量化其影響。不斷重新檢視您的策略,以考量優先順序、目標和所獲得洞見的變化。

實作步驟

若要有效實作相依項遙測:

  1. 識別外部相依項:與利害關係人協作,共同找出工作負載所依賴的外部相依項。外部相依項可能包含各種服務,像是外部資料庫、第三方 API、前往其他環境的網路連線能力路由,以及 DNS 服務。實現有效相依項遙測的第一步,就是徹底了解這些相依項。

  2. 擬訂監控策略:清楚了解外部相依項之後,就可以為其量身打造監控策略。這包括了解每一項相依項的重要性、預期行為,以及任何相關的服務層級協議或目標 (SLA 或 SLT)。設定主動警示,以便在發生狀態變更或效能偏差時通知您。

  3. 使用網路監控使用網際網路監視器網路監視器,提供全球網際網路和網路狀況的全方位洞見。這些工具可協助您了解並回應影響外部相依項的中斷、干擾或效能降低。

  4. 使用 AWS Health Dashboard 隨時掌握資訊:它會在 AWS 遇到可能影響服務的事件時,發出警示並提供修復指引。

    1. 監控使用 Amazon EventBridge 規則的 AWS Health 事件,或以程式設計方式與 AWS Health API 整合,以在您收到 AWS Health 事件時自動執行動作。這些可能是一般動作 (例如將所有計畫的生命週期事件訊息傳送到聊天介面) 或特定動作 (例如在 IT 服務管理工具中啟動工作流程)。

    2. 如果您使用 AWS Organizations,請跨帳戶彙總 AWS Health 事件

  5. 使用 AWS X-Ray 檢測您的應用程式:AWS X-Ray 提供關於應用程式及其基礎相依項如何運作的洞察。透過從頭到尾追蹤請求,您就可以找出應用程式所依賴的外部服務或元件的瓶頸或故障。

  6. 使用 Amazon DevOps Guru這項機器學習驅動的服務可識別操作問題,預測重大問題可能在什麼時候發生,並且建議可採取的特定行動。對於獲得相依項洞見並確保它們不是造成操作問題的根源來說,這項服務非常寶貴。

  7. 定期監控:持續監控與外部相依項相關的指標和日誌。針對非預期的行為或效能降低的情況設定警示。

  8. 變更後驗證:每當有任何外部相依項更新或變更,便驗證其效能並檢查是否符合您的應用程式需求。

實作計畫的工作量:

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例: