監控 AWS Systems Manager - AWS Systems Manager

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

監控 AWS Systems Manager

監控是維持 AWS 解決方案的可靠性、可用性和效能的 AWS Systems Manager 重要組成部分。您應該從 AWS 解決方案的所有部分收集監視資料,以便在發生多點失敗時對多點失敗進行除錯。但在開始監控 Systems Manager 之前,您應該建立監控計劃來回答下列問題:

  • 監控目標是什麼?

  • 要監控哪些資源?

  • 監控這些資源的頻率為何?

  • 要使用哪些監控工具?

  • 誰會執行監控任務?

  • 發生問題時應該通知誰?

在您定義監控目標並建立監控計畫之後,下一步是建立您環境中的正常 Systems Manager 效能基準。您應該在不同的時間及負載條件下測量 Systems Manager 效能。當您監控 Systems Manager 時,應該存放所收集的監控資料的歷史記錄。您可以比較目前的 Systems Manager 效能資料與歷史資料,協助您辨識正常效能模式和效能異常狀況,並建立其處理方式。

例如,您可以監控作業的成功或失敗,例如「自動化」工作流程、修補基準的應用程式、維護時段事件以及組態相容性。自動化是的一項功能 AWS Systems Manager。

您可以監控受管節點的 CPU 使用率、磁碟輸入/輸出和網路使用率。若效能不符合您所建立的基準,您可能需要重新設定或將節點最佳化,以降低 CPU 使用率、改善磁碟輸入/輸出、降低網路流量。如需有關監控 EC2 執行個體的詳細資訊,請參閱《Amazon EC2 Linux 執行個體使用者指南》中的監控 Amazon EC2

監控工具

本章的內容提供了如何使用可用來監視「Systems Manager」和其他 AWS 資源的工具的資訊。如需完整的工具清單,請參閱 AWS Systems Manager 中的記錄和監控