OPS10-BP07 自動回應事件 - AWS Well-Architected 架構

OPS10-BP07 自動回應事件

自動對事件進行回應,以減少由手動程序引起的錯誤,並確保快速一致的回應。

有多種方式可以在 AWS 上將執行手冊和程序手冊動作自動化。若要回應來自 AWS 資源狀態變更的事件,或您自己的自訂事件,您應建立 CloudWatch Events 規則 透過 CloudWatch 目標觸發回應 (例如,Lambda 函數、Amazon Simple Notification Service (Amazon SNS) 主題、Amazon ECS 任務,以及 AWS Systems Manager Automation)。

要回應超過資源臨界值的指標 (例如,等待時間),您應使用建立 CloudWatch 警示, 來執行一個或多個動作,方法為使用 Amazon EC2 動作、Auto Scaling 動作,或將通知傳送至 Amazon SNS 主題。如果您需要執行自訂動作來回應警示,則請透過 Amazon SNS 通知叫用 Lambda。使用 Amazon SNS 發佈事件通知和向上呈報訊息,以使人們了解情況。

AWS 還可透過 AWS 服務 API 和 SDK 支援第三方系統。AWS 合作夥伴和第三方提供了許多監控工具,可用於監控、通知和回應。其中一些工具包含 New Relic、Splunk、Loggly、SumoLogic 和 Datadog。

當自動化程序失敗時,您應保留重要的手動程序以供使用

常用的反模式:

  • 開發人員檢查其程式碼。此事件原本可能用於啟動建置,然後執行測試,不過沒有發生任何情況。

  • 您的應用程式會在停止運作之前記錄特定錯誤。您應非常了解重新啟動應用程式的程序,且可以編寫此程序的指令碼。您可以使用日誌事件來叫用指令碼,並重新啟動應用程式。相反地,當星期日凌晨 3 點發生錯誤時,您做為負責修正系統的待命資源將被喚醒。

建立此最佳實務的優勢: 透過對事件使用自動回應,您可以縮短回應時間,並限制手動活動引入錯誤。

若未建立此最佳實務,暴露的風險等級為:

實作指引

資源

相關文件:

相關影片:

相關範例: