什麼是 AWS 事件偵測與回應? - AWS事件偵測與回應使用者指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是 AWS 事件偵測與回應?

AWS 事件偵測與回應提供符合資格的 AWS Enterprise Support 客戶主動事件互動,以減少故障的可能性,並加速從中斷回復關鍵工作負載。事件偵測與回應可促進您的協同合作, AWS 開發針對每個已登入工作負載量身打造的手冊和回應計畫。事件管理工程師 (IME) 團隊全年無休地監控您已登入的工作負載,並在發生嚴重警示後的 5 分鐘內為您提供呼叫橋接。

事件偵測與回應提供下列主要功能:

  • 改善可觀察性: AWS 專家提供指引,協助您定義工作負載的應用程式和基礎架構層之間的指標和警示,並建立關聯,以及早偵測中斷情況。

  • 5 分鐘回應時間:IME 全天候監控已登入的工作負載,以偵測重大事件。IME 會在警報觸發後的 5 分鐘內做出回應,或回應您向事件偵測與回應提出的關鍵業務 Support 案例。

  • 解決速度更快:IME 使用專為工作負載開發的預先定義和自訂 Runbook,在 5 分鐘內回應、代表您建立 Support 案例,以及管理工作負載的事件。IME 為事件提供單執行緒擁有權,並讓您與合適的 AWS 專家保持聯繫,直到事件解決為止。

  • 事件的事件管理:由於 AWS 我們瞭解重要工作負載的內容 (例如客戶、服務和執行個體),因此我們可以偵測並主動通知您在 AWS 服務事件期間可能對工作負載造成的影響。如有要求,IME 會在 AWS 服務活動期間與您聯繫,並提供有關活動的最新消息。雖然事件偵測與回應無法排定您在服務事件期間進行復原的優先順序,但事件偵測與回應確實提供 Support 指引,協助您實作緩解計畫。

  • 降低失敗的可能性:解決後,IME 會根據要求提供您事件後審查。而且, AWS 專家會與您合作,運用學到的經驗教訓,以改善事件回應計畫和手冊。您還可以利 AWS Resilience Hub 用工作負載的持續恢復追蹤。