工作負載上線和警示擷取問卷 - AWS事件偵測與回應使用者指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

工作負載上線和警示擷取問卷

下載工作負載上線問卷

下載警報擷取問卷

工作負載上線問卷-一般問題

一般問題
問題 回應範例
企業名稱

Amazon 公司

此工作負載的名稱 (包括任何縮寫)

Amazon 零售業務(ARO)

主要使用者和此工作負載的功能。

此工作負載是一個電子商務應用程序,允許最終用戶購買各種物品。這項工作負載是我們業務的主要收入產生器。

適用於此工作負載的合規性和/或法規要求,以及從下列項目 AWS 事件發生後。

工作量涉及病人的健康記錄,必須保持安全和保密。

工作負載入職問卷-架構問題

架構問題
問題 回應範例

一個列表 AWS 用於定義屬於此工作負載之資源的資源標記。 AWS 使用這些標記來識別此工作負載的資源,以便在事件發生時加速支援。

注意

標籤會區分大小寫。如果您提供多個標記,則此工作負載使用的所有資源都必須具有相同的標記。

appName: 最佳

環境:生產

一個列表 AWS 此工作負載所使用的服務及 AWS 他們所在的帳戶和地區。

注意

為每個服務建立新資料列。

路線 53:路由互聯網流量到ALB.

帳戶名稱:

地區:美國 EAST -1,美國 WEST -2

一個列表 AWS 此工作負載所使用的服務及 AWS 他們所在的帳戶和地區。

注意

為每個服務建立新資料列。

ALB:將傳入流量路由到目標ECS容器群組。

帳戶:

地區:

一個列表 AWS 此工作負載所使用的服務及 AWS 他們所在的帳戶和地區。

注意

為每個服務建立新資料列。

ECS:主要業務邏輯叢集的計算基礎架構。負責處理傳入的用戶請求並向持久層進行查詢。

帳戶:

地區:美國 EAST -1

一個列表 AWS 此工作負載所使用的服務及 AWS 他們所在的帳戶和地區。

注意

為每個服務建立新資料列。

RDS:Amazon Aurora 叢集會儲存由ECS商業邏輯層存取的使用者資料。

帳戶:

地區:美國 EAST -1

一個列表 AWS 此工作負載所使用的服務及 AWS 他們所在的帳戶和地區。

注意

為每個服務建立新資料列。

S3:存放網站靜態資產。

帳戶:

地區:

詳細說明如果發生中斷,可能會影響此工作負載的任何上游/下游元件。 驗證微服務:將防止用戶加載其健康記錄,因為他們將未經身份驗證。
是否有任何內部部署或非AWS 此工作負載的元件? 如果是這樣,它們是什麼以及執行哪些功能? 所有基於互聯網的流量輸入/輸出 AWS 透過我們的內部部署 Proxy 服務進行路由。
在可用區域和地區層級提供任何手動或自動容錯移轉/災難復原計畫的詳細資料。 熱待機。在成功率持續下降期間自動容錯移轉至 US WEST -2。

工作負載入職問卷- AWS 服務事件問題

AWS 服務事件問題
問題 回應範例
提供貴公司內部重大事件/IT 危機管理團隊的聯絡資料(姓名/電子郵件/電話)。

重大事故管理團隊

mim@example.com

+61 2 3456 7890

提供貴公司所建立之任何靜態事件/危機管理橋樑的詳細資料。如果您使用非靜態橋接器,請指定您喜歡的應用程序和 AWS 將在事件發生期間要求這些詳細資料。

注意

如果沒有提供,那麼 AWS 將在事件發生時伸出援手,並提供一個 Chime 橋供您加入。

Amazon Chime

https://chime.aws/1234567890

警報擷取問卷

手冊問題
問題 回應範例

AWS 將透過 AWS Support 案例。觸發此工作負載警示時,主要連絡人是誰?

指定您偏好的會議應用程式, AWS 將在事件發生期間要求這些詳細資料。

注意

如果未提供偏好的會議應用程式,則 AWS 將在事件發生時伸出援手,並提供一個 Chime 橋供您加入。

應用團隊

app@example.com

+61 2 3456 7890

如果在事件發生期間無法使用主要聯絡人,請依照偏好的通訊順序提供問題上報連絡人和時間表。

1. 10 分鐘後,如果主要聯絡人沒有回應,請參與:

約翰·史密斯-應用主管

john.smith@example.com

+61 2 3456 7890

2. 10 分鐘後,如果約翰·史密斯沒有回應,請聯繫:

簡·史密斯-運營經理

jane.smith@example.com

+61 2 3456 7890

AWS 在整個事件中,定期通過支持案例傳達更新。是否有其他聯絡人應該收到這些更新?

john.smith@example.com, jane.smith@example.com

報警矩陣

報警矩陣

提供下列資訊,以識別將參與AWS事件偵測與回應的警示集,以代表您的工作負載建立事件。一旦AWS事件偵測與回應的工程師審核了您的警示,就會提供額外的上線步驟。

AWS事件偵測與回應關鍵警示標準

  • AWS事件偵測和回應警示只有在需要操作員立即注意的受監控工作負載 (收入損失/客戶體驗降級) 產生重大業務影響時,才應進入「警示」狀態。

  • AWS事件偵測和回應警示也必須同時或在參與之前使用您的工作負載解析器。 AWS 事件管理員在緩解過程中與您的解析器協作,並且不會擔任隨後升級給您的第一線響應人員。

  • AWS事件偵測和回應警示閾值必須設定為適當的臨界值和持續時間,以便在警示觸發調查時,任何時候都必須發生。如果警報在「警報」和「正常」狀態之間移動,則會產生足夠的影響以保證駕駛員的回應和注意力。

AWS違反條件的事件偵測與回應政策

這些標準只能在事件發生時進行評估。 case-by-case 事件管理團隊會與您的技術客戶經理 (TAMs) 合作調整警示,在極少數情況下,如果懷疑客戶警示不符合此條件,而且正以不必要的速率與事件管理團隊合作,則會停用監控功能。

重要

提供連絡人地址時,請提供群組分發電子郵件地址,以便您可以控制收件者新增和刪除,而不需要 runbook 更新。

如果您希望AWS事件檢測和響應團隊在發送初始參與電子郵件後致電給他們,請提供站點可靠性工程團隊的聯繫電話號碼(SRE)。

報警矩陣表
測量結果名稱/ARN/臨界值 描述 備註 要求的動作

工作量/

CW Alarm ARN /

CallCount 5 分鐘內有 5 個資料點 <100000,將遺失的資料視為遺失

此測量結果代表在「Application Load Balancer 衡器」層次測量到工作負載的內送要求數目。

此警示非常重要,因為傳入要求的大幅下降可能表示上游網路連線有問題,或是DNS導致使用者無法存取工作負載的實作問題。

警報在上週已進入 10 次「警報」狀態。此警報有誤報的風險。臨界值審查計劃。

問題? 「否」或「是」(如果是「否」,則保留空白):此警示會在特定批次工作執行期間頻繁翻轉。

解析器:網站可靠性工程師

傳送電子郵件至網站可靠性工程團隊 SRE@xyz.com

為我ELB們和 Route 53 服務建立AWS頂級 Support 案例。

如果需要IMMEDIATE採取行動:檢查EC2釋放內存/磁盤空間並通知 XYZ 通過電子郵件團隊重新啟動實例,或運行日誌刷新。 (如果不需要立即採取行動,請留空)

工作負載請求延遲/

CW Alarm ARN /

p90 5 個資料點在 5 分鐘內延遲大於 100 毫秒,將遺失的資料視為遺失

此指標代表工作負載要滿足之HTTP要求的 p90 延遲。

此警報代表延遲(網站客戶體驗的重要衡量標準)。

警報在上週已進入「警報」狀態 0 次。

問題? 「否」或「是」(如果是「否」,則保留空白):此警示會在特定批次工作執行期間頻繁翻轉。

解析器:網站可靠性工程師

傳送電子郵件至網站可靠性工程團隊 SRE@xyz.com

為我ECW們和RDS服務建立AWS頂級 Support 案例。

如果需要IMMEDIATE採取行動:檢查EC2釋放內存/磁盤空間並通知 XYZ 通過電子郵件團隊重新啟動實例,或運行日誌刷新。 (如果不需要立即採取行動,請留空)

可用工作負載請求/

CW Alarm ARN /

5 分鐘內 5 個資料點的可用性 < 95%,將遺失的資料視為遺失。

此測量結果代表工作負載要滿足之HTTP要求的可用性。每個期間 (HTTP200 個/要求數目)。

此警示代表工作負載的可用性。

警報在上週已進入「警報」狀態 0 次。

問題? 「否」或「是」(如果是「否」,則保留空白):此警示會在特定批次工作執行期間頻繁翻轉。

解析器:網站可靠性工程師

傳送電子郵件至網站可靠性工程團隊 SRE@xyz.com

為我ELB們和 Route 53 服務建立AWS頂級 Support 案例。

如果需要IMMEDIATE採取行動:檢查EC2釋放內存/磁盤空間並通知 XYZ 通過電子郵件團隊重新啟動實例,或運行日誌刷新。 (如果不需要立即採取行動,請留空)

 

新的遺物警報示例

端對端整合測試/

CW Alarm ARN /

3 分鐘持續時間內 1 分鐘指標的失敗率為 3%,將遺失的資料視為遺失

工作負載識別碼:端對端測試工作流程,AWS區域:美國 EAST -1,AWS帳戶識別碼:012345678910

此測量結果會測試要求是否可以遍歷工作負載的每一層。如果此測試失敗,則表示處理業務交易的嚴重失敗。

此警示代表處理工作負載之商業交易的能力。

警報在上週已進入「警報」狀態 0 次。

問題? 「否」或「是」(如果是「否」,則保留空白):此警示會在特定批次工作執行期間頻繁翻轉。

解析器:網站可靠性工程師

傳送電子郵件至網站可靠性工程團隊 SRE@xyz.com

為我ECS們和 DynamoDB 服務建立AWS頂級 Support 案例。

如果需要IMMEDIATE採取行動:檢查EC2釋放內存/磁盤空間並通知 XYZ 通過電子郵件團隊重新啟動實例,或運行日誌刷新。 (如果不需要立即採取行動,請留空)