AWS Systems Manager OpsCenter - AWS Systems Manager

AWS Systems Manager OpsCenter

OpsCenter (AWS Systems Manager 的功能) 提供一個集中的位置,操作工程師和 IT 專業人員可在此檢視、調查和解決與 AWS 資源相關的操作工作項目 (OpsItems)。OpsCenter 旨在降低解決影響 AWS 資源問題的平均時間。此 Systems Manager 功能會在各項服務中彙整並標準化 OpsItems,同時提供各 OpsItem、相關 OpsItems 和相關資源的關聯調查資料。OpsCenter 也提供 Systems Manager Automation Runbook,您可以用來快速解決問題。您可以為每個 OpsItem 指定可搜尋的自訂資料。您也可以依狀態和來源,檢視自動產生的 OpsItems 摘要報告。

OpsCenter 與 Amazon EventBridge 和 Amazon CloudWatch 整合。這表示您可以將這些服務設定為在 CloudWatch 警示進入 ALARM 狀態時或 EventBridge 處理來自任何發佈事件之 AWS 服務的事件時,自動在 OpsCenter 中建立 OpsItem。將 CloudWatch 警示和 EventBridge 事件設定為自動建立 OpsItems,可讓您從單一主控台快速診斷並修復 AWS 資源。

為了協助您診斷問題,每個 OpsItem 皆包含與上下文相關的資訊,例如 AWS 資源的名稱和 ID,其產生了 OpsItem、警示或事件詳細資訊、警示歷史記錄,以及警示時間表圖形。

對於 AWS 資源,OpsCenter 會彙總 AWS Config、AWS CloudTrail 日誌和 Amazon CloudWatch Events 的資訊,因此您無需在調查期間瀏覽多個主控台頁面。

下列清單包含 AWS 資源和指標的類型,客戶會為其設定建立 OpsItems 的 CloudWatch 警示。

  • Amazon DynamoDB:資料庫讀取和寫入動作達到閾值

  • Amazon EC2:CPU 使用率達到閾值

  • AWS 計費:估計費用達到閾值

  • Amazon EC2:執行個體未通過狀態檢查

  • Amazon Elastic Block Store (EBS):磁碟空間使用率達到閾值

下列清單包含客戶設定的 EventBridge 規則類型,以建立 OpsItems。

  • AWS Security Hub:已發出安全提醒

  • DynamoDB:調節事件

  • Amazon EC2 Auto Scaling:無法啟動執行個體

  • Systems Manager:無法執行自動化

  • AWS Health:排定維護的提醒

  • EC2:執行個體狀態從 Running 變更為 Stopped

OpsCenter 也已經與 .NET 和 SQL Server 的 Amazon CloudWatch Application Insights 整合。這表示您可以為您應用程式中偵測到的問題自動建立 OpsItems。您也可以將 OpsCenter 與 AWS Security Hub 整合,以對 Systems Manager 的安全、效能和操作問題進行彙總並採取動作。

操作工程師和 IT 專業人員可藉由使用 AWS Systems Manager 主控台中的 OpsCenter 頁面、公有 API 操作、AWS Command Line Interface (AWS CLI)、AWS Tools for Windows PowerShell、或 AWS 開發套件,建立、檢視和編輯 OpsItems。OpsCenter 公有 API 操作也允許您將 OpsCenter 與您的案例管理系統和運作狀態儀表板整合。

OpsCenter 整合

下表說明 OpsCenter 如何與其他 AWS 服務和 Systems Manager 功能整合。當它與這些服務和功能整合時,OpsCenter 可協助您快速從單一主控台診斷和修復 AWS 資源的問題。

服務或功能 詳細資訊 如需詳細資訊

EventBridge

當系統處理來自發佈事件之任何 AWS 服務的事件時,您可以設定 Amazon EventBridge 自動在 OpsCenter 中建立 OpsItem。下列清單包含您可以設定的 EventBridge 規則類型,以建立 OpsItems:

  • AWS Security Hub:已發出安全提醒

  • Amazon DynamoDB:調節事件

  • Amazon EC2 Auto Scaling:無法啟動執行個體

  • Systems Manager:無法執行自動化

  • AWS Health:排定維護的提醒

  • Amazon Elastic Compute Cloud (Amazon EC2):執行個體狀態從 Running 變更為 Stopped

為了協助您診斷問題,每個 OpsItem 都包含事件的內容相關資訊,例如 AWS 資源的名稱和 ID,其產生了 OpsItem 和事件的相關詳細資訊。

將 EventBridge 設定為自動為特定事件建立 OpsItems

CloudWatch

當 CloudWatch 警示進入 ALARM 狀態時,您可以設定 Amazon CloudWatch 自動建立 OpsCenter 中的 OpsItem。下列清單包含 AWS 資源和指標的類型,您可以為其設定建立 OpsItems 的 CloudWatch 警示。

  • DynamoDB:資料庫讀取和寫入動作達到閾值

  • Amazon EC2:CPU 使用率達到閾值

  • AWS Billing and Cost Management:估計費用達到閾值

  • Amazon EC2:執行個體未通過狀態檢查

  • Amazon Elastic Block Store (Amazon EBS):磁碟空間使用率達到閾值

為了協助您診斷問題,每個 OpsItem 皆包含警示的內容相關資訊,例如 AWS 資源的名稱和 ID,其產生了 OpsItem、警示詳細資訊、警示歷史記錄,以及警示時間表圖形。

設定 CloudWatch 以建立來自警示的 OpsItems

Incident Manager

AWS Incident Manager 是 Systems Manager 的一項功能,可提供事件管理主控台,協助您緩解影響 AWS 託管應用程式的事件並從中復原。事件是指任何意外中斷或服務質量下降。在您設定 Incident Manager 後,在 Incident Manager 中建立事件時,系統會自動建立 OpsCenter 中的 OpsItems。您也可以手動將事件新增至 OpsItem。

事件解決後,發佈事件分析會引導您找出事件回應的改進措施,並建議處理問題清單的動作項目。對於高嚴重性的操作問題,例如事件,建立 OpsCenter 中的 OpsItem 為操作人員提供事件、分析和動作項目的完整檢視。此全面檢視可提升解決效率,並協助在未來減少類似的問題。

使用 OpsCenter 中的 Incident Manager

AWS Systems Manager Incident Manager 使用者指南

適用於 .NET 和 SQL Server 的 CloudWatch Application Insights。

OpsCenter 也已經與 .NET 和 SQL Server 的 CloudWatch Application Insights 整合。CloudWatch Application Insights 可幫助您監控使用 Amazon EC2 執行個體以及其他 應用程式資源的應用程式。此功能會識別和設定金鑰指標、日誌,並在您所有的應用程式資源和技術堆疊中發出警示。此功能也會為偵測到的問題建立自動化儀表板。儀表板包含相關指標異常、記錄錯誤和可協助您判斷錯誤之根本原因的其他資訊。當您在 CloudWatch Application Insights 中設定應用程式資源時,您可以選擇在偵測到問題時,讓系統建立 OpsCenter 中的 OpsItems。

Amazon CloudWatch 使用者指南》中的設定您的應用程式

對每個會自動產生 OpsItem 的 AWS 資源,OpsCenter 會彙總來自 AWS Config、AWS CloudTrail 日誌和 EventBridge 的資訊。因此,您不必在調查期間瀏覽多個主控台頁面。

OpsCenter 對我的組織有何好處?

OpsCenter 提供標準化和一致化檢視、處理和修復 AWS 資源相關問題的體驗。標準和一致的體驗可改善修正問題、調查相關問題及培訓新營運工程師和 IT 專業人員所需的時間。標準和一致的體驗也可以降低在系統中管理和修正問題的手動錯誤數量。

尤有甚者,OpsCenter 為營運工程師和組織提供下列優勢:

  • 您不再需要導覽多個主控台頁面,以檢視、調查和解決與 AWS 資源相關的 OpsItems。OpsItems 會跨服務彙總在一個集中的位置。

  • 您可以檢視 OpsItems 的服務特定或與內容相關的資料;這些資料是由 CloudWatch 警示、EventBridge 事件和 .NET 及 SQL Server 的 CloudWatch Application Insights 自動產生。

  • 您可以指定與 OpsItem 相關的資源 Amazon Resource Name (ARN)。透過指定相關的資源,OpsCenter 使用內建的邏輯協助您避免建立重複的 OpsItems。

  • 您可以檢視類似 OpsItems 的詳細資訊和解決資訊。

  • 您可以快速檢視資訊以及執行 Systems Manager Automation Runbook 來解決問題。

OpsCenter 有哪些功能?

  • 自動和手動建立 OpsItem

    OpsCenter 與 Amazon CloudWatch 整合。這表示您可以將 CloudWatch 設定為在警示進入 ALARM 狀態時或 Amazon EventBridge 處理來自任何發佈事件之 AWS 服務的事件時,自動在 OpsCenter 中建立 OpsItem。您也可以手動建立 OpsItems。

    OpsCenter 也已經與 .NET 和 SQL Server 的 Amazon CloudWatch Application Insights 整合。這表示您可以為您應用程式中偵測到的問題自動建立 OpsItems。

  • 詳細和可搜尋的 OpsItems

    每個 OpsItem 包含多個資訊欄位,包括標題、ID、優先順序、描述、OpsItem 的來源,以及上次更新的日期/時間。每個 OpsItem 還包含以下可設定的功能:

    • Status (狀態):Open (開放)、In progress (正在進行)、Resolved (已解決),或 Open and In progress (開放並正在進行)。

    • 相關資源:相關資源是受影響的資源,或起始建立 OpsItem 之 EventBridge 事件的資源。每個 OpsItem 都包含 Related resources (相關資源) 區段,OpsCenter 會在此自動列出相關資源的 Amazon Resource Name (ARN)。您也可以手動指定相關資源的 ARN。針對某些 ARN 類型,OpsCenter 會自動建立深度連結,顯示資源的詳細資訊,不必瀏覽其他主控台頁面即可檢視該資訊。例如,如果您指定 EC2 執行個體的 ARN,您可以在 OpsCenter 中檢視所有 EC2 提供之該執行個體的詳細資訊。您可以手動新增其他相關資源的 ARN。每個 OpsItem 最多可以列出 100 個相關的資源 ARN。如需詳細資訊,請參閱 使用相關資源

    • 相關和類似的 OpsItemsRelated OpsItems (相關的 OpsItem) 功能可讓您指定 OpsItems 的 ID,它們與目前的 OpsItem 有某種關聯。Similar OpsItem (類似的 OpsItem) 功能會自動檢閱 OpsItem 標題和描述,然後列出其他相關或您感興趣的 OpsItems。

    • Searchable and private operational data (可搜尋的私有營運資料):營運資料是自訂資料,提供有用的 OpsItem 參考詳細資訊。例如,您可以指定日誌檔案、錯誤字串、授權金鑰、故障診斷秘訣,或其他相關資料。您輸入營運資料做為金鑰/值對。金鑰的最大長度為 128 個字元。值的大小上限為 20 KB。

      這個自訂資料可供搜尋,但有所限制。針對 Searchable operational data (可搜尋操作資料) 功能,所有能存取 OpsItem 概觀頁面的使用者 (如描述 OpsItem API 動作所提供) 都可以檢視和搜尋指定的資料。針對 Private operational data (私有操作資料) 功能,只有能夠存取 OpsItem 的使用者可檢視此資料 (如 GetOpsItem API 操作所提供)。

    • 重複資料刪除:透過指定相關資源,OpsCenter 會使用內建的邏輯協助您避免建立重複的 OpsItems。OpsCenter 也包含名為 Operational insights (操作洞察) 的功能,其中顯示有關重複 OpsItems 的資訊。為了進一步限制帳戶中重複 OpsItems 的數量,您可以手動指定 EventBridge 事件規則的重複資料刪除字串。如需詳細資訊,請參閱 減少重複的 OpsItems

  • 大量編輯 OpsItems:您可以在 OpsCenter 中選取多個 OpsItems,然後編輯下列其中一個欄位:Status (狀態)、Priority (優先順序)、Severity (嚴重性)、Category (類別)。

  • 使用 Runbook 輕鬆修復

    每個 OpsItem 都包含 Runbooks (Runbook) 區段和 Systems Manager Automation Runbook 清單,您可用來自動修復 AWS 資源的常見問題。如果開啟 OpsItem,選擇該 OpsItem 的 AWS 資源,然後選擇主控台上的 Run automation (執行自動化) 按鈕,然後 OpsCenter 會提供 Automation Runbook 清單,您可以產生 OpsItem 的 AWS 資源上執行。從 OpsItem 執行 Automation Runbook 之後,Runbook 會自動與 OpsItem 的相關資源建立關聯,以供日後參考。此外,如果使用 OpsCenter 在 EventBridge 中自動設定 OpsItem 規則,則 EventBridge 會自動關聯常見事件的 Runbook。OpsCenter 會為特定 OpsItem 保留 30 天的 Automation Runbook 執行記錄。如需詳細資訊,請參閱 使用 Systems Manager Automation 修復 OpsItem 問題

  • 變更通知:您可以指定 Amazon Simple Notification Service (SNS) 主題的 ARN 並在 OpsItem 變更或編輯時隨時發佈通知。SNS 主題和 OpsItem 必須在同一 AWS 區域。

  • Comprehensive search capabilities (全方位的 OpsItem 搜尋功能):OpsCenter 提供多個搜尋選項,協助您快速找到 OpsItems。以下是幾個搜尋方式範例:OpsItem ID、標題、上次修改時間、營運資料值、來源和 Runbook 執行的 Automation ID,還有更多。您可以使用狀態篩選條件進一步限制搜尋結果。

  • OpsItem 摘要報告

    OpsCenter 包含自動顯示下列區段的摘要報告頁面:

    • Status summary (狀態摘要):依狀態的 OpsItems 摘要 (Open (開放)、In progress (正在進行)、Resolved (已解決)、Open and In progress (開放和正在進行))。

    • Sources with most open OpsItems (具有最多待處理 OpsItem 的來源):擁有最多待處理之 OpsItems 的前幾項 AWS 服務。

    • by source and age (依來源和天數分組的 OpsItems):依來源和建立天數分組的 OpsItems 計數。

    如需檢視 OpsCenter 摘要報告的詳細資訊,請參閱 檢視 OpsCenter 摘要報告

  • IAM 存取控制

    透過使用 AWS Identity and Access Management (IAM) 政策,您可以控制組織中哪些成員可以建立、檢視、列出和更新 OpsItems。您也可以指派標籤給 OpsItems,然後建立 IAM 政策,根據標籤提供使用者和群組存取權。如需詳細資訊,請參閱 OpsCenter 入門

  • 記錄和稽核功能支援

    您可以透過與其他 AWS 服務整合,稽核和記錄您 AWS 帳戶 中的 OpsCenter 使用者動作。如需詳細資訊,請參閱 稽核和記錄 OpsCenter 活動

  • 主控台、CLI、PowerShell 和 OpsCenter 功能的軟體開發存取權

    您可以使用 AWS Systems Manager 主控台、AWS Command Line Interface (AWS CLI)、AWS Tools for PowerShell 或您選擇的 AWS 開發套件來處理 OpsCenter。

OpsCenter 如何使用 Amazon EventBridge? 我應該使用哪項服務?

Amazon EventBridge 可傳送近乎即時的系統事件串流,以說明 AWS 資源發生的變動。使用您可以快速設定的簡單規則,您可以比對事件並將它們路由到一或多個目標函數或串流。一般來說,EventBridge 會通知您資源有問題。

OpsCenter 協助您調查與修復問題。OpsCenter 集中 EventBridge 的資料或工程師手動輸入的資料,讓您的工程師可以執行完整的調查。OpsCenter 也提供 Automation Runbook 以快速修復這些問題。OpsCenter 整合 EventBridge,讓您以自動建立 OpsItems (或者可以手動建立 OpsItems) 的方式解決以下類型的問題:效能降級、狀態變更、執行故障、維護通知和安全提醒。

OpsCenter 與我現有的案例管理系統整合嗎?

OpsCenter 旨在補充您現有的案例管理系統。您可以使用公有 API 操作,將 OpsItems 整合到您現有的案例管理系統。您也可以在目前的系統中維持手動的生命週期工作流程,使用 OpsCenter 做為調查和修復中樞。

如需 OpsCenter 公有 API 操作的詳細資訊,請參閱《AWS Systems Manager API 參考》中的以下 API 操作。

使用 OpsCenter 需要付費嗎?

是。如需詳細資訊,請參閱 AWS Systems Manager 定價

OpsCenter 適用於內部部署和混合式受管節點嗎?

是。您可以使用 OpsCenter 調查和修復針對 Systems Manager 設定之內部部署受管節點的問題。如需安裝和設定 Systems Manager 內部部署伺服器和虛擬機器的詳細資訊,請參閱 在混合環境中設定 AWS Systems Manager

OpsCenter 的配額為何?

您可以在《Amazon Web Services 一般參考》的 Systems Manager 服務配額中檢視所有 Systems Manager 功能的配額。除非另有說明,否則每個配額都是區域特定規定。