本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
下列最佳實務可協助您充分了解 Amazon RDS 工作負載的運作狀態,並採取適當動作來回應操作事件和監控資料。
-
識別 KPIs。根據所需的業務成果識別關鍵績效指標 KPIs)。評估 KPIs以判斷工作負載是否成功。例如,如果您的核心業務是電子商務,您所需的業務成果之一可能是您的 e-shop 全年無休,可供您的客戶進行購物。為了實現該業務成果,您可以定義 e-shop 應用程式使用的後端 Amazon RDS 資料庫的可用性 KPI,並將基準 KPI 設定為每週 99.99%。根據基準值評估實際可用性 KPI,有助於您判斷是否達到所需的資料庫可用性 99.99%,從而實現擁有全年無休服務的業務成果。
-
定義工作負載指標。定義工作負載指標,以測量 Amazon RDS 工作負載的數量和品質。評估指標,以判斷工作負載是否達到所需的結果,並了解工作負載的運作狀態。例如,若要評估 Amazon RDS 資料庫執行個體的可用性 KPI,您應該測量資料庫執行個體的運作時間和停機時間等指標。然後,您可以使用這些指標來計算可用性 KPI,如下所示:
availability = uptime / (uptime + downtime)
指標代表資料點的時間順序集。指標也可以包含維度,這些維度在分類和分析中很有用。
-
收集和分析工作負載指標。Amazon RDS 會根據您的組態產生不同的指標和日誌。其中一些代表資料庫執行個體事件、計數器或統計資料,例如
db.Cache.innoDB_buffer_pool_hits
。其他指標來自作業系統,例如memory.Total
,可測量主機 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體的記憶體總量。監控工具應定期主動分析收集的指標,以識別趨勢,並判斷是否需要任何適當的回應。 -
建立工作負載指標基準。為指標建立基準,以定義預期值,並識別好的或壞的閾值。例如,您可以在正常資料庫操作下,將 的基準定義為
ReadIOPS
高達 1,000。然後,您可以使用此基準進行比較和識別過度使用。如果您的新指標一致顯示讀取 IOPS 的範圍介於 2,000‒3,000,則表示您發現可能觸發回應以進行調查、介入和改善的偏差。 -
當工作負載結果處於風險時發出提醒。當您判斷業務結果處於風險時,請發出提醒。然後,您可以在問題影響客戶之前主動解決問題,或及時減輕事件的影響。
-
識別工作負載的預期活動模式。根據您的指標基準,建立工作負載活動模式以識別意外行為,並視需要以適當的動作回應。 AWS 提供監控工具,可套用統計和機器學習演算法來分析指標並偵測異常。
-
偵測到工作負載異常時發出警示。在 Amazon RDS 工作負載的操作中偵測到異常時,請發出警示,以便您可以在必要時以適當的動作回應。
-
檢閱和修訂 KPIs和指標。確認您的 Amazon RDS 資料庫符合您定義的要求,並識別可能改善的領域,以達成您的業務目標。驗證測量指標和評估 KPIs的有效性,並視需要加以修改。例如,假設您為最佳數量的並行資料庫連線設定 KPI,並監控嘗試和失敗連線的指標,以及建立和執行中的使用者執行緒。您的資料庫連線可能比 KPI 基準所定義的更多。透過分析目前的指標,您可以偵測結果,但可能無法判斷根本原因。若是如此,您應該修改指標並包含其他監控措施,例如資料表鎖定的計數器。新的指標有助於判斷資料庫連線數量增加是否由非預期的資料表鎖定所造成。