本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
一般最佳做法
下列最佳實務可協助您充分掌握 Amazon RDS 工作負載的運作狀態,並採取適當的動作來回應操作事件和監控資料。
-
識別重要績效指標。根據所需的業務成果識別關鍵績效指標 (KPI)。評估 KPI 以確定工作負載是否成功。例如,如果您的核心業務是電子商務,那麼您理想的業務成果之一可能是您的電子商店全天候為您的客戶提供購物。為了實現該業務成果,您可以為電子商店應用程式使用的後端 Amazon RDS 資料庫定義可用性關鍵績效指標,並每週將基準 KPI 設定為 99.99%。根據基準值評估實際可用性 KPI,可協助您判斷是否符合所需的資料庫可用性 99.99%,進而達成擁有全天候服務的業務成果。
-
定義工作負載指標。定義工作負載指標以測量 Amazon RDS 工作負載的數量和品質。評估指標以確定工作負載是否達到所需的結果,並瞭解工作負載的健康狀況。例如,若要評估 Amazon RDS 資料庫執行個體的可用性 KPI,您應該測量資料庫執行個體的正常運行時間和停機時間等指標。然後,您可以使用這些指標來計算可用性 KPI,如下所示:
availability = uptime / (uptime + downtime)
量度代表有時間順序的資料點集合。量度也可以包含維度,這些維度在分類和分析中很有用。
-
收集和分析工作負載指標。Amazon RDS 會根據您的組態產生不同的指標和日誌。其中一些代表資料庫執行個體事件、計數器或統計資料,例如
db.Cache.innoDB_buffer_pool_hits
。其他指標來自作業系統,例如memory.Total
,測量主機亞馬遜彈性運算雲端 (Amazon EC2) 執行個體的記憶體總量。監控工具應定期對收集的指標進行主動分析,以識別趨勢並確定是否需要任何適當的響應。 -
建立工作負載指標基準。建立測量結果的基準線,以定義預期值,以及識別良好或不良的臨界值。例如,您可以定義的基準線
ReadIOPS
在正常的數據庫操作下最多為 1,000。然後,您可以使用此基準進行比較,以及識別過度使用率。如果您的新指標始終顯示讀取 IOPS 在 2,0003,000 的範圍內,則您已經確定了可能觸發調查,干預和改進的響應的偏差。 -
在工作負載結果有風險時發出警示。當您確定業務結果處於風險之中時,請提出警報。然後,您可以在問題影響客戶之前主動解決問題,或及時減輕事件的影響。
-
識別工作負載的預期活動模式。根據您的指標基準,建立工作負載活動的模式,以識別未預期的行為,並在必要時使用適當的動作回應。AWS提供監控工具應用統計和機器學習算法來分析指標並檢測異常。
-
偵測到工作負載異常時發出警示。在 Amazon RDS 工作負載的操作中偵測到異常時,請提出警示,以便您可以在必要時使用適當的動作做出回應。
-
檢閱和修改 KPI 和指標。確認您的 Amazon RDS 資料庫符合您定義的需求,並找出可能改善的區域,以達成您的業務目標。驗證測量指標的有效性並評估 KPI,並在必要時對其進行修改。例如,假設您為並行資料庫連線的最佳數目設定了 KPI,並監視有關嘗試連線和失敗的連線,以及建立和執行中的使用者執行緒的測量結果。您的資料庫連線可能比 KPI 基準線所定義的資料庫連線數量多。通過分析當前指標,您可以檢測結果,但可能無法確定根本原因。如果是這樣,您應該修改指標並加入其他監視措施,例如表格鎖定的計數器。新的量度有助於判斷增加的資料庫連線數目是否是因為非預期的資料表鎖定所造成。