全域資料表準備檢查清單 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

全域資料表準備檢查清單

部署全域資料表時,請使用下列檢查清單來制定決策和執行任務。

  • 決定有多少以及哪些區域應參與全域資料表。

  • 判斷應用程式的寫入模式

  • 根據您的寫入模式規劃路由策略

  • 根據您的寫入模式和路由策略定義疏散計劃

  • 擷取每個區域的運作狀態、延遲和錯誤的指標。如需 DynamoDB 指標的清單,請參閱AWS部落格文章監控 Amazon DynamoDB 以瞭解營運感知。您還應該使用合成金絲雀(旨在檢測故障的人工請求)以及實時觀察客戶流量。並非所有問題都會出現在 DynamoDB 指標中。

  • ReplicationLatency 中任何持續增加設定警示。增加可能表示意外設定錯誤,而全域資料表在不同區域中有不同的寫入設定,這會導致複寫請求失敗並增加延遲。這也可能表示存在區域中斷。一個很好的例子是如果最近的平均值超過 180,000 毫秒,則發出警示。您也可能會注意ReplicationLatency下降到 0,這表示停止複寫。

  • 為每個全域資料表指派充足的最大讀取和寫入設定值。

  • 確定您將撤離區域的條件。如果決定涉及人為判斷,請記錄所有考量因素。這項工作應提前仔細完成,而不是在壓力下進行。

  • 為每個動作維護執行手冊,作為當疏散區域時必須採取的措施。通常,全域資料表涉及的工作很少,但移動堆疊的其餘部分可能很複雜。

    注意

    使用容錯移轉程序時,最佳做法是僅仰賴資料平面作業,而非控制平面作業,因為某些控制平面作業在區域故障期間可能會降級。如需詳細資訊,請參閱 AWS 部落格文章使用 Amazon DynamoDB 全域資料表建置彈性應用程式:第 4 部分

  • 定期測試執行手冊的各個方面,包括區域疏散。未經測試的執行手冊是不可靠的執行手冊。

  • 請考慮使用AWS Resilience Hub來評估整個應用程式 (包括全域資料表) 的彈性。此服務透過其儀表板,提供應用程式產品組合復原狀態的全面檢視。

  • 請考慮使用 Route 53 ARC 準備程度檢查來評估應用程式目前的組態,並追蹤與最佳作法之間的任何差異。

  • 當您撰寫健康狀態檢查以搭配 Route 53 或全域加速器使用時,請進行一組涵蓋完整資料庫流程的呼叫。如果您將檢查限制為僅確認 DynamoDB 端點已啟動,則無法涵蓋許多失敗模式,例如 AWS Identity and Access Management (IAM) 組態錯誤、程式碼部署問題、DynamoDB 外部堆疊中的故障、高於平均讀取或寫入延遲等等。