REL01-BP06 確保目前配額與最大使用量之間存在足夠差距以適應容錯移轉 - 可靠性支柱

REL01-BP06 確保目前配額與最大使用量之間存在足夠差距以適應容錯移轉

資源失敗或無法存取時,在該資源成功終止之前,可能仍會被計入配額。確認您的配額涵蓋失敗或無法存取資源及其替換項目的重疊。計算此差距時,您應該考慮使用像是網路失敗、可用網路失敗或區域失敗的使用案例。

預期成果:資源或資源可存取性中的小型或大型失敗可以涵蓋在目前的服務臨界值內。已在資源規劃中考慮區域 (Zone) 失敗、網路失敗或甚至是區域 (Regional) 失敗。

常見的反模式:

  • 根據目前的需求設定服務配額,而不考慮容錯移轉案例。

  • 計算服務的尖峰配額時,未考慮靜態穩定性的主體。

  • 計算每個區域所需的配額總計時,未考慮可能有無法存取的資源。

  • 未針對某些服務及其潛在異常用量模式考慮 AWS 服務故障隔離界限。

建立此最佳實務的優勢:服務中斷事件影響應用程式可用性時,雲端可讓您實作策略來緩解或從這些事件中復原。這類策略通常包括建立額外資源以取代失敗或無法存取的資源。您的配額策略適用於這些容錯移轉條件,不會由於服務限制耗盡而導致額外降級。

未建立此最佳實務時的風險暴露等級:

實作指引

評估配額限制時,請考慮由於某些降級而可能發生的容錯移轉案例。應該考慮下列類型的容錯移轉案例:

  • 中斷或無法存取的 VPC。

  • 無法存取的子網路。

  • 可用區域的降級程度已足夠影響許多資源的可存取性。

  • 各個網路路由或輸入和輸出點遭到封鎖或變更。

  • 區域的降級程度已足夠影響許多資源的可存取性。

  • 有多個資源,但是並非所有資源都受到區域或可用區域中的失敗影響。

如上所列的失敗會觸發以啟動容錯移轉事件。對每個情境和客戶進行容錯移轉的決策都是唯一的,因為業務影響差距甚大。不過,在操作方面決定容錯移轉應用程式或服務時,容錯移轉位置中資源的容量規劃及其相關配額都必須在事件之前解決。

檢閱每個服務的服務配額,考慮高於可能發生的正常尖峰。由於網路或許可,這些尖峰可能與可以連線的資源相關,但是仍然是作用中。未終止的作用中資源仍然會計入服務配額限制。

實作步驟

  • 確認您的服務配額和最大用量之間存在足夠的差距以適應容錯移轉若遺失可存取性。

  • 確定服務限制,並在此過程中考慮您的部署模式、可用性要求和使用量增長。

  • 視需要請求增加配額。規劃必要的時間來滿足增加配額的請求。

  • 確定您的可靠性方案 (也稱為「幾個 9」)。

  • 建立故障案例 (例如,元件、可用區域或區域遺失)。

  • 建立您的部署方法 (例如,Canary、藍/綠、紅/黑或滾動)。

  • 為當前限制新增適當的緩衝 (例如 15%)。

  • 適當時包含靜態穩定性的計算 (區域 (Zonal) 和區域 (Regional))。

  • 為使用量增長制定計畫 (例如,監控使用量趨勢)。

  • 考慮您最關鍵工作負載的靜態穩定性影響。評估符合所有區域和可用區域中靜態穩定系統的資源。

  • 考慮使用隨需容量保留,在任何容錯移轉之前排程容量。這在最關鍵業務排程期間是有用的策略,降低在容錯移轉期間取得正確數量和資源類型的潛在風險。

資源

相關的最佳實務:

相關文件:

相關影片:

相關工具: