REL11-BP07 建立您的產品架構以符合可用性目標和運行時間服務水準協議 (SLA) - 可靠性支柱

REL11-BP07 建立您的產品架構以符合可用性目標和運行時間服務水準協議 (SLA)

建立您的產品架構以符合可用性目標和運行時間服務水準協議 (SLA)。如果您發佈或私下同意可用性目標或運行時間 SLA,請確認您的架構和操作程序的設計可以支援。

預期成果:每個應用程式都有針對可用性的已定義目標和針對效能指標的 SLA,可加以監控和維護以符合業務成果。

常見的反模式:

  • 設計和部署工作負載,而未設定任何 SLA。

  • SLA 指標設定為高,而沒有合理或業務要求。

  • 設定 SLA 但未考慮相依性及其基礎 SLA。

  • 建立應用程式設計而未考慮彈性的共同責任模型。

建立此最佳實務的優勢:根據關鍵彈性目標設計應用程式,可協助您符合業務目標和客戶期望。這些目標可協助推動應用程式設計程序,評估不同的技術和考慮各種權衡。

若未建立此最佳實務,暴露的風險等級:

實作指引

應用程式設計必須將多元的要求納入考慮,這些要求是從業務、營運和財務目標衍生而來。在營運要求內,工作負載必須有特定彈性指標目標,才能適當地監控和支援。彈性指標不應該在部署工作負載之後設定或衍生。它們應該在設計階段期間定義,協助引導各種決策和權衡。

  • 每個工作負載都應該有自己的一組彈性指標。這些指標可能與其他業務應用程式不同。

  • 降低相依性對可用性有正面影響。每個工作負載都應該考慮其相依性及其 SLA。一般而言,選取可用性目標等於或大於工作負載目標的相依性。

  • 請考慮鬆散耦合設計,讓您的工作負載在可行時不論是否有相依性受損,都可以正確操作。

  • 減少控制平面相依性,特別是復原或降級期間。評估針對任務關鍵性工作負載靜態穩定的設計。使用資源節省來增加工作負載中這些相依性的可用性。

  • 可觀測性和檢測對於透過降低平均偵測時間 (MTTD) 和平均修復時間 (MTTR) 來達成 SLA 相當關鍵。

  • 低頻率失敗 (MTBF 較長)、較短的失敗偵測時間 (較短 MTTD) 和較短的修復時間 (較短 MTTR),是用來在分散式系統中改善可用性的三個因素。

  • 建立和符合工作負載的彈性指標,是任何有效設計的基礎。這些設計必須考慮到設計複雜性、服務相依性、效能、擴展和成本的權衡。

實作步驟

  • 請考慮下列問題,檢閱和記載工作負載設計:

    • 控制平面用於工作負載的哪個地方?

    • 工作負載如何實作容錯能力?

    • 擴展、自動擴展、備援和高可用性元件的設計模式是什麼?

    • 資料一致性和可用性的要求是什麼?

    • 資源節省或資源靜態穩定性是否有任何考慮?

    • 服務相依性是什麼?

  • 與利害關係人合作時根據工作負載架構定義 SLA 指標。請考慮工作負載所使用所有相依性的 SLA。

  • 一旦設定 SLA 目標,最佳化架構以符合 SLA。

  • 一旦設定可符合 SLA 的設計,實作營運變更、處理自動化以及也會著重在降低 MTTD 和 MTTR 的執行手冊。

  • 一旦部署,監控和報告 SLA。

資源

相關的最佳實務:

相關文件:

相關服務: