結論

我們在本文件中建立了 12 個高可用性規則。

規則 1 — 較少的故障頻率 (較長的 MTBF)、更短的故障偵測時間 (縮短 MTTD)，以及更短的修復時間 (縮短 MTTR) 是用來改善分散式系統可用性的三個因素。
規則 2 — 工作負載中的軟體可用性是工作負載整體可用性的重要因素，而且應與其他元件相同。
規則 3 — 減少相依性可能會對可用性產生積極影響。
規則 4 — 一般而言，選取可用性目標等於或大於工作負載目標的相依性。
規則 5 — 使用備用來增加工作負載中相依性的可用性。
規則 6 — 備用的成本效率有一個上限。利用所需的最少備用裝置來達到所需的可用性。
規則 7 — 請勿依賴資料平面中的控制平面，尤其是在復原期間。
規則 8 — 鬆散耦合依賴關係，以便儘管依賴性受損，您的工作負載仍可以正確運行，盡可能。
規則 9 — 觀察性和儀器儀表對於減少 MTTD 和 MTTR 至關重要。
規則 10 — 專注於緩解影響，而不是解決問題。以最快的路徑回到正常操作。
規則 11 — 故障隔離可減少影響範圍，並透過降低整體故障率來增加工作負載的 MTBF。
規則 12 — 讓操作員輕鬆做正確的事情。

透過減少 MTTD 和 MTTR，以及增加 MTBF 來改善工作負載可用性。總之，我們討論了以下方法，以提高涵蓋技術、人員和流程的可用性。

請記住，我們永遠不會完全成功地防止失敗。專注於具有最佳故障隔離的軟體設計，這些隔離會限制影響範圍和大小，最理想地將影響保持在「停機時間」閾值以下，並投資於非常快速、非常可靠的偵測和緩解措施。現代分散式系統仍然需要將故障視為不可避免的情況，並在各個層面進行設計，以實現高可用

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

增加 MTBF

附錄 1 — MTTD 和 MTTR 的關鍵指標