控制平面和資料平面 - 進階異地同步備份復原模

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

控制平面和資料平面

在我們得到你可以用來執行可用區撤離的實際模式之前,我們需要討論控制平面和數據平面的概念。AWS在我們的服務中區分控制平面和數據平面。控制平面是對系統進行變更 (新增資源、刪除資源、修改資源) 所涉及的機器,以及讓這些變更傳播到任何需要生效的地方,例如更新 ALB 的網路組態或建立AWS Lambda功能。

資料平面是這些資源的主要功能,例如執行中 EC2 執行個體,或從 Amazon DynamoDB 表格取得項目或將項目放入 Amazon DynamoDB 表格。如需控制平面和資料平面的更詳細討論,請參閱使用可用區域的靜態穩定AWS故障隔離邊界

針對本文件的目的,請考慮控制平面比資料平面具有更多的移動零件和相依性。這使得與數據平面相比,在統計學上更有可能控制平面變得受損。這與提供 AZI 的服務尤其相關,例如 Amazon EC2 和 EBS,因為這些服務的某些部分具有也是區域獨立的控制平面,並且可能在單一可用區事件期間受到影響。

雖然控制平面動作可用於執行 AZ 疏散,但根據先前的資訊,它們的成功機率可能較低,尤其是在發生故障事件時。若要增加成功減輕影響的可能性,您可以使用兩種不同的模式。第一個模式僅依賴於資料平面動作,藉由防止工作路由到受影響的可用區域,或停止工作在受影響的可用區域中完成,從而減輕影響。然後,可以嘗試使用控制平面動作來更新資源的組態,以防止在受影響的可用區域中佈建容量,以及停止與該可用區域之間的可用區域通訊。

本節討論的復原模式如下:大, 紅色, 按鈕。它們是您用來快速採取大規模行動的機制,類似於拉動安東電源線在組裝線上。他們假設工作負載已經嘗試過諸如此類的策略重試具有抖動的指數輪詢在他們的代碼中克服暫時性錯誤。這表示偵測到隔離的可用區域影響時,其對可用性或延遲的影響會嚴重到足以需要撤除可用區域才能有效減輕。