系統復原最佳實務

透過 Amazon Managed Service for Apache Flink 中的自動系統復原和操作可見性功能，您可以識別和解決應用程式的問題。

系統復原

如果您的應用程式更新或擴展操作因客戶錯誤而失敗，例如程式碼錯誤或許可問題，則如果您已選擇使用此功能，Amazon Managed Service for Apache Flink 會自動嘗試回復到先前的執行版本。如需詳細資訊，請參閱為您的 Managed Service for Apache Flink 應用程式啟用系統復原。如果此自動轉返失敗，或您尚未選擇加入或選擇退出，您的應用程式將進入 READY 狀態。若要更新您的應用程式，請完成下列步驟：

手動復原

如果應用程式未進行且處於暫時狀態很長的時間，或者應用程式成功轉換為 Running，但您看到下游問題，例如在成功更新的 Flink 應用程式中處理錯誤，您可以使用 RollbackApplication API 手動將其轉返。

呼叫 RollbackApplication - 這將還原至先前的執行版本，並還原先前的狀態。
使用 DescribeApplicationOperation API 監控復原操作。
如果復原失敗，請使用先前的系統復原步驟。

操作可見性

ListApplicationOperations API 會顯示應用程式上所有客戶和系統操作的歷史記錄。

從清單中取得失敗操作的 operationId。
呼叫DescribeApplicationOperation並檢查狀態和statusDescription。
如果操作失敗，描述會指向潛在的錯誤進行調查。

常見錯誤碼錯誤：使用復原功能還原至上次運作的版本。解決錯誤並重試更新。

許可問題：使用 DescribeApplicationOperation 查看所需的許可。更新應用程式許可並重試。

Amazon Managed Service for Apache Flink 服務問題：檢查 AWS Health Dashboard 或開啟支援案例。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

開發疑難排解

Hudi 組態最佳實務