系统回滚最佳实践 - Managed Service for Apache Flink

Amazon Managed Service for Apache Flink 之前称为 Amazon Kinesis Data Analytics for Apache Flink。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

系统回滚最佳实践

借助适用于 Apache Flink 的 Amazon 托管服务中的自动系统回滚和操作可视性功能,您可以识别和解决应用程序存在的问题。

系统回滚

如果您的应用程序更新或扩展操作由于客户错误(例如代码错误或权限问题)而失败,如果您选择使用此功能,则适用于 Apache Flink 的 Amazon 托管服务会自动尝试回滚到之前运行的版本。有关更多信息,请参阅 为适用于 Apache Flink 的托管服务应用程序启用系统回滚。如果此自动回滚失败,或者您尚未选择加入或选择退出,则您的应用程序将进入该状态。READY要更新您的应用程序,请完成以下步骤:

手动回滚

如果应用程序没有进展并且长时间处于暂时状态,或者应用程序成功过渡到Running,但您在成功更新的 Flink 应用程序中看到处理错误等下游问题,则可以使用 API 手动将其回滚。RollbackApplication

  1. 调用 RollbackApplication-这将恢复到之前的运行版本并恢复之前的状态。

  2. 使用 DescribeApplicationOperation API 监控回滚操作。

  3. 如果回滚失败,请使用之前的系统回滚步骤。

运营可见性

ListApplicationOperationsAPI 显示您的应用程序上所有客户和系统操作的历史记录。

  1. 从列表中获取失败操作的 Operation ID

  2. 致电DescribeApplicationOperation并查看状态和状态描述

  3. 如果操作失败,描述将指出需要调查的潜在错误。

常见的错误代码错误:使用回滚功能恢复到上一个工作版本。解决错误并重试更新。

权限问题:DescribeApplicationOperation使用查看所需的权限。更新应用程序权限并重试。

适用于 Apache Flink 的亚马逊托管服务服务问题:查看 AWS Health Dashboard 或提交支持案例。