在修补和其他维护期间代理重启的影响 - Amazon Managed Streaming for Apache Kafka

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在修补和其他维护期间代理重启的影响

Amazon 会定期MSK更新您的经纪人的软件。如果您遵循最佳实践,这些更新不会影响应用程序的写入和读取。

Amazon 对软件MSK使用滚动更新来保持集群的高可用性。在此过程中,经纪人会逐一重启,Kafka 会自动将领导权移交给另一家在线经纪商。Kafka 客户端具有内置机制,可以自动检测分区领导层的变化,并继续向MSK集群中写入和读取数据。

代理离线后,通常会在您的客户端上看到暂时断开连接错误。您还将在短时间内(最长 2 分钟,通常更短)观察到 p99 读取和写入延迟(通常为高毫秒,最长可达 2 秒)出现一些峰值。这些峰值是预料之中的,是由客户端重新连接到新的领导者经纪人引起的;它不会影响你的生产或消费,将在重新连接后消失。有关更多信息,请参阅代理离线和客户端故障转移

您还将观察到该指标的增加UnderReplicatedPartitions,这是预期的,因为已关闭的代理上的分区不再复制数据。这不会影响应用程序的写入和读取,因为托管在其他代理上的这些分区的副本现在正在处理请求。

软件更新后,当交易商重新上线时,它需要 “catch” 离线时生成的消息。在 catch up 期间,您可能还会观察到卷吞吐量的使用量有所增加,以及CPU。如果您的代理上有足够的内存CPU、网络和卷资源,则这些不会对集群的写入和读取产生任何影响。