Impacto da reinicialização do corretor durante a aplicação de patches e outras manutenções - Amazon Managed Streaming for Apache Kafka

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Impacto da reinicialização do corretor durante a aplicação de patches e outras manutenções

Periodicamente, o Amazon MSK atualiza o software de seus corretores. Essas atualizações não terão impacto nas gravações e leituras de seus aplicativos se você seguir as melhores práticas.

O Amazon MSK usa atualizações contínuas de software para manter a alta disponibilidade de seus clusters. Durante esse processo, os corretores são reiniciados um de cada vez e Kafka transfere automaticamente a liderança para outro corretor on-line. Os clientes Kafka têm mecanismos integrados para detectar automaticamente a mudança na liderança das partições e continuar gravando e lendo dados em um cluster MSK.

Depois que um corretor fica off-line, é normal ver erros transitórios de desconexão em seus clientes. Você também observará por um breve período (até 2 minutos, normalmente menos) alguns picos na latência de leitura e gravação do p99 (normalmente alta em milissegundos, até aproximadamente 2 segundos). Esses picos são esperados e são causados pela reconexão do cliente com uma nova corretora líder; isso não afeta sua produção ou consumo e será resolvido após a reconexão.

Você também observará um aumento na métricaUnderReplicatedPartitions, o que é esperado, pois as partições do broker que foi encerrado não estão mais replicando dados. Isso não afeta as gravações e leituras dos aplicativos, pois as réplicas dessas partições hospedadas em outros agentes agora atendem às solicitações.

Após a atualização do software, quando a corretora volta a ficar online, ela precisa “se atualizar” sobre as mensagens produzidas enquanto estava offline. Durante o catch up, você também pode observar um aumento no uso da taxa de transferência do volume e da CPU. Isso não deve ter impacto nas gravações e leituras no cluster se você tiver recursos suficientes de CPU, memória, rede e volume em seus agentes.