패치 적용 및 기타 유지 관리 중에 브로커 재시작이 미치는 영향 - Amazon Managed Streaming for Apache Kafka

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

패치 적용 및 기타 유지 관리 중에 브로커 재시작이 미치는 영향

Amazon MSK는 브로커의 소프트웨어를 정기적으로 업데이트합니다. 모범 사례를 따르는 경우 이러한 업데이트는 애플리케이션의 쓰기 및 읽기에 영향을 주지 않습니다.

Amazon MSK는 소프트웨어의 롤링 업데이트를 사용하여 클러스터의 고가용성을 유지합니다. 이 과정에서 브로커가 한 번에 하나씩 재부팅되고 Kafka는 자동으로 리더십을 다른 온라인 브로커로 옮깁니다. Kafka 클라이언트에는 파티션의 리더십 변화를 자동으로 감지하고 MSK 클러스터에 데이터를 계속 쓰고 읽는 메커니즘이 내장되어 있습니다.

브로커가 오프라인으로 전환되면 클라이언트에서 일시적인 연결 끊김 오류가 발생하는 것은 정상입니다. 또한 p99 읽기 및 쓰기 지연 시간 (일반적으로 높은 밀리초, 최대 2초) 이 약간 급증하는 것을 짧은 기간 (최대 2분, 일반적으로 더 짧음) 동안 관찰할 수 있습니다. 이러한 스파이크는 예상되며 클라이언트가 새로운 리더 브로커에 다시 연결함으로써 발생합니다. 생산이나 소비에는 영향을 미치지 않으며 재연결 후 해결됩니다.

또한 지표가 증가하는 것을 확인할 수 있는데UnderReplicatedPartitions, 이는 종료된 브로커의 파티션이 더 이상 데이터를 복제하지 않기 때문에 예상되는 현상입니다. 다른 브로커에서 호스팅되는 파티션의 복제본이 이제 요청을 처리하고 있기 때문에 애플리케이션의 쓰기 및 읽기에는 영향을 미치지 않습니다.

소프트웨어 업데이트 후 브로커가 다시 온라인 상태가 되면 오프라인 상태에서 생성된 메시지를 '따라잡기'해야 합니다. 또한 catchup을 진행하는 동안 볼륨 처리량과 CPU 사용량이 증가하는 것을 확인할 수 있습니다. 브로커에 충분한 CPU, 메모리, 네트워크 및 볼륨 리소스가 있는 경우 클러스터로의 쓰기 및 읽기에 영향을 미치지 않을 것입니다.