在重新分片期间,Amazon Kinesis 数据流源处理失序 - Managed Service for Apache Flink

Amazon Managed Service for Apache Flink 之前称为 Amazon Kinesis Data Analytics for Apache Flink。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在重新分片期间,Amazon Kinesis 数据流源处理失序

当前的 FlinkKinesisConsumer 实现并未在 Kinesis 分片之间提供强有力的排序保证。这可能会导致在重新分片 Kinesis Stream 期间进行 out-of-order处理,对于遇到处理延迟的 Flink 应用程序尤其如此。在某些情况下,例如基于事件时间的窗口运算符,事件可能会因为由此产生的延迟而被丢弃。

Diagram showing shards and shard consumers with time progression and trim horizon.

这是开源 Flink 中的一个已知问题。在连接器修复可用之前,请确保您的 Flink 应用程序在重新分区期间不会落后于 Kinesis Data Streams。通过确保 Flink 应用程序能够容忍处理延迟,您可以最大限度地减少 out-of-order处理的影响和数据丢失的风险。