Sesgo de datos - Managed Service para Apache Flink

Amazon Managed Service para Apache Flink Amazon se denominaba anteriormente Amazon Kinesis Data Analytics para Apache Flink.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Sesgo de datos

Una aplicación Flink se ejecuta en un clúster de forma distribuida. Para escalar horizontalmente a varios nodos, Flink utiliza el concepto de flujos con claves, que básicamente significa que los eventos de un flujo se dividen en función de una clave específica, por ejemplo, la identificación del cliente, y Flink puede procesar diferentes particiones en diferentes nodos. Luego, muchos de los operadores de Flink se evalúan en función de estas particiones, por ejemplo, ventanas con clave, funciones de procesos y Async I/O.

La elección de una clave de partición a menudo depende de la lógica empresarial. Al mismo tiempo, muchas de las prácticas recomendadas, por ejemplo, para DynamoDB y Spark, también se aplican a Flink, entre las que se incluyen:

  • Garantía de una alta cardinalidad de las claves de partición

  • Evasión del sesgo en el volumen de eventos entre las particiones

Puede identificar el sesgo en las particiones comparando los registros recibidos o enviados de las subtareas (es decir, instancias del mismo operador) en el panel de control de Flink. Además, el monitoreo de Managed Service para Apache Flink se puede configurar para mostrar las métricas correspondientes para numRecordsIn/Out y numRecordsInPerSecond/OutPerSecond a nivel de subtarea.