Sesgo de datos

Una aplicación Flink se ejecuta en un clúster de forma distribuida. Para escalar horizontalmente a varios nodos, Flink utiliza el concepto de flujos con claves, que básicamente significa que los eventos de un flujo se dividen en función de una clave específica, por ejemplo, la identificación del cliente, y Flink puede procesar diferentes particiones en diferentes nodos. Luego, muchos de los operadores de Flink se evalúan en función de estas particiones, por ejemplo, ventanas con clave, funciones de procesos y Async I/O.

La elección de una clave de partición a menudo depende de la lógica empresarial. Al mismo tiempo, muchas de las prácticas recomendadas, por ejemplo, para DynamoDB y Spark, también se aplican a Flink, entre las que se incluyen:

Garantía de una alta cardinalidad de las claves de partición
Evasión del sesgo en el volumen de eventos entre las particiones

Puede identificar el sesgo en las particiones comparando los registros recibidos o enviados de las subtareas (es decir, instancias del mismo operador) en el panel de control de Flink. Además, el monitoreo de Managed Service para Apache Flink se puede configurar para mostrar las métricas correspondientes para numRecordsIn/Out y numRecordsInPerSecond/OutPerSecond a nivel de subtarea.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Resistencia

Sesgo de estado