Bonnes pratiques en matière de configuration Hudi - Service géré pour Apache Flink

Le service géré Amazon pour Apache Flink était auparavant connu sous le nom d’Amazon Kinesis Data Analytics pour Apache Flink.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Bonnes pratiques en matière de configuration Hudi

Pour exécuter les connecteurs Hudi sur le service géré pour Apache Flink, nous recommandons les modifications de configuration suivantes.

Désactiver hoodie.embed.timeline.server

Le connecteur Hudi sur Flink configure un serveur de chronologie (TM) intégré au gestionnaire de tâches Flink (JM) pour mettre en cache les métadonnées afin d'améliorer les performances lorsque le parallélisme des tâches est élevé. Nous vous recommandons de désactiver ce serveur intégré sur le service géré pour Apache Flink, car nous désactivons les communications non-Flink entre JM et TM.

Si ce serveur est activé, Hudi Writes essaiera d'abord de se connecter au serveur intégré sur JM, puis recommencera à lire les métadonnées d'Amazon S3. Cela signifie que Hudi subit un délai d'expiration de connexion qui retarde les écritures de Hudi et a un impact sur les performances du service géré pour Apache Flink.