Hudi - Amazon EMR

Hudi

Apache Hudi une infrastructure de gestion des données open source utilisée pour simplifier le traitement des données incrémentielles et le développement de pipelines de données en fournissant des fonctionnalités d'insertion, de mise à jour, de mise à jour/insertion et de suppression au niveau de l'enregistrement. Mise à jour/insertion fait référence à la capacité à insérer des enregistrements dans un ensemble de données existant s'ils n'existent pas déjà ou de les mettre à jour s'ils existent. En gérant efficacement la façon dont les données sont présentées dans Amazon S3, Hudi permet d'ingérer et de mettre à jour des données quasiment en temps réel. Hudi gère soigneusement les métadonnées des actions effectuées sur l'ensemble de données pour faire en sorte que les actions soient atomiques et cohérentes.

Hudi est intégré à Apache Spark, Apache Hive et Presto. Dans les versions 6.1.0 et ultérieures d'Amazon EMR, Hudi est également intégré à Trino (PrestoSQL).

Avec la version 5.28.0 d'Amazon EMR et les versions ultérieures, EMR installe les composants Hudi par défaut lorsque Spark, Hive, Presto ou Flink sont installés. Vous pouvez utiliser Spark ou l'utilitaire Hudi DeltaStreamer pour créer ou mettre à jour des ensembles de données Hudi. Vous pouvez utiliser Hive, Spark, Presto ou Flink pour interroger un jeu de données Hudi de manière interactive ou créer des pipelines de traitement de données à l'aide de l'extraction incrémentielle. L'extraction incrémentielle fait référence à la possibilité d'extraire uniquement les données qui ont changé entre deux actions.

Ces fonctionnalités rendent Hudi adapté pour les cas d'utilisation suivants :

  • Utilisation des données de streaming provenant de capteurs et d'autres appareils IoT (Internet des objets) nécessitant des événements d'insertion et de mise à jour spécifiques.

  • Conformité aux règles de confidentialité des données dans des applications où les utilisateurs peuvent choisir d'être oubliés ou modifier leur consentement quant à la manière dont leurs données peuvent être utilisées.

  • Implémentation d'un système de capture des données modifiées (CDC) qui vous permet d'appliquer des modifications à un ensemble de données au fil du temps.

Le tableau suivant répertorie la version de Hudi incluse dans la dernière version d'Amazon EMR série 6.x, ainsi que les composants qu'Amazon EMR installe avec Hudi.

Pour connaître la version des composants installés avec Hudi dans cette version, consultez les versions des composants de la version 6.14.0.

Informations sur la version de Hudi pour emr-6.14.0
Étiquette de version Amazon EMR Version Hudi Composants installés avec Hudi

emr-6.14.0

Hudi 0.13.1-amzn-2

Not available.

Note

La version 6.8.0 d'Amazon EMR est fournie avec Apache Hudi 0.11.1 ; toutefois, les clusters Amazon EMR 6.8.0 sont également compatibles avec le hudi-spark3.3-bundle_2.12 open source de Hudi 0.12.0.

Le tableau suivant répertorie la version de Hudi incluse dans la dernière version d'Amazon EMR série 5.x, ainsi que les composants qu'Amazon EMR installe avec Hudi.

Pour connaître la version des composants installés avec Hudi dans cette version, consultez les versions des composants de la version 6.14.0.

Informations sur la version de Hudi pour emr-5.36.1
Étiquette de version Amazon EMR Version Hudi Composants installés avec Hudi

emr-5.36.1

Hudi 0.10.1-amzn-1

Not available.