Présentation Création de formats de tableau ouverts à partir d'une source de AWS Glue streaming

Utilisation d'infrastructures de lac de données avec AWS Glue Studio

Présentation

Les infrastructures de lac de données open source simplifient le traitement incrémentiel des fichiers stockés dans les lacs de données créés sur Amazon S3. AWS Glue 3.0 et versions ultérieures prennent en charge les infrastructures de stockage de lacs de données open source suivantes :

Apache Hudi
Linux Foundation Delta Lake
Apache Iceberg

À partir de AWS Glue 4.0, AWS Glue assure une prise en charge native de ces infrastructures, ce qui vous permet de lire et d'écrire les données que vous stockez dans Amazon S3 de manière cohérente sur le plan transactionnel. Il n'est pas nécessaire d'installer un connecteur distinct ou d'effectuer des étapes de configuration supplémentaires pour utiliser ces infrastructures dans les tâches AWS Glue.

Les cadres de lac de données peuvent être utilisés comme source ou cible dans AWS Glue Studio par l'intermédiaire des tâches de l'éditeur de script Spark. Pour plus d'informations sur l'utilisation d'Apache Hudi, d'Apache Iceberg et de Delta Lake, consultez : Using data lake frameworks with AWS Glue ETL jobs.

Création de formats de tableau ouverts à partir d'une source de AWS Glue streaming

AWS Glue les tâches ETL de streaming consomment en permanence des données provenant de sources de streaming, nettoient et transforment les données en vol, et les rendent disponibles pour analyse en quelques secondes.

AWS propose une large gamme de services pour répondre à vos besoins. Un service de réplication de base de AWS données tel que Database Migration Service peut répliquer les données de vos systèmes sources vers Amazon S3, qui héberge généralement la couche de stockage du lac de données. Bien qu'il soit simple d'appliquer des mises à jour à un système de gestion de base de données relationnelle (RDBMS) qui soutient une application source en ligne, il est difficile d'appliquer ce processus CDC à vos lacs de données. Les cadres de gestion de données open source simplifient le traitement incrémentiel des données et le développement de pipelines de données et constituent une bonne option pour résoudre ce problème.

Pour plus d'informations, consultez :

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Exemples de scripts visuels personnalisés

Utilisation du cadre Hudi dans AWS Glue Studio