Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation d'infrastructures de lac de données avec AWS Glue Studio
Présentation
Les infrastructures de lac de données open source simplifient le traitement incrémentiel des fichiers stockés dans les lacs de données créés sur Amazon S3. AWS Glue 3.0 et versions ultérieures prennent en charge les infrastructures de stockage de lacs de données open source suivantes :
-
Apache Hudi
-
Linux Foundation Delta Lake
-
Apache Iceberg
À partir de AWS Glue 4.0, AWS Glue assure une prise en charge native de ces infrastructures, ce qui vous permet de lire et d'écrire les données que vous stockez dans Amazon S3 de manière cohérente sur le plan transactionnel. Il n'est pas nécessaire d'installer un connecteur distinct ou d'effectuer des étapes de configuration supplémentaires pour utiliser ces infrastructures dans les tâches AWS Glue.
Les cadres de lac de données peuvent être utilisés comme source ou cible dans AWS Glue Studio par l'intermédiaire des tâches de l'éditeur de script Spark. Pour plus d'informations sur l'utilisation d'Apache Hudi, d'Apache Iceberg et de Delta Lake, consultez : Using data lake frameworks with AWS Glue ETL jobs.
Création de formats de tableau ouverts à partir d'une source de AWS Glue streaming
AWS Glue les tâches ETL de streaming consomment en permanence des données provenant de sources de streaming, nettoient et transforment les données en vol, et les rendent disponibles pour analyse en quelques secondes.
AWS propose une large gamme de services pour répondre à vos besoins. Un service de réplication de base de AWS données tel que Database Migration Service peut répliquer les données de vos systèmes sources vers Amazon S3, qui héberge généralement la couche de stockage du lac de données. Bien qu'il soit simple d'appliquer des mises à jour à un système de gestion de base de données relationnelle (RDBMS) qui soutient une application source en ligne, il est difficile d'appliquer ce processus CDC à vos lacs de données. Les cadres de gestion de données open source simplifient le traitement incrémentiel des données et le développement de pipelines de données et constituent une bonne option pour résoudre ce problème.
Pour plus d'informations, consultez :