Qu'est-ce que c'est AWS Glue ? - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Qu'est-ce que c'est AWS Glue ?

AWS Glueest un service d'intégration de données sans serveur qui facilite la découverte, la préparation, le déplacement et l'intégration de données provenant de plusieurs sources pour les utilisateurs d'analytique. Vous pouvez l'utiliser pour l'analyse, le machine learning et le développement d'applications. Il inclut également des outils de productivité et d'exploitation des données supplémentaires pour la création, l'exécution de tâches et la mise en œuvre de flux de travail.

avecAWS Glue, vous pouvez découvrir et vous connecter à plus de 70 sources de données diverses et gérer vos données dans un catalogue de données centralisé. Vous pouvez créer, exécuter et surveiller visuellement des pipelines d'extraction, de transformation et de chargement (ETL) pour charger les données dans vos lacs de données. Vous pouvez également rechercher et interroger immédiatement les données cataloguées à l'aide d'Amazon Athena, Amazon EMR et Amazon Redshift Spectrum.

AWS Gluerenforce les fonctionnalités principales d'intégration de données en un seul service. Il s'agit notamment de la découverte de données, de l'ETL moderne, du nettoyage, de la transformation et du catalogage centralisé. Il est également sans serveur, ce qui signifie qu'il n'y a aucune infrastructure à gérer. Avec une prise en charge flexible pour toutes les charges de travail telles que l'ETL, l'ELT et le streaming dans un seul service,AWS Glue prend en charge les utilisateurs pour différentes charges de travail et différents types d'utilisateurs.

Également,AWS Gluefacilite l'intégration des données au sein de votre architecture. Il s'intègre aux services AWS d'analyse et aux lacs de données Amazon S3. AWS Gluepropose des interfaces d'intégration et des outils de création de tâches faciles à utiliser pour tous les utilisateurs, des développeurs aux utilisateurs professionnels, avec des solutions adaptées à des compétences techniques variées.

Avec la possibilité d'évoluer à la demande,AWS Gluevous permet de vous concentrer sur des activités à forte valeur ajoutée qui optimisent la valeur de vos données. Il s'adapte à toutes les tailles de données et prend en charge tous les types de données et toutes les variances de schéma. Pour accroître l'agilité et optimiser les coûts, AWS Glue fournit une haute disponibilité et une pay-as-you-go facturation intégrées.

Pour en savoir plus sur la tarification, consultez Tarification AWS Glue.

AWS Glue Studio

AWS Glue Studioest une interface graphique qui facilite la création, l'exécution et le contrôle des tâches d'intégration de données dansAWS Glue. Vous pouvez composer visuellement des flux de transformation de données et les exécuter de manière transparente sur le moteur ETL sans serveur basé sur Apache Spark de AWS Glue.

Avec AWS Glue Studio, vous aide à créer ainsi qu’à gérer des tâches rassemblant, améliorant et nettoyant les données. Vous pouvez également utiliser AWS Glue Studio pour résoudre les problèmes et modifier les scripts de tâche.

Fonctionnalités d’AWS Glue

AWS Glueles fonctionnalités se répartissent en trois catégories principales :

  • Découvrez et organisez les données

  • Transformez, préparez et nettoyez les données pour les analyser

  • Créez et surveillez des pipelines de données

Découverte et organisation des données

  • Unifiez et recherchez dans plusieurs banques de données : stockez, indexez et recherchez dans plusieurs sources et récepteurs de données en cataloguant toutes vos données. AWS

  • Découverte automatique de données — Utilisation deAWS Gluerobots d'exploration afin de déduire automatiquement les informations du schéma et de les intégrer dans votre AWS Glue Data Catalog.

  • Gestion des schémas et des autorisations— Validez et contrôlez l'accès à vos bases de données et tables.

  • Connectez-vous à un large éventail de sources de données : exploitez plusieurs sources de données, sur site ou sur site AWS, en utilisant des AWS Glue connexions pour créer votre lac de données.

Transformez, préparez, et nettoyez les données afin de les analyser

  • Transformez visuellement les données à l'aide d'une interface de canevas de tâches : définissez votre processus ETL dans l'éditeur visuel de tâches et générez automatiquement le code pour extraire, transformer et charger vos données.

  • Grâce à une planification simple des tâches, créez des pipelines ETL complexes — InvoquezAWS Glueemplois en fonction d’un calendrier, d’une demande ou d'un événement.

  • Nettoyez et transformez les données de streaming en transit— Permettez une consommation continue des données, nettoyez-les et transformez-les en transit. Cette démarche le rend disponible afin de l’analyser en quelques secondes dans votre magasin de données cible.

  • Dédupliquez et nettoyez les données grâce au machine learning intégré— Nettoyez et préparez vos données pour analyse sans devenir un expert en machine learning en utilisant leFindMatchesfonction. Cette fonctionnalité permet la déduplication ainsi que la recherche des enregistrements ne correspondant pas parfaitement les uns aux autres.

  • Bloc-notes de travail intégrés–AWS Glueles carnets de tâches fournissent des ordinateurs portables sans serveur avec une configuration minimale dansAWS Glueafin de rendre le démarrage rapide.

  • Modifier, déboguer et tester le code ETL— AvecAWS Gluesessions interactives, il est possible d’explorer et de préparer des données de manière interactive. Grâce à l’IDE ou à un bloc-notes de votre choix, vous pouvez explorer, expérimenter ainsi que traiter des données de manière interactive.

  • Définissez, détectez et corrigez les données sensibles–AWS Gluela détection des données sensibles vous permet de définir, d'identifier et de traiter les données sensibles dans votre pipeline de données ainsi que dans votre lac de données.

Création et surveillance des pipelines de données

  • Adaptation automatique en fonction de la charge— Augmentez et diminuez les ressources de manière dynamique en fonction de la charge Cette adaptation affecte les travailleurs à des emplois uniquement en cas de nécessité.

  • Automatisez les tâches à l'aide de déclencheurs— démarrer les robots d'exploration ouAWS Gluetâches avec déclencheurs basés sur les événements, ensuite, concevoir une chaîne de tâches ainsi que de robots d’exploration dépendants.

  • Exécuter et surveiller les tâches : exécutez les tâches AWS Glue avec le moteur de votre choix, Spark ou Ray. Surveillez-les à l'aide d'outils de surveillance automatisés, d'informations sur l'exécution des tâches AWS Glue et AWS CloudTrail. Améliorez votre surveillance des tâches soutenues par Spark avec l'interface utilisateur Apache Spark.

  • Définition des flux de travail pour les activités ETL et d'intégration— Définissez les flux de travail pour l'ETL et les activités d'intégration pour plusieurs robots d’exploration, tâches et déclencheurs.

En savoir plus sur les innovations dans AWS Glue

Découvrez les dernières innovations AWS Glue et découvrez comment les clients les utilisent AWS Glue pour permettre la préparation des données en libre-service au sein de leur organisation.

Découvrez comment les clients évoluent AWS Glue au-delà de la configuration traditionnelle et comment ils se configurent AWS Glue pour le suivi des tâches et les performances.

Démarrer avec AWS Glue

La lecture de ces sections est indispensable:

Accès à AWS Glue

Vous pouvez créer vos AWS Glue, y accéder et les gérer à l'aide des interfaces suivantes :

  • AWS Glueconsole— Fournit une interface Web pour créer, afficher et gérer vosAWS Gluetâches. Pour accéder à la console, consultez AWS Glue.

  • AWS Glue Studio— Fournit une interface graphique vous permettant de créer et de modifier visuellement vosAWS Glue tâches. Pour plus d'informations, consultez What is AWS Glue Studio.

  • AWS Gluesection de la AWS CLI référence — Fournit des AWS CLI commandes que vous pouvez utiliser avecAWS Glue. Pour plus d’informations, consultez la référence AWS CLI pour AWS Glue.

  • AWS GlueAPI— Fournit une référence d'API complète pour les développeurs. Pour plus d’informations, consultez AWS Glue API.

Utilisateurs deAWS Glueutilisez également :

  • AWS Lake Formation — Un service qui est une couche d'autorisation fournissant un contrôle précis des accès aux ressources duAWS Glue Data Catalog.

  • AWS Glue DataBrew— Outil visuel de préparation des données que vous pouvez utiliser pour nettoyer et normaliser les données sans écrire de code.