Utilisation de connecteurs personnalisés et de connexions avec AWS Glue Studio

AWS Glue fournit un support intégré pour les magasins de données les plus couramment utilisés (tels qu'Amazon Aurora Amazon Redshift, Microsoft SQL Server, MySQL, MongoDB et PostgreSQL) à l'aide de connexions JDBC. AWS Glue vous permet également d'utiliser des pilotes JDBC personnalisés dans vos tâches d'extraction, de transformation et de chargement (ETL). Pour les magasins de données qui ne sont pas pris en charge en mode natif, comme les applications SaaS, vous pouvez utiliser des connecteurs.

Un connecteur est un package de code facultatif qui facilite l'accès aux magasins de données dans AWS Glue Studio. Vous pouvez vous abonner à plusieurs connecteurs proposés dans AWS Marketplace.

Lorsque vous créez des tâches ETL, vous pouvez utiliser un magasin de données pris en charge de manière native AWS Marketplace, un connecteur ou vos propres connecteurs personnalisés. Si vous utilisez un connecteur, vous devez d'abord créer une connexion pour le connecteur. Une connexion contient les propriétés requises pour se connecter à un magasin de données particulier. Vous utilisez la connexion avec vos sources de données et cibles de données dans la tâche ETL. Les connecteurs et les connexions fonctionnent ensemble pour faciliter l'accès aux magasins de données.

Les connexions suivantes sont disponibles lors de la création de connexions pour les connecteurs :

Amazon Aurora: un moteur de base de données relationnelle évolutif et très performant doté de fonctionnalités intégrées de sécurité, de sauvegarde et de restauration, ainsi que d'accélération en mémoire.
Amazon DocumentDB : un service de base de données de documents évolutif, hautement disponible et entièrement géré qui prend en charge MongoDB et SQL. APIs
Amazon Redshift: un service de base de données de documents évolutif, hautement disponible et entièrement géré qui prend en charge MongoDB et SQL. APIs
Azure SQL : un service de base de données relationnelle basé sur le cloud de Microsoft Azure qui fournit des fonctionnalités de stockage et de gestion de données évolutives, fiables et sécurisées.
Cosmos DB : un service de base de données basé sur le cloud distribué dans le monde entier de Microsoft Azure qui fournit des fonctionnalités de stockage et de requête de données évolutives et très performantes.
Google BigQuery : un entrepôt de données cloud sans serveur permettant d'exécuter des requêtes SQL rapides sur de grands ensembles de données.
JDBC : système de gestion de base de données relationnelle (RDBMS) qui utilise une API Java pour se connecter et interagir avec les connexions de données.
Kafka : une plateforme de traitement de flux open source utilisée pour le streaming de données et la messagerie en temps réel.
MariaDB : une fourche développée par la communauté de MySQL qui offre des performances, une évolutivité et des fonctionnalités améliorées.
MongoDB : une base de données multiplateforme orientée documents qui offre une évolutivité, une flexibilité et des performances élevées.
MongoDB Atlas : une offre de base de données en tant que service (DBaaS) basée sur le cloud de MongoDB qui simplifie la gestion et le dimensionnement des déploiements MongoDB.
Microsoft SQL Server : système de gestion de base de données relationnelle (RDBMS) de Microsoft qui fournit des fonctionnalités robustes de stockage, d'analyse et de création de rapports.
Mixpanel : plate-forme d'analyse qui aide les entreprises à analyser la manière dont les utilisateurs interagissent avec leurs sites Web, leurs applications mobiles et leurs autres produits numériques.
MySQL : un système de gestion de base de données relationnelle (RDBMS) open source largement utilisé dans les applications web et connu pour sa fiabilité et sa capacité de mise à l'échelle.
Réseau : une source de données réseau représente une ressource ou un service accessible par le réseau auquel une plateforme d'intégration de données peut accéder.
OpenSearch— une source de OpenSearch données est une application qui OpenSearch peut se connecter à des données et les ingérer depuis.
Oracle : un système de gestion de base de données relationnelle (RDBMS) d'Oracle Corporation qui fournit des fonctionnalités robustes de stockage, d'analyse et de création de rapports.
PostgreSQL : un système de gestion de base de données relationnelle (RDBMS) open source qui fournit des fonctionnalités robustes de stockage, d'analyse et de création de rapports.
Salesforce — Salesforce fournit un logiciel de gestion de la relation client (CRM) qui vous aide dans les domaines des ventes, du service client, du commerce électronique, etc. Si vous êtes un utilisateur de Salesforce, vous pouvez vous connecter AWS Glue à votre compte Salesforce. Vous pouvez ensuite utiliser Salesforce comme source de données ou destination dans vos tâches ETL. Exécutez ces tâches pour transférer des données entre Salesforce et les AWS services ou d'autres applications prises en charge.
SAP HANA : une base de données en mémoire et plateforme d'analyse qui permet un traitement rapide des données, des analyses avancées et une intégration des données en temps réel.
Snowflake : un entrepôt des données basé sur le cloud qui fournit des services d'analyse et de stockage de données évolutifs et très performants.
Teradata : un système de gestion de base de données relationnelle (RDBMS) qui fournit des fonctionnalités très performantes de stockage, d'analyse et de création de rapports.
Vertica : un entrepôt des données analytiques orienté colonnes conçu pour l'analytique du big data qui offre des performances de requêtes rapides, des analyses avancées et capacité de mise à l’échelle.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Ajout d'une connexion JDBC à l'aide de vos propres pilotes JDBC

Création de connecteurs personnalisés