Utilisation des intégrations zéro ETL d'Amazon RDS à Amazon Redshift (version préliminaire) - Amazon Relational Database Service

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation des intégrations zéro ETL d'Amazon RDS à Amazon Redshift (version préliminaire)

Il s'agit de la documentation préliminaire relative aux intégrations zéro ETL d'Amazon RDS à Amazon Redshift, qui est disponible en version préliminaire. La documentation et la fonction sont toutes deux sujettes à modification. Nous vous recommandons d’utiliser cette fonction uniquement dans des environnements de test et non dans des environnements de production. Pour voir les conditions générales, consultez Beta and Previews (Bêtas et aperçus) dans les Conditions de service AWS.

Une intégration zéro ETL d'Amazon RDS à Amazon Redshift effectue des opérations d'analyse en temps quasi-réel et de machine learning (ML) à l'aide d'Amazon Redshift sur des pétaoctets de données transactionnelles provenant de RDS. Il s'agit d'une solution entièrement gérée permettant de rendre les données transactionnelles disponibles dans Amazon Redshift après leur écriture dans un cluster de base de données RDS . Le processus d'extraction, transformation et chargement (ETL) consiste à combiner des données provenant de plusieurs sources dans un grand référentiel central.

Une intégration zéro ETL rend les données de votre disponibles dans Amazon Redshift en temps quasi réel. Une fois ces données enregistrées dans Amazon Redshift, vous pouvez optimiser vos charges de travail d'analyse, d'apprentissage automatique et d'intelligence artificielle à l'aide des fonctionnalités intégrées d'Amazon Redshift, telles que l'apprentissage automatique, les vues matérialisées, le partage de données, l'accès fédéré à plusieurs magasins de données et lacs de données, et les intégrations avec Amazon, Amazon et autres. SageMaker QuickSight Services AWS

Pour créer une intégration zéro ETL, vous devez spécifier une instance de base de données mono-AZ ou multi-AZ, un cluster comme source et un entrepôt de données Amazon Redshift comme cible. L'intégration réplique les données de la base de données source vers l'entrepôt des données cible.

Le schéma suivant illustre cette fonctionnalité :


            Intégration zéro ETL

L'intégration surveille l'état du pipeline de données et effectue la récupération en cas de problèmes, lorsque cela est possible. Vous pouvez créer des intégrations à partir de plusieurs bases de données RDS () dans un seul espace de noms Amazon Redshift, ce qui vous permet d'obtenir des informations sur plusieurs applications.

Avantages

Les intégrations zéro ETL de RDS à Amazon Redshift présentent les avantages suivants :

  • Elles vous aident à dériver des informations holistiques de plusieurs sources de données.

  • Elles éliminent la nécessité de créer et de gérer des pipelines de données complexes qui effectuent des opérations d'extraction, de transformation et de chargement (ETL). Les intégrations zéro ETL suppriment les défis liés à la création et à la gestion de pipelines en les provisionnant et en les gérant pour vous.

  • Elles réduisent la charge opérationnelle et les coûts, et vous permettent de vous concentrer sur l'amélioration de vos applications.

  • Profitez des fonctionnalités d'analyse et de machine learning d'Amazon Redshift pour obtenir des informations à partir de données transactionnelles et autres, afin de répondre efficacement aux événements critiques et urgents.

Concepts clés

Lorsque vous commencez à utiliser des intégrations zéro ETL, tenez compte des concepts suivants :

Integration

Un pipeline de données entièrement géré qui réplique automatiquement les données transactionnelles et les schémas d'un cluster de base de données RDS vers un entrepôt de données Amazon Redshift.

données source

Le duquel les données sont répliquées. Vous pouvez spécifier une instance de base de données mono-AZ ou multi-AZ. Plusieurs bases de données sources de données peuvent écrire sur la même cible. Certaines restrictions s'appliquent aux paramètres du de bases de données source, qui sont décrites dansLimitations propres à la version préliminaire.

Entrepôt de données cible

L'entrepôt de données Amazon Redshift vers lequel les données sont répliquées. Il existe deux types d'entrepôts de données : l'entrepôt de données en cluster provisionné et l'entrepôt de données sans serveur. Un entrepôt de données en cluster provisionné est une collection de ressources informatiques appelées nœuds, qui sont organisées en un groupe appelé cluster. Un entrepôt de données sans serveur est composé d'un groupe de travail qui stocke les ressources de calcul et d'un espace de noms qui héberge les utilisateurs et les objets de base de données. Les deux entrepôts de données exécutent un moteur Amazon Redshift et contiennent une ou plusieurs bases de données.

Pour plus d'informations, consultez Architecture système de l'entrepôt de données dans le Guide du développeur de base de données Amazon Redshift.

Limitations propres à la version préliminaire

Les limitations suivantes s'appliquent aux intégrations zéro ETL de RDS à Amazon Redshift.

Limitations générales

  • Le de base de données source doit se trouver dans la même région que l'entrepôt de données Amazon Redshift cible.

  • Vous ne pouvez pas renommer un s'il possède des intégrations existantes.

  • Vous ne pouvez pas supprimer un de base de données doté d'intégrations existantes. Vous devez d’abord supprimer toutes les intégrations associées.

  • Si vous arrêtez le de base de données source, les dernières transactions risquent de ne pas être répliquées vers l'entrepôt de données cible tant que vous ne reprenez pas le de bases de données.

  • Vous ne pouvez pas supprimer une intégration si la base de données source est arrêtée.

  • Amazon RDS prend uniquement en charge les déploiements d'instances de base de données mono-AZ et multi-AZ en tant que sources d'intégration. Il ne prend actuellement pas en charge les clusters de bases de données multi-AZ.

  • Les intégrations Zero-ETL ne prennent actuellement pas en charge le filtrage des données.

  • Si votre de base de données est à l'origine d'un déploiement bleu/vert, les environnements bleu et vert ne peuvent pas comporter d'intégrations zéro ETL existantes lors du passage au numérique. Vous devez d'abord supprimer l'intégration et basculer, puis la recréer.

  • Lors de la création initiale d'une intégration ou lors de la resynchronisation d'une table, l'ensemencement des données de la source vers la cible peut prendre 20 à 25 minutes, voire plus, selon la taille de la base de données source. Ce délai peut entraîner une augmentation du délai de réplication.

  • Certains types de données ne sont pas pris en charge. Pour afficher la liste des types de données pris en charge, consultez Différences de type de données entre les bases de données RDS et Amazon Redshift.

  • Les références de clé étrangère avec des mises à jour de table prédéfinies ne sont pas prises en charge. Plus précisément, ON DELETE les ON UPDATE règles ne sont pas prises en charge par CASCADESET NULL, et SET DEFAULT les actions. Toute tentative de création ou de mise à jour d'une table contenant de telles références à une autre table entraînera l'échec de la table.

  • Les transactions XA ne sont pas prises en charge.

  • Les identifiants d'objet (y compris le nom de base de données, le nom de table, les noms de colonnes, etc.) ne peuvent contenir que des caractères alphanumériques, des chiffres, $ et _ (trait de soulignement).

Limitations propres à RDS for MySQL

  • Votre base de données source doit exécuter RDS pour MySQL version 8.0.28 ou supérieure.

  • Les intégrations zéro ETL s'appuient sur la journalisation binaire MySQL (binlog) pour capturer les modifications continues des données. Nous vous recommandons de ne pas utiliser le filtrage de données basé sur binlog, car cela peut entraîner des incohérences de données entre les bases de données source et cible.

  • Les tables système, les tables temporaires et les vues RDS for MySQL ne sont pas répliquées vers Amazon Redshift.

  • Les intégrations zéro ETL sont prises en charge uniquement pour les bases de données configurées pour utiliser le moteur de stockage InnoDB.

  • Les clusters de base de données source ne peuvent pas être configurés avec l'autorité de certification (CA)rds-ca-ecc384-g1.

  • ALTER TABLE La table ne pourra pas être interrogée pendant la resynchronisation.

Limitations propres à Amazon Redshift

Pour obtenir la liste des limitations d'Amazon Redshift liées aux intégrations sans ETL, consultez les considérations du guide de gestion Amazon Redshift.

Quotas

Votre compte possède les quotas suivants relatifs aux intégrations zéro ETL de RDS à Amazon Redshift. Chaque quota s'applique par région, sauf indication contraire.

Nom Par défaut Description
Intégrations 100 Nombre total d'intégrations au sein d'un  Compte AWS.
Intégrations par entrepôt de données cible 50 Nombre d'intégrations envoyant des données à un entrepôt de données Amazon Redshift cible unique.
Intégrations par instance source 1 Nombre d'intégrations envoyant des données à partir d'un de base de données source unique.

En outre, Amazon Redshift impose certaines limites au nombre de tables autorisées dans chaque instance de base de données ou nœud de cluster. Pour plus d’informations, consultez Quotas et limites dans Amazon Redshift dans le Guide de gestion Amazon Redshift.

Régions prises en charge

Les intégrations RDS Zero-ETL avec Amazon Redshift sont disponibles dans un sous-ensemble de. Régions AWS Pour obtenir une liste des régions prises en charge, consultez Intégrations zéro ETL à Amazon Redshift.