Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Migrez les données Hadoop vers Amazon S3 à l'aide de Migrator WANdisco LiveData
Créée par Tony Velcich
Récapitulatif
Ce modèle décrit le processus de migration des données Apache Hadoop d'un système de fichiers distribué Hadoop (HDFS) vers Amazon Simple Storage Service (Amazon S3). Il utilise WANdisco LiveData Migrator pour automatiser le processus de migration des données.
Conditions préalables et limitations
Prérequis
Nœud périphérique du cluster Hadoop sur lequel LiveData Migrator sera installé. Le nœud doit répondre aux exigences suivantes :
Spécifications minimales : 4 CPUs, 16 Go de RAM, 100 Go de stockage.
Réseau de 2 Gbit/s minimum.
Le port 8081 est accessible sur votre nœud périphérique pour accéder à l' WANdisco interface utilisateur.
Java 1.8 64 bits.
Bibliothèques clientes Hadoop installées sur le nœud Edge.
Possibilité de s'authentifier en tant que superutilisateur HDFS
(par exemple, « hdfs »). Si Kerberos est activé sur votre cluster Hadoop, un keytab valide contenant un principal adapté au superutilisateur HDFS doit être disponible sur le nœud Edge.
Un compte AWS actif avec accès à un compartiment S3.
Un lien AWS Direct Connect établi entre votre cluster Hadoop sur site (en particulier le nœud périphérique) et AWS.
Versions du produit
LiveData Migrateur 1.8.6
WANdisco Interface utilisateur (OneUI) 5.8.0
Architecture
Pile technologique source
Cluster Hadoop sur site
Pile technologique cible
Amazon S3
Architecture
Le schéma suivant montre l'architecture de la solution LiveData Migrator.

Le flux de travail comprend quatre composants principaux pour la migration des données d'un HDFS sur site vers Amazon S3.
LiveData Migrateur
: automatise la migration des données de HDFS vers Amazon S3 et réside sur un nœud périphérique du cluster Hadoop. HDFS
: système de fichiers distribué qui fournit un accès haut débit aux données des applications. Amazon S3
— Un service de stockage d'objets qui offre évolutivité, disponibilité des données, sécurité et performances. AWS Direct Connect : service qui établit une connexion réseau dédiée entre vos centres de données sur site et AWS.
Automatisation et mise à l'échelle
Vous créerez généralement plusieurs migrations afin de pouvoir sélectionner un contenu spécifique de votre système de fichiers source par chemin ou répertoire. Vous pouvez également migrer des données vers plusieurs systèmes de fichiers indépendants en même temps en définissant plusieurs ressources de migration.
Épopées
Tâche | Description | Compétences requises |
---|---|---|
Ouvrez une session de votre compte AWS. | Connectez-vous à la console de gestion AWS et ouvrez la console Amazon S3 à l'adresse https://console.aws.amazon.com/s3/. | Expérience AWS |
Créez un compartiment S3. | Si vous n'avez pas encore de compartiment S3 à utiliser comme espace de stockage cible, choisissez l'option « Créer un compartiment » sur la console Amazon S3 et spécifiez le nom du compartiment, la région AWS et les paramètres du compartiment pour bloquer l'accès public. AWS et WANdisco nous vous recommandons d'activer les options de blocage de l'accès public pour le compartiment S3 et de configurer les politiques d'accès au compartiment et d'autorisation des utilisateurs afin de répondre aux exigences de votre organisation. Un exemple AWS est fourni à l' https://docs.aws.amazon.com/AmazonS3/latest/dev/exampleadresse - walkthroughs-managing-access-example 1.html. | Expérience AWS |
Tâche | Description | Compétences requises |
---|---|---|
Téléchargez le programme d'installation de LiveData Migrator. | Téléchargez le programme d'installation de LiveData Migrator et chargez-le sur le nœud Hadoop Edge. Vous pouvez télécharger une version d'essai gratuite de LiveData Migrator sur /aws.amazon. https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https:/ com/marketplace/pp/B07B8SZND9. | Administrateur Hadoop, propriétaire de l'application |
Installez LiveData Migrator. | Utilisez le programme d'installation téléchargé et installez LiveData Migrator en tant que superutilisateur HDFS sur un nœud périphérique de votre cluster Hadoop. Consultez la section « Informations supplémentaires » pour les commandes d'installation. | Administrateur Hadoop, propriétaire de l'application |
Vérifiez l'état de LiveData Migrator et des autres services. | Vérifiez l'état du LiveData migrateur, du migrateur Hive et de l' WANdisco interface utilisateur à l'aide des commandes fournies dans la section « Informations supplémentaires ». | Administrateur Hadoop, propriétaire de l'application |
Tâche | Description | Compétences requises |
---|---|---|
Enregistrez votre compte LiveData Migrator. | Connectez-vous à l' WANdisco interface utilisateur via un navigateur Web sur le port 8081 (sur le nœud Hadoop Edge) et fournissez vos informations pour l'enregistrement. Par exemple, si vous exécutez LiveData Migrator sur un hôte nommé myldmhost.example.com, l'URL serait : http://myldmhost.example.com:8081 | Propriétaire de l'application |
Configurez votre stockage HDFS source. | Fournissez les détails de configuration nécessaires pour votre stockage HDFS source. Cela inclura la valeur « fs.DefaultFS » et un nom de stockage défini par l'utilisateur. Si Kerberos est activé, indiquez l'emplacement principal et l'emplacement keytab que LiveData Migrator doit utiliser. Si NameNode HA est activé sur le cluster, fournissez un chemin d'accès aux fichiers core-site.xml et hdfs-site.xml sur le nœud Edge. | Administrateur Hadoop, propriétaire de l'application |
Configurez votre espace de stockage Amazon S3 cible. | Ajoutez votre stockage cible en tant que type S3a. Indiquez le nom de stockage défini par l'utilisateur et le nom du compartiment S3. Entrez « org.apache.hadoop.fs.s3a.fournisseur simple AWSCredentials » pour l'option Credentials Provider, puis fournissez les clés d'accès et secrètes AWS pour le compartiment S3. Des propriétés S3a supplémentaires seront également nécessaires. Pour plus de détails, consultez la section « Propriétés du S3a » dans la documentation du LiveData migrateur à l'adresse https://docs.wandisco.com/live-data-migrator/ filesystem-add-s docs/command-reference/# 3a. | AWS, propriétaire de l'application |
Tâche | Description | Compétences requises |
---|---|---|
Ajoutez des exclusions (si nécessaire). | Si vous souhaitez exclure des ensembles de données spécifiques de la migration, ajoutez des exclusions pour le stockage HDFS source. Ces exclusions peuvent être basées sur la taille du fichier, les noms de fichiers (basés sur des modèles regex) et la date de modification. | Administrateur Hadoop, propriétaire de l'application |
Tâche | Description | Compétences requises |
---|---|---|
Créez et configurez la migration. | Créez une migration dans le tableau de bord de l' WANdisco interface utilisateur. Choisissez votre source (HDFS) et votre cible (le compartiment S3). Ajoutez les nouvelles exclusions que vous avez définies à l'étape précédente. Sélectionnez l'option « Remplacer » ou « Ignorer si la taille correspond ». Créez la migration lorsque tous les champs sont remplis. | Administrateur Hadoop, propriétaire de l'application |
Lancez la migration. | Sur le tableau de bord, sélectionnez la migration que vous avez créée. Cliquez pour démarrer la migration. Vous pouvez également démarrer une migration automatiquement en choisissant l'option de démarrage automatique lorsque vous créez la migration. | Propriétaire de l'application |
Tâche | Description | Compétences requises |
---|---|---|
Définissez une limite de bande passante réseau entre la source et la cible. | Dans la liste des stockages du tableau de bord, sélectionnez votre stockage source et sélectionnez « Gestion de la bande passante » dans la liste des regroupements. Désactivez l'option illimitée et définissez la limite et l'unité de bande passante maximales. Choisissez « Appliquer ». | Propriétaire de l'application, mise en réseau |
Tâche | Description | Compétences requises |
---|---|---|
Consultez les informations de migration à l'aide de l' WANdisco interface utilisateur. | Utilisez l' WANdisco interface utilisateur pour consulter les informations de licence, de bande passante, de stockage et de migration. L'interface utilisateur fournit également un système de notification qui vous permet de recevoir des notifications concernant les erreurs, les avertissements ou les étapes importantes de votre utilisation. | Administrateur Hadoop, propriétaire de l'application |
Arrêtez, reprenez et supprimez les migrations. | Vous pouvez empêcher une migration de transférer le contenu vers sa cible en le plaçant à l'état STOPPÉ. Les migrations arrêtées peuvent être reprises. Les migrations à l'état STOPPÉ peuvent également être supprimées. | Administrateur Hadoop, propriétaire de l'application |
Ressources connexes
Informations supplémentaires
Installation de LiveData Migrator
Vous pouvez utiliser les commandes suivantes pour installer LiveData Migrator, en supposant que le programme d'installation se trouve dans votre répertoire de travail :
su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh
Vérification de l'état de LiveData Migrator et des autres services après l'installation
Utilisez les commandes suivantes pour vérifier l'état du LiveData migrateur, du migrateur Hive et de l'interface utilisateur : WANdisco
service livedata-migrator status service hivemigrator status service livedata-ui status