Migrez les données Hadoop vers Amazon S3 à l'aide de Migrator WANdisco LiveData - Recommandations AWS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Migrez les données Hadoop vers Amazon S3 à l'aide de Migrator WANdisco LiveData

Créée par Tony Velcich

Récapitulatif

Ce modèle décrit le processus de migration des données Apache Hadoop d'un système de fichiers distribué Hadoop (HDFS) vers Amazon Simple Storage Service (Amazon S3). Il utilise WANdisco LiveData Migrator pour automatiser le processus de migration des données.

Conditions préalables et limitations

Prérequis

  • Nœud périphérique du cluster Hadoop sur lequel LiveData Migrator sera installé. Le nœud doit répondre aux exigences suivantes :

    • Spécifications minimales : 4 CPUs, 16 Go de RAM, 100 Go de stockage.

    • Réseau de 2 Gbit/s minimum.

    • Le port 8081 est accessible sur votre nœud périphérique pour accéder à l' WANdisco interface utilisateur.

    • Java 1.8 64 bits.

    • Bibliothèques clientes Hadoop installées sur le nœud Edge.

    • Possibilité de s'authentifier en tant que superutilisateur HDFS (par exemple, « hdfs »).

    • Si Kerberos est activé sur votre cluster Hadoop, un keytab valide contenant un principal adapté au superutilisateur HDFS doit être disponible sur le nœud Edge.

  • Un compte AWS actif avec accès à un compartiment S3.

  • Un lien AWS Direct Connect établi entre votre cluster Hadoop sur site (en particulier le nœud périphérique) et AWS.

Versions du produit

  • LiveData Migrateur 1.8.6

  • WANdisco Interface utilisateur (OneUI) 5.8.0

Architecture

Pile technologique source

  • Cluster Hadoop sur site

Pile technologique cible

  • Amazon S3

Architecture

Le schéma suivant montre l'architecture de la solution LiveData Migrator.

Utilisation de WANdisco LiveData Migrator pour automatiser le processus de migration des données Hadoop vers Amazon S3.

Le flux de travail comprend quatre composants principaux pour la migration des données d'un HDFS sur site vers Amazon S3.

  • LiveData Migrateur : automatise la migration des données de HDFS vers Amazon S3 et réside sur un nœud périphérique du cluster Hadoop.

  • HDFS : système de fichiers distribué qui fournit un accès haut débit aux données des applications.

  • Amazon S3 — Un service de stockage d'objets qui offre évolutivité, disponibilité des données, sécurité et performances.

  • AWS Direct Connect : service qui établit une connexion réseau dédiée entre vos centres de données sur site et AWS.

Automatisation et mise à l'échelle

Vous créerez généralement plusieurs migrations afin de pouvoir sélectionner un contenu spécifique de votre système de fichiers source par chemin ou répertoire. Vous pouvez également migrer des données vers plusieurs systèmes de fichiers indépendants en même temps en définissant plusieurs ressources de migration.

Épopées

TâcheDescriptionCompétences requises

Ouvrez une session de votre compte AWS.

Connectez-vous à la console de gestion AWS et ouvrez la console Amazon S3 à l'adresse https://console.aws.amazon.com/s3/.

Expérience AWS

Créez un compartiment S3.

Si vous n'avez pas encore de compartiment S3 à utiliser comme espace de stockage cible, choisissez l'option « Créer un compartiment » sur la console Amazon S3 et spécifiez le nom du compartiment, la région AWS et les paramètres du compartiment pour bloquer l'accès public. AWS et WANdisco nous vous recommandons d'activer les options de blocage de l'accès public pour le compartiment S3 et de configurer les politiques d'accès au compartiment et d'autorisation des utilisateurs afin de répondre aux exigences de votre organisation. Un exemple AWS est fourni à l' https://docs.aws.amazon.com/AmazonS3/latest/dev/exampleadresse - walkthroughs-managing-access-example 1.html.

Expérience AWS
TâcheDescriptionCompétences requises

Téléchargez le programme d'installation de LiveData Migrator.

Téléchargez le programme d'installation de LiveData Migrator et chargez-le sur le nœud Hadoop Edge. Vous pouvez télécharger une version d'essai gratuite de LiveData Migrator sur /aws.amazon. https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https:/ com/marketplace/pp/B07B8SZND9.

Administrateur Hadoop, propriétaire de l'application

Installez LiveData Migrator.

Utilisez le programme d'installation téléchargé et installez LiveData Migrator en tant que superutilisateur HDFS sur un nœud périphérique de votre cluster Hadoop. Consultez la section « Informations supplémentaires » pour les commandes d'installation.

Administrateur Hadoop, propriétaire de l'application

Vérifiez l'état de LiveData Migrator et des autres services.

Vérifiez l'état du LiveData migrateur, du migrateur Hive et de l' WANdisco interface utilisateur à l'aide des commandes fournies dans la section « Informations supplémentaires ».

Administrateur Hadoop, propriétaire de l'application
TâcheDescriptionCompétences requises

Enregistrez votre compte LiveData Migrator.

Connectez-vous à l' WANdisco interface utilisateur via un navigateur Web sur le port 8081 (sur le nœud Hadoop Edge) et fournissez vos informations pour l'enregistrement. Par exemple, si vous exécutez LiveData Migrator sur un hôte nommé myldmhost.example.com, l'URL serait : http://myldmhost.example.com:8081

Propriétaire de l'application

Configurez votre stockage HDFS source.

Fournissez les détails de configuration nécessaires pour votre stockage HDFS source. Cela inclura la valeur « fs.DefaultFS » et un nom de stockage défini par l'utilisateur. Si Kerberos est activé, indiquez l'emplacement principal et l'emplacement keytab que LiveData Migrator doit utiliser. Si NameNode HA est activé sur le cluster, fournissez un chemin d'accès aux fichiers core-site.xml et hdfs-site.xml sur le nœud Edge.

Administrateur Hadoop, propriétaire de l'application

Configurez votre espace de stockage Amazon S3 cible.

Ajoutez votre stockage cible en tant que type S3a. Indiquez le nom de stockage défini par l'utilisateur et le nom du compartiment S3. Entrez « org.apache.hadoop.fs.s3a.fournisseur simple AWSCredentials » pour l'option Credentials Provider, puis fournissez les clés d'accès et secrètes AWS pour le compartiment S3. Des propriétés S3a supplémentaires seront également nécessaires. Pour plus de détails, consultez la section « Propriétés du S3a » dans la documentation du LiveData migrateur à l'adresse https://docs.wandisco.com/live-data-migrator/ filesystem-add-s docs/command-reference/# 3a.

AWS, propriétaire de l'application
TâcheDescriptionCompétences requises

Ajoutez des exclusions (si nécessaire).

Si vous souhaitez exclure des ensembles de données spécifiques de la migration, ajoutez des exclusions pour le stockage HDFS source. Ces exclusions peuvent être basées sur la taille du fichier, les noms de fichiers (basés sur des modèles regex) et la date de modification.

Administrateur Hadoop, propriétaire de l'application
TâcheDescriptionCompétences requises

Créez et configurez la migration.

Créez une migration dans le tableau de bord de l' WANdisco interface utilisateur. Choisissez votre source (HDFS) et votre cible (le compartiment S3). Ajoutez les nouvelles exclusions que vous avez définies à l'étape précédente. Sélectionnez l'option « Remplacer » ou « Ignorer si la taille correspond ». Créez la migration lorsque tous les champs sont remplis.

Administrateur Hadoop, propriétaire de l'application

Lancez la migration.

Sur le tableau de bord, sélectionnez la migration que vous avez créée. Cliquez pour démarrer la migration. Vous pouvez également démarrer une migration automatiquement en choisissant l'option de démarrage automatique lorsque vous créez la migration.

Propriétaire de l'application
TâcheDescriptionCompétences requises

Définissez une limite de bande passante réseau entre la source et la cible.

Dans la liste des stockages du tableau de bord, sélectionnez votre stockage source et sélectionnez « Gestion de la bande passante » dans la liste des regroupements. Désactivez l'option illimitée et définissez la limite et l'unité de bande passante maximales. Choisissez « Appliquer ».

Propriétaire de l'application, mise en réseau
TâcheDescriptionCompétences requises

Consultez les informations de migration à l'aide de l' WANdisco interface utilisateur.

Utilisez l' WANdisco interface utilisateur pour consulter les informations de licence, de bande passante, de stockage et de migration. L'interface utilisateur fournit également un système de notification qui vous permet de recevoir des notifications concernant les erreurs, les avertissements ou les étapes importantes de votre utilisation.

Administrateur Hadoop, propriétaire de l'application

Arrêtez, reprenez et supprimez les migrations.

Vous pouvez empêcher une migration de transférer le contenu vers sa cible en le plaçant à l'état STOPPÉ. Les migrations arrêtées peuvent être reprises. Les migrations à l'état STOPPÉ peuvent également être supprimées.

Administrateur Hadoop, propriétaire de l'application

Ressources connexes

Informations supplémentaires

Installation de LiveData Migrator

Vous pouvez utiliser les commandes suivantes pour installer LiveData Migrator, en supposant que le programme d'installation se trouve dans votre répertoire de travail :

su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

Vérification de l'état de LiveData Migrator et des autres services après l'installation

Utilisez les commandes suivantes pour vérifier l'état du LiveData migrateur, du migrateur Hive et de l'interface utilisateur : WANdisco

service livedata-migrator status service hivemigrator status service livedata-ui status