Création d'un emplacement HDFS - AWS DataSync

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un emplacement HDFS

Pour vous connecter à votre cluster Hadoop Distributed File System (HDFS),AWS DataSyncutilise un agent. L'agent est une machine virtuelle que vous déployez à proximité de votre cluster HDFS. En savoir plus sur DataSync agents, voirUtilisation d'AWS DataSyncagents. Le DataSync agit en tant que client HDFS et communique avec NameNodes et DataNodes dans vos clusters.

Dès le début d'une tâche, DataSync Interrogation NameNode pour connaître l'emplacement des fichiers et des dossiers sur le cluster. Si l'emplacement HDFS est configuré en tant que source, alors DataSync lit les données de fichiers et de dossiers à partir du DataNodes dans le cluster et copie les données vers la destination. Si l'emplacement HDFS est configuré comme destination, DataSync écrit des fichiers et des dossiers de la destination vers le DataNodes dans le cluster. Avant d'exécuter votre DataSync , vérifiez la connectivité de l'agent au cluster HDFS. Pour plus d'informations, consultez Test de la connectivité aux systèmes de stockage.

Authentification

Lors de la connexion à un cluster HDFS, DataSync prend en charge l'authentification simple ou l'authentification Kerberos. Pour utiliser l'authentification simple, fournissez le nom d'utilisateur d'un utilisateur autorisé à lire et à écrire sur le cluster HDFS. Pour utiliser l'authentification Kerberos, fournissez un fichier de configuration Kerberos, un fichier de table de clés Kerberos (keytab) et un nom principal Kerberos. Les informations d'identification du principal Kerberos doivent se trouver dans le fichier keytab fourni.

Chiffrement

Lorsque vous utilisez l'authentification Kerberos, DataSync prend en charge le chiffrement des données lors de leur transmission entre DataSync agent et votre cluster HDFS. Chiffrez vos données à l'aide des paramètres de configuration de la qualité de protection (QOP) de votre cluster HDFS et en spécifiant les paramètres QOP lors de la création de votre emplacement HDFS. La configuration QOP inclut des paramètres de protection contre le transfert de données et de protection RPC (Remote Procedure Call).

DataSync prend en charge les types de chiffrement Kerberos suivants :

  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

Vous pouvez également configurer des clusters HDFS pour le chiffrement au repos à l'aide de Transparent Data Encryption (TDE). Lorsque vous utilisez une authentification simple, DataSync lit et écrit sur des clusters compatibles TDE. Si vous utilisez DataSync pour copier des données vers un cluster compatible TDE, configurez d'abord les zones de chiffrement sur le cluster HDFS. DataSync ne crée pas de zones de chiffrement.

Note

Avant de créer votre emplacement HDFS, vérifiez la connectivité réseau entre votre agent et votre cluster Hadoop. Testez l'accès aux ports TCP répertoriés dans le Configuration réseau requise pour se connecter à votre stockage autogéré table. Pour tester l'accès entre votre agent local et votre cluster Hadoop, suivez la procédure décrite dansTest de la connectivité aux systèmes de stockage.

Pour créer un emplacement HDFS

  1. Ouverture d'AWS DataSyncConsolehttps://console.aws.amazon.com/datasync/.

  2. Sur la page Emplacements, sélectionnez Créer un emplacement.

  3. PourType de lieu, choisissezSystème de fichiers distribué Hadoop (HDFS). Vous pourrez configurer cet emplacement comme source ou destination plus tard.

  4. PourAgents, choisissez un ou plusieurs agents que vous souhaitez utiliser dans la liste des agents disponibles. L'agent se connecte à votre cluster HDFS pour transférer des données en toute sécurité entre le cluster HDFS et DataSync.

  5. PourNameNode, entrez le nom de domaine ou l'adresse IP du cluster HDFS principal NameNode.

  6. PourDossier, entrez un dossier sur votre cluster HDFS qui DataSync sera utilisé pour le transfert de données. Lorsque l'emplacement est utilisé comme source pour une tâche, DataSync copie les fichiers dans le dossier fourni. Lorsque votre position est utilisée comme destination pour une tâche, DataSync écrit tous les fichiers dans le dossier fourni.

  7. Pour définir leTaille du blocouFacteur de réplication, choisissezRéglages supplémentaires. La taille de bloc par défaut est de 128 MiB, et toute taille de bloc fournie doit être un multiple de 512 octets. Le facteur de réplication par défaut est de trois DataNodes lors du transfert de données vers le cluster HDFS.

  8. DansSécurité, choisissezType d'authentificationutilisé sur votre cluster HDFS.

    • Simplicité : Fournissez le nom d'utilisateur duUtilisateuravec des autorisations de lecture et d'écriture sur le cluster HDFS. Vous pouvez également fournir l'URI du serveur de gestion des clés (KMS) du cluster HDFS.

    • Kerberos : Fournir KerberosMandataireavec accès à votre cluster HDFS. Ensuite, fournissez leKeyTab fichierqui contient le principal Kerberos fourni. Ensuite, fournissez leFichier de configuration Kerberos. Enfin, spécifiez le type de cryptage dans la protection du transit dans leProtection RPCetProtection du transfert des donnéeslistes déroulantes.

  9. (Facultatif)Étiquettessont des paires clé-valeur qui vous aide à gérer, filtrer et rechercher votre emplacement. L'ajout d'une balise est facultatif. Nous vous recommandons d'utiliser des balises pour nommer vos ressources.

  10. Une fois que vous avez terminé, choisissezCréation d'emplacement.

Fonctions HDFS non prises en charge

Les fonctionnalités suivantes de HDFS ne sont actuellement pas prises en charge par DataSync :

  • Chiffrement transparent des données (TDE) lors de l'utilisation de l'authentification Kerberos

  • Configuration de plusieurs NameNodes

  • Hadoop HDFS sur HTTP (HTTPFS)

  • Listes de contrôle d'accès (ACL)

  • Attributs étendus HDFS (xattrs)