Configuration des AWS DataSync transferts avec un cluster HDFS - AWS DataSync

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration des AWS DataSync transferts avec un cluster HDFS

Vous pouvez ainsi transférer des données entre votre cluster Hadoop Distributed File System (HDFS) et l'un des services de stockage suivants : AWS DataSync AWS

Pour configurer ce type de transfert, vous devez créer un emplacement pour votre cluster HDFS. Vous pouvez utiliser cet emplacement comme source ou destination de transfert.

Fournir un DataSync accès aux clusters HDFS

Pour vous connecter à votre cluster HDFS, utilisez DataSync un agent que vous déployez le plus près possible de votre cluster HDFS. L' DataSyncagent agit comme un client HDFS et communique avec le NameNodes et au DataNodes sein de votre cluster.

Lorsque vous lancez une tâche de DataSync transfert, NameNode demande l'emplacement des fichiers et des dossiers du cluster. Si vous configurez votre emplacement HDFS comme emplacement source, DataSync lit les données des fichiers et des dossiers depuis votre cluster et copie ces données vers la destination. DataNodes Si vous configurez votre emplacement HDFS comme emplacement de destination, il DataSync écrit les fichiers et les dossiers de la source vers le contenu DataNodes de votre cluster.

Authentification

Lors de la connexion à un cluster HDFS, DataSync prend en charge l'authentification simple ou l'authentification Kerberos. Pour utiliser l'authentification simple, indiquez le nom d'utilisateur d'un utilisateur autorisé à lire et à écrire sur le cluster HDFS. Pour utiliser l'authentification Kerberos, fournissez un fichier de configuration Kerberos, un fichier de table de clés Kerberos (keytab) et un nom principal Kerberos. Les informations d'identification du principal Kerberos doivent figurer dans le fichier keytab fourni.

Chiffrement

Lorsque vous utilisez l'authentification Kerberos, DataSync prend en charge le chiffrement des données lors de leur transmission entre l' DataSync agent et votre cluster HDFS. Chiffrez vos données en utilisant les paramètres de configuration de qualité de protection (QOP) de votre cluster HDFS et en spécifiant les paramètres QOP lors de la création de votre emplacement HDFS. La configuration QOP inclut les paramètres de protection du transfert de données et de protection RPC (Remote Procedure Call).

DataSync prend en charge les types de chiffrement Kerberos suivants :
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

Vous pouvez également configurer des clusters HDFS pour le chiffrement au repos à l'aide du chiffrement transparent des données (TDE). Lors de l'utilisation de l'authentification simple, DataSync lit et écrit sur des clusters compatibles TDE. Si vous utilisez DataSync pour copier des données vers un cluster compatible TDE, configurez d'abord les zones de chiffrement sur le cluster HDFS. DataSync ne crée pas de zones de chiffrement.

Fonctionnalités HDFS non prises en charge

Les fonctionnalités HDFS suivantes ne sont actuellement pas prises en charge par DataSync :

  • Chiffrement transparent des données (TDE) lors de l'utilisation de l'authentification Kerberos

  • Configuration de plusieurs NameNodes

  • Hadoop HDFS sur HTTP (HttpFS)

  • listes de contrôle d'accès POSIX () ACLs

  • Attributs étendus HDFS (xattrs)

  • Clusters HDFS utilisant Apache HBase

Création de votre emplacement de transfert HDFS

Vous pouvez utiliser votre position comme source ou destination pour votre DataSync transfert.

Avant de commencer : vérifiez la connectivité réseau entre votre agent et le cluster Hadoop en procédant comme suit :

  1. Ouvrez la AWS DataSync console à l'adresse https://console.aws.amazon.com/datasync/.

  2. Dans le volet de navigation de gauche, développez Transfert de données, puis choisissez Locations et Create location.

  3. Pour le type d'emplacement, choisissez Hadoop Distributed File System (HDFS).

    Vous pouvez configurer cet emplacement comme source ou destination ultérieurement.

  4. Pour les agents, choisissez l'agent qui peut se connecter à votre cluster HDFS.

    Vous pouvez choisir plusieurs agents. Pour de plus amples informations, veuillez consulter Utilisation de plusieurs DataSync agents.

  5. Pour NameNode, indiquez le nom de domaine ou l'adresse IP du cluster HDFS principal NameNode de votre cluster HDFS.

  6. Dans le champ Dossier, entrez le dossier de votre cluster HDFS que vous souhaitez utiliser DataSync pour le transfert de données.

    Si votre emplacement HDFS est une source, DataSync copie les fichiers de ce dossier vers la destination. Si votre emplacement est une destination, DataSync écrit des fichiers dans ce dossier.

  7. Pour définir la taille du bloc ou le facteur de réplication, sélectionnez Paramètres supplémentaires.

    La taille de bloc par défaut est de 128 MiB. La taille de bloc que vous indiquez doit être un multiple de 512 octets.

    Le facteur de réplication par défaut est de trois DataNodes lors du transfert vers le cluster HDFS.

  8. Dans la section Sécurité, choisissez le type d'authentification utilisé sur votre cluster HDFS.

    • Simple — Pour l'utilisateur, spécifiez le nom d'utilisateur avec les autorisations suivantes sur le cluster HDFS (en fonction de votre cas d'utilisation) :

      • Si vous envisagez d'utiliser cet emplacement comme emplacement source, spécifiez un utilisateur disposant uniquement d'autorisations de lecture.

      • Si vous prévoyez d'utiliser cet emplacement comme emplacement de destination, spécifiez un utilisateur disposant d'autorisations de lecture et d'écriture.

      Spécifiez éventuellement l'URI du serveur de gestion des clés (KMS) de votre cluster HDFS.

    • Kerberos — Spécifiez le principal Kerberos ayant accès à votre cluster HDFS. Indiquez ensuite le KeyTab fichier contenant le principal Kerberos fourni. Fournissez ensuite le fichier de configuration Kerberos. Enfin, spécifiez le type de chiffrement pour la protection du transit dans les listes déroulantes Protection RPC et Protection contre le transfert de données.

  9. (Facultatif) Choisissez Ajouter une balise pour baliser votre emplacement HDFS.

    Les tags sont des paires clé-valeur qui vous permettent de gérer, de filtrer et de rechercher vos emplacements. Nous vous recommandons de créer au moins une balise de nom pour votre emplacement.

  10. Choisissez Créer un emplacement.

  1. Copiez la create-location-hdfs commande suivante.

    aws datasync create-location-hdfs --name-nodes [{"Hostname":"host1", "Port": 8020}] \ --authentication-type "SIMPLE|KERBEROS" \ --agent-arns [arn:aws:datasync:us-east-1:123456789012:agent/agent-01234567890example] \ --subdirectory "/path/to/my/data"
  2. Pour le --name-nodes paramètre, spécifiez le nom d'hôte ou l'adresse IP du principal de votre cluster HDFS NameNode et le port TCP sur lequel il écoute NameNode .

  3. Pour le --authentication-type paramètre, spécifiez le type d'authentification à utiliser lors de la connexion au cluster Hadoop. Vous pouvez spécifier SIMPLE ou KERBEROS.

    Si vous utilisez SIMPLE l'authentification, utilisez le --simple-user paramètre pour spécifier le nom d'utilisateur de l'utilisateur. Si vous utilisez KERBEROS l'authentification, utilisez les --kerberos-principal --kerberos-krb5-conf paramètres--kerberos-keytab, et. Pour de plus amples informations, veuillez consulter create-location-hdfs.

  4. Pour le --agent-arns paramètre, spécifiez l'ARN de l' DataSync agent qui peut se connecter à votre cluster HDFS.

    Vous pouvez choisir plusieurs agents. Pour de plus amples informations, veuillez consulter Utilisation de plusieurs DataSync agents.

  5. (Facultatif) Pour le --subdirectory paramètre, spécifiez le dossier de votre cluster HDFS que vous souhaitez utiliser DataSync pour le transfert de données.

    Si votre emplacement HDFS est une source, DataSync copie les fichiers de ce dossier vers la destination. Si votre emplacement est une destination, DataSync écrit des fichiers dans ce dossier.

  6. Exécutez la commande create-location-hdfs.

    Si la commande aboutit, vous obtenez une réponse indiquant l'ARN de l'emplacement que vous avez créé. Par exemple :

    { "arn:aws:datasync:us-east-1:123456789012:location/loc-01234567890example" }