Configuration des AWS DataSync transferts depuis HDFS - AWS DataSync

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration des AWS DataSync transferts depuis HDFS

Pour transférer des données à partir de votre système de fichiers distribué Hadoop (HDFS) Hadoop HDFS (HDFS) Hadoop (HDFS), vous devez créer un AWS DataSync emplacement de transfert.

Accès aux clusters HDFS

Pour vous connecter à votre cluster HDFS, DataSync utilise un agent que vous déployez à proximité de votre cluster HDFS. Pour en savoir plus sur DataSync les agents, consultezTravailler avec des AWS DataSync agents. L'DataSyncagent agit en tant que client HDFS et communique avec le NameNodes et au DataNodes sein de vos clusters.

Lorsque vous démarrez une tâche, DataSync interroge les emplacements NameNode des fichiers et des dossiers sur le cluster. Si l'emplacement HDFS est configuré en tant que source, DataSync lit les données des fichiers et des dossiers depuis le DataNodes cluster et copie les données vers la destination. Si l'emplacement HDFS est configuré en tant que destination, DataSync écrit les fichiers et les dossiers de la destination vers DataNodes le cluster. Avant d'exécuter votre DataSync tâche, vérifiez la connectivité de l'agent au cluster HDFS. Pour plus d'informations, veuillez consulter Tester la connexion de votre agent à un système de stockage.

Authentification

Lors de la connexion à un cluster HDFS, DataSync prend en charge l'authentification simple ou l'authentification Kerberos. Pour utiliser l'authentification simple, indiquez le nom d'utilisateur d'un utilisateur disposant des droits de lecture et d'écriture sur le cluster HDFS. Pour utiliser l'authentification Kerberos, fournissez un fichier de configuration Kerberos, un fichier de table de clés Kerberos (keytab) et un nom principal Kerberos. Les informations d'identification du principal Kerberos doivent se trouver dans le fichier keytab fourni.

Chiffrement

Lorsque vous utilisez l'authentification Kerberos, DataSync prend en charge le chiffrement des données lors de leur transmission entre l'DataSyncagent et votre cluster HDFS. Chiffrez vos données en utilisant les paramètres de configuration de la qualité de protection (QOP) de votre cluster HDFS et en spécifiant les paramètres QOP lors de la création de votre emplacement HDFS. La configuration QOP inclut des paramètres pour la protection des transferts de données et la protection RPC (appel Remote Procedure Call).

DataSyncprend en charge les types de chiffrement Kerberos suivants :
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

Vous pouvez également configurer des clusters HDFS pour le chiffrement au repos à l'aide de Transparent Data Encryption (Transparent Data Encryption TDE). Lors de l'utilisation de l'authentification simple, DataSync lit et écrit sur des clusters compatibles TDE. Si vous utilisez DataSync pour copier des données vers un cluster compatible TDE, configurez d'abord les zones de chiffrement sur le cluster HDFS. DataSyncne crée pas de zones de chiffrement.

Création de votre emplacement de transfert HDFS

Configurez un emplacement que vous pouvez utiliser comme source pour votre DataSync transfert.

Avant de commencer : Vérifiez la connectivité réseau entre votre agent et le cluster Hadoop en procédant comme suit :

Pour créer un emplacement HDFS à l'aide de la console DataSync
  1. Ouvrez la AWS DataSync console à l'adresse https://console.aws.amazon.com/datasync/.

  2. Dans le volet de navigation de gauche, développez Transfert de données, puis choisissez Emplacements et Créer un emplacement.

  3. Pour Type d'emplacement, choisissez Système de fichiers distribué Hadoop (HDFS) Hadoop (HDFS). Vous pouvez configurer cet emplacement en tant que source ou destination ultérieurement.

  4. Pour les agents, choisissez un ou plusieurs agents que vous souhaitez utiliser dans la liste des agents disponibles. L'agent se connecte à votre cluster HDFS pour transférer des données en toute sécurité entre le cluster HDFS et. DataSync

  5. Pour NameNode, indiquez le nom de domaine ou l'adresse IP du serveur principal NameNode du cluster HDFS.

  6. Dans Dossier, entrez le dossier de votre cluster HDFS qui DataSync sera utilisé pour le transfert de données. Lorsque l'emplacement est utilisé comme source pour une tâche, DataSync copie les fichiers dans le dossier fourni. Lorsque votre emplacement est utilisé comme destination pour une tâche, DataSync écrit tous les fichiers dans le dossier fourni.

  7. Pour définir la taille du bloc ou le facteur de réplication, choisissez Paramètres supplémentaires. La taille de bloc par défaut est de 128 MiB, et toute taille de bloc fournie doit être un multiple de 512 octets. Le facteur de réplication par défaut est trois DataNodes lors du transfert de données vers le cluster HDFS vers le cluster HDFS

  8. Dans la section Sécurité, choisissez le type d'authentification utilisé sur votre cluster HDFS.

    • Simple : pour l'utilisateur, spécifiez le nom d'utilisateur avec les autorisations suivantes sur le cluster HDFS (en fonction de votre cas d'utilisation) :

      • Si vous envisagez d'utiliser cet emplacement comme emplacement source, spécifiez un utilisateur disposant uniquement d'autorisations de lecture.

      • Si vous envisagez d'utiliser cet emplacement comme emplacement de destination, spécifiez un utilisateur disposant d'autorisations de lecture et d'écriture.

      Spécifiez éventuellement l'URI du serveur de gestion de clés (KMS) du serveur de gestion de clés (KMS) du cluster HDFS (KMS) du cluster HDFS

    • Kerberos : spécifiez le Kerberos Principal avec accès à votre cluster HDFS. Fournissez ensuite le KeyTabfichier qui contient le principal Kerberos fourni. Fournissez ensuite le fichier de configuration Kerberos. Enfin, spécifiez le type de chiffrement utilisé pour la protection du transit dans les listes déroulantes de protection RPC et de protection du transfert de données.

  9. (Facultatif) Choisissez Ajouter une balise pour baliser votre emplacement HDFS.

    Les balises sont des paires clé-valeur qui vous aident à gérer, filtrer et rechercher vos emplacements. Nous vous recommandons de créer au moins une balise de nom pour votre emplacement.

  10. Choisissez Créer un lieu.

Fonctions HDFS non prises en charge

Les fonctionnalités suivantes de HDFS ne sont pas prises en charge actuellement par DataSync :

  • Transparent Data Encryption (TDE) lors de l'utilisation de l'authentification Kerberos

  • Configuration de plusieurs NameNodes

  • Hadoop HDFS sur HTTP (HTTPFS)

  • Listes de contrôle d'accès (ACL) POSIX

  • Attributs étendus HDFS (xattrs)