Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Chargement des données à partir des hôtes distants
Vous pouvez utiliser la commande COPY pour charger les données en parallèle à partir d’un ou de plusieurs hôtes distants, comme les instances Amazon EC2 ou autres ordinateurs. COPY se connecte aux hôtes distants à l’aide de SSH et exécute les commandes sur les hôtes distants pour générer la sortie texte.
L’hôte distant peut être une instance Linux Amazon EC2 ou un autre ordinateur Unix ou Linux configuré pour accepter les connexions SSH. Ce guide suppose que votre hôte à distance est une instance Amazon EC2. Lorsque la procédure est différente pour un autre ordinateur, le guide signale la différence.
Amazon Redshift peut se connecter à plusieurs hôtes et ouvrir plusieurs connexions SSH à chaque hôte. Amazon Redshift envoie une commande unique via chaque connexion pour générer la sortie texte sur la sortie standard de l’hôte, qu’Amazon Redshift lit ensuite comme un fichier texte.
Avant de commencer
Avant de commencer, vous devez avoir les éléments suivants en place :
-
Un ou plusieurs ordinateurs hôtes, comme les instances Amazon EC2 auxquelles vous pouvez vous connecter à l’aide de SSH.
-
Sources de données sur les hôtes.
Vous devez fournir les commandes que le cluster Amazon Redshift exécutera sur les hôtes pour générer la sortie texte. Une fois que le cluster s’est connecté à un hôte, la commande COPY exécute les commandes, lit le texte depuis la sortie standard des hôtes et charge les données en parallèle dans une table Amazon Redshift. La sortie texte doit être sous une forme que la commande COPY peut assimiler. Pour plus d'informations, consultez Préparation de vos données d’entrée
-
Accédez aux hôtes à partir de votre ordinateur.
Pour une instance Amazon EC2, vous allez utiliser une connexion SSH pour accéder à l’hôte. Vous devez accéder à l’hôte pour ajouter la clé publique du cluster Amazon Redshift au fichier de clés autorisées de l’hôte.
-
Un cluster Amazon Redshift en cours d’exécution.
Pour plus d’informations sur le lancement d’un cluster, consultez Guide de démarrage d’Amazon Redshift.
Processus de chargement de données
Cette section vous guide à travers le processus de chargement de données à partir d’hôtes distants. Les sections suivantes fournissent les informations détaillées dont vous avez besoin pour effectuer chaque étape.
-
Étape 1 : Récupérer la clé publique de cluster et les adresses IP de nœud de cluster
La clé publique permet aux nœuds de cluster Amazon Redshift d’établir des connexions SSH aux hôtes distants. Vous allez utiliser l’adresse IP de chaque nœud de cluster pour configurer les groupes de sécurité hôte ou le pare-feu, et permettre l’accès à partir de votre cluster Amazon Redshift à l’aide de ces adresses IP.
-
Étape 2 : Ajouter la clé publique de cluster Amazon Redshift au fichier de clés autorisées de l’hôte
Vous ajoutez la clé publique de cluster Amazon Redshift au fichier des clés autorisées de l’hôte de telle sorte que l’hôte reconnaisse le cluster Amazon Redshift et accepte la connexion SSH.
-
Étape 3 : Configurer l’hôte pour accepter toutes les adresses IP du cluster Amazon Redshift
Pour Amazon EC2, modifiez les groupes de sécurité de l’instance pour ajouter des règles de trafic entrant et accepter les adresses IP Amazon Redshift. Pour les autres hôtes, modifiez le pare-feu de telle sorte que vos nœuds Amazon Redshift puissent établir des connexions SSH à l’hôte distant.
-
Étape 4 : Obtenir la clé publique de l’hôte
Vous pouvez spécifier le cas échéant qu’Amazon Redshift doit utiliser la clé publique pour identifier l’hôte. Vous devez trouver la clé publique et copier le texte dans votre fichier manifeste.
-
Étape 5 : Créer un fichier manifeste
Le manifeste est un fichier texte au format JSON avec les détails dont Amazon Redshift a besoin pour se connecter aux hôtes et récupérer les données.
-
Étape 6 : charger le fichier manifeste sur un compartiment Amazon S3
Amazon Redshift lit le manifeste et utilise ces informations pour se connecter à l’hôte distant. Si le compartiment Amazon S3 ne réside pas dans la même région que votre cluster Amazon Redshift, vous devez utiliser l’option REGION pour spécifier la région dans laquelle les données se trouvent.
-
Étape 7 : Exécuter la commande COPY pour charger les données
Depuis une base de données Amazon Redshift, exécutez la commande COPY pour charger les données dans une table Amazon Redshift.