Didacticiel : chargement des données à partir d’Amazon S3 - Amazon Redshift

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Didacticiel : chargement des données à partir d’Amazon S3

Dans ce didacticiel, vous examinerez le processus de chargement de données dans vos tables de base de données Amazon Redshift depuis les fichiers de données d’un compartiment Amazon S3 de bout en bout.

Dans ce didacticiel, vous effectuez les opérations suivantes :

  • Téléchargez des fichiers de données qui utilisent des formats CSV, délimités par un caractère et à largeur fixe.

  • Créez un compartiment Amazon S3 pour contenir vos fichiers de données, puis chargez les fichiers de données dans le compartiment.

  • Lancez un cluster Amazon Redshift et créez des tables de base de données ;

  • Utilisez les commandes COPY pour charger les tables depuis les fichiers de données sur Amazon S3 ;

  • Résolvez les erreurs de chargement et modifiez vos commandes COPY pour corriger les erreurs.

Durée estimée : 60 minutes

Coût estimé : 1,00 USD par heure pour le cluster

Prérequis

Vous avez besoin des prérequis suivants :

  • Un AWS compte pour lancer un cluster Amazon Redshift et créer un compartiment dans Amazon S3.

  • Vos AWS informations d'identification (rôle IAM) pour charger les données de test depuis Amazon S3. Si vous avez besoin d’un nouveau rôle IAM, consultez Création de rôles IAM.

  • Client SQL tel que l’éditeur de requêtes de la console Amazon Redshift.

Ce didacticiel est conçu pour se suffire à lui-même. En plus de ce didacticiel, nous vous recommandons de suivre les didacticiels suivants pour avoir une compréhension plus complète de la conception et de l’utilisation des bases de données Amazon Redshift :

Présentation

Vous pouvez ajouter des données à vos tables Amazon Redshift en utilisant une commande INSERT ou une commande COPY. À l’échelle et à la vitesse d’un entrepôt des données Amazon Redshift, la commande COPY est beaucoup plus rapide et plus efficace que les commandes INSERT.

La commande COPY utilise l’architecture de traitement massivement parallèle (MPP) Amazon Redshift pour lire et charger des données en parallèle depuis plusieurs sources de données. Vous pouvez charger depuis des fichiers de données dans Amazon S3, Amazon EMR ou n’importe quel hôte distant accessible via une connexion SSH (Secure Shell). Ou vous pouvez charger directement depuis une table Amazon DynamoDB.

Dans ce didacticiel, vous utilisez la commande COPY pour charger les données à partir d’Amazon S3. Bon nombre des principes présentés ici s’appliquent également au chargement depuis d’autres sources de données.

Pour en savoir plus sur l’utilisation de la commande COPY, consultez les ressources suivantes :

Étapes