Chargement de fichiers de données - Amazon Redshift

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Chargement de fichiers de données

Les fichiers de données sources se présentent sous différents formats et utilisent divers algorithmes de compression. Lorsque vous chargez des données à l'aide de la commande COPY, Amazon Redshift charge tous les fichiers référencés par le préfixe de compartiment Amazon S3. (Le préfixe est une chaîne de caractères située au début du nom de clé d'objet.) Si le préfixe fait référence à plusieurs fichiers ou à des fichiers fractionnables, Amazon Redshift charge les données en parallèle, tirant parti de l'architecture MPP d'Amazon Redshift. La charge de travail est alors répartie entre les nœuds du cluster. En revanche, lorsque vous chargez des données à partir d'un fichier non fractionnable, Amazon Redshift est forcé d'effectuer un chargement sérialisé, ce qui est beaucoup plus long. Les sections suivantes décrivent la méthode recommandée pour charger différents types de fichiers dans Amazon Redshift, en fonction de leur format et de leur compression.

Chargement de données à partir de fichiers fractionnables

Les fichiers suivants peuvent être automatiquement fractionnés pendant le chargement de leurs données :

  • Fichier CSV non compressé

  • Fichier en colonnes (Parquet/ORC)

Amazon Redshift fractionne automatiquement les fichiers de 128 Mo ou plus en fragments. Les fichiers en colonnes, en particulier Parquet et ORC, ne sont pas fractionnés s'ils font moins de 128 Mo. Pour charger les données, Redshift utilise des tranches fonctionnant en parallele. Cela autorise des chargements rapides.

Chargement de données à partir de fichiers non fractionnables

Certains types de fichiers, comme JSON ou CSV, ne sont pas automatiquement fractionnés lorsqu'ils sont compressés avec d'autres algorithmes de compression, tels que GZIP. Dans ce cas, nous vous recommandons de fractionner manuellement les données en plusieurs petits fichiers dont les tailles sont aussi proches que possible les unes des autres, de 1 Mo à 1 Go après compression. De plus, faites en sorte que le nombre de fichiers soit un multiple du nombre de tranches présentes dans votre cluster. Pour en savoir plus sur la façon de fractionner vos données en plusieurs fichiers et pour voir des exemples de chargement de données à l'aide de COPY, consultez Chargement des données à partir d'Amazon S3.