Chargement de données à partir de fichiers fractionnables Chargement de données à partir de fichiers non fractionnables

Amazon Redshift ne prendra plus en charge la création de nouveaux Python UDFs à compter du 1er novembre 2025. Si vous souhaitez utiliser Python UDFs, créez la version UDFs antérieure à cette date. Le Python existant UDFs continuera à fonctionner normalement. Pour plus d'informations, consultez le billet de blog.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Chargement de fichiers de données

Les fichiers de données sources se présentent sous différents formats et utilisent divers algorithmes de compression. Lorsque vous chargez des données à l'aide de la commande COPY, Amazon Redshift charge tous les fichiers référencés par le préfixe de compartiment Amazon S3. (Le préfixe est une chaîne de caractères située au début du nom de clé d'objet.) Si le préfixe fait référence à plusieurs fichiers ou à des fichiers fractionnables, Amazon Redshift charge les données en parallèle, tirant parti de l'architecture MPP d'Amazon Redshift. La charge de travail est alors répartie entre les nœuds du cluster. En revanche, lorsque vous chargez des données à partir d'un fichier non fractionnable, Amazon Redshift est forcé d'effectuer un chargement sérialisé, ce qui est beaucoup plus long. Les sections suivantes décrivent la méthode recommandée pour charger différents types de fichiers dans Amazon Redshift, en fonction de leur format et de leur compression.

Chargement de données à partir de fichiers fractionnables

Les fichiers suivants peuvent être automatiquement fractionnés pendant le chargement de leurs données :

Fichier CSV non compressé
Fichier en colonnes (Parquet/ORC)

Amazon Redshift fractionne automatiquement les fichiers de 128 Mo ou plus en fragments. Les fichiers en colonnes, en particulier Parquet et ORC, ne sont pas fractionnés s'ils font moins de 128 Mo. Pour charger les données, Redshift utilise des tranches fonctionnant en parallele. Cela autorise des chargements rapides.

Chargement de données à partir de fichiers non fractionnables

Certains types de fichiers, comme JSON ou CSV, ne sont pas automatiquement fractionnés lorsqu'ils sont compressés avec d'autres algorithmes de compression, tels que GZIP. Dans ce cas, nous vous recommandons de fractionner manuellement les données en plusieurs petits fichiers dont les tailles sont aussi proches que possible les unes des autres, de 1 Mo à 1 Go après compression. De plus, faites en sorte que le nombre de fichiers soit un multiple du nombre de tranches présentes dans votre cluster. Pour en savoir plus sur la façon de fractionner vos données en plusieurs fichiers et pour voir des exemples de chargement de données à l'aide de COPY, consultez Chargement des données à partir d'Amazon S3.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utiliser une seule commande COPY

Compression de vos fichiers de données