Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation de formats en colonnes pour améliorer les performances des requêtes
Spark peut utiliser différents formats de fichiers d'entrée, tels que Apache Parquet, Optimized Row Columnar (ORC), et CSV. Cependant, Parquet fonctionne mieux à l'intérieur Spark SQL. Il permet d'accélérer les temps d'exécution, d'augmenter le débit de numérisation, de réduire les E/S sur disque et de réduire les coûts d'exploitation. Spark peut filtrer automatiquement les données inutiles en utilisant Parquet archivez les données statistiques à l'aide de filtres push-down, tels que les statistiques min-max. D'autre part, vous pouvez activer Spark lecteur vectorisé pour parquet pour lire Parquet fichiers par lots. Lorsque vous utilisez Spark SQL pour traiter les données, nous vous recommandons d'utiliser Parquet formats de fichiers si possible.