Uso de formatos en columnas para mejorar el rendimiento de las consultas - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de formatos en columnas para mejorar el rendimiento de las consultas

Spark puede utilizar varios formatos de archivo de entrada, como Apache Parquet, Optimized Row Columnar (ORC), y CSV. Sin embargo, Parquet funciona mejor dentro Spark SQL. Proporciona tiempos de ejecución más rápidos, mayor rendimiento de escaneo, menor E/S del disco y menor costo de operación. Spark puede filtrar automáticamente los datos inútiles mediante Parquet archiva datos estadísticos mediante filtros desplegables, como las estadísticas de mínimo y máximo. Por otro lado, puede activar Spark lector vectorizado de parquet para leer Parquet archivos por lotes. Cuando está utilizando Spark SQL para procesar datos, le recomendamos que utilice Parquet formatos de archivo si es posible.