Utilizzo di formati colonnari per migliorare le prestazioni delle query - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo di formati colonnari per migliorare le prestazioni delle query

Spark può utilizzare vari formati di file di input, come Apache Parquet, Optimized Row Columnar (ORC)e CSV. Tuttavia, Parquet funziona meglio all'interno Spark SQL. Fornisce tempi di esecuzione più rapidi, maggiore velocità di scansione, I/O del disco ridotto e costi operativi inferiori. Spark può filtrare automaticamente i dati inutili utilizzando Parquet archivia i dati statistici tramite filtri push-down, come le statistiche min-max. D'altra parte, puoi abilitare Spark lettore vettoriale in parquet da leggere Parquet file per batch. Quando si utilizza Spark SQL per elaborare i dati, ti consigliamo di utilizzare Parquet formati di file, se possibile.