Usando formatos colunares para melhorar o desempenho da consulta - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando formatos colunares para melhorar o desempenho da consulta

Spark pode usar vários formatos de arquivo de entrada, como Apache Parquet, Optimized Row Columnar (ORC)e CSV. No entanto, Parquet funciona melhor dentro Spark SQL. Ele fornece tempos de execução mais rápidos, maior taxa de transferência de varredura, menor I/O de disco e menor custo de operação. Spark pode filtrar automaticamente dados inúteis usando Parquet arquive dados estatísticos por meio de filtros suspensos, como estatísticas mínimas e máximas. Por outro lado, você pode ativar Spark leitor vetorizado de parquete para ler Parquet arquivos por lote. Quando você está usando Spark SQL para processar dados, recomendamos que você use Parquet formatos de arquivo, se possível.