Mejora del rendimiento de Spark con Amazon S3 - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Mejora del rendimiento de Spark con Amazon S3

Amazon EMR ofrece funciones que ayudan a optimizar el rendimiento al utilizar Spark para consultar, leer y escribir datos guardados en Amazon S3.

S3 Select puede mejorar el rendimiento de las consultas CSV y JSON los archivos en algunas aplicaciones al «reducir» el procesamiento a Amazon S3.

El EMRFS compilador optimizado para S3 es una alternativa a la OutputCommitterclase, que utiliza la función de cargas multiparte EMRFS para mejorar el rendimiento al escribir archivos de Parquet en Amazon S3 mediante Spark y Datasets. DataFrames