Usa el protocolo de confirmación optimizado para S3 EMRFS - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Usa el protocolo de confirmación optimizado para S3 EMRFS

El protocolo de confirmación EMRFS optimizado para S3 es una FileCommitProtocolimplementación alternativa que está optimizada para escribir archivos con la sobrescritura dinámica de particiones de Spark en Amazon S3 cuando se usa. EMRFS El protocolo mejora el rendimiento de las aplicaciones al evitar las operaciones de cambio de nombre en Amazon S3 durante la fase de confirmación de los trabajos de sobrescritura de particiones dinámicas de Spark.

Tenga en cuenta que el Utilice el compilador EMRFS optimizado para S3 también mejora el rendimiento al evitar las operaciones de cambio de nombre. Sin embargo, no funciona para los casos de sobrescritura de particiones dinámicas, mientras que las mejoras del protocolo de confirmación solo se dirigen a los casos de sobrescritura de particiones dinámicas.

El protocolo de confirmación está disponible en las EMR versiones 5.30.0 y posteriores y 6.2.0 y posteriores de Amazon, y está activado de forma predeterminada. Amazon EMR agregó una mejora de paralelismo a partir de la versión 5.31.0. El protocolo se utiliza para los trabajos de Spark que utilizan Spark SQL o Datasets. DataFrames Existen circunstancias en las cuales no se utiliza el protocolo de confirmación. Para obtener más información, consulte Requisitos del protocolo de confirmación EMRFS optimizado para S3.