Habilitar el archivador optimizado de Hive S3 EMRFS - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Habilitar el archivador optimizado de Hive S3 EMRFS

El Committer optimizado de Hive EMRFS S3 es una forma alternativa mediante la cual EMR Hive escribe archivos para consultas de inserción cuando lo usa. EMRFS El confirmador elimina las operaciones de enumeración y cambio de nombre hechas en Amazon S3 y mejora el rendimiento de la aplicación. La función está disponible a partir de las versiones EMR 5.34 y 6.5. EMR

Habilitación del confirmador

Si quieres que EMR Hive lo utilice HiveEMRFSOptimizedCommitter para archivar datos de forma predeterminada en todas las tablas gestionadas y externas de Hive, utiliza la siguiente hive-site configuración en los clústeres EMR 6.5.0 o 5.34.0. EMR

[ { "classification": "hive-site", "properties": { "hive.blobstore.use.output-committer": "true" } } ]
nota

No active esta característica si hive.exec.parallel se ha establecido en true.

Limitaciones

Se aplican las siguientes restricciones básicas a las etiquetas:

  • No se admite la posibilidad de que Hive combine archivos pequeños automáticamente. La lógica de confirmación predeterminada de Hive se utilizará incluso cuando el confirmador optimizado esté activado.

  • No se admiten las tablas HiveACID. La lógica de confirmación predeterminada de Hive se utilizará incluso cuando el confirmador optimizado esté activado.

  • La nomenclatura de los nombres de los archivos escritos ha cambiado de <task_id>_<attempt_id>_<copy_n> de Hive a <task_id>_<attempt_id>_<copy_n>_<query_id>. Por ejemplo, un archivo llamado

    s3://warehouse/table/partition=1/000000_0 se cambiará a s3://warehouse/table/partition=1/000000_0-hadoop_20210714130459_ba7c23ec-5695-4947-9d98-8a40ef759222-1. query_idAquí hay una combinación del nombre de usuario, marca de tiempo yUUID.

  • Cuando las particiones personalizadas se encuentran en diferentes sistemas de archivos (HDFS, S3), esta función se deshabilita automáticamente. La lógica de confirmación predeterminada de Hive se utilizará cuando se active.