Activation du validateur optimisé Hive EMRFS S3 - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Activation du validateur optimisé Hive EMRFS S3

Le Hive EMRFS S3 Optimized Committer est une méthode alternative permettant à EMR Hive d'écrire des fichiers pour insérer des requêtes lors de l'utilisation. EMRFS Le Committer élimine les opérations de liste et de renommage effectuées sur Amazon S3 et améliore les performances de l'application. La fonctionnalité est disponible à partir des versions EMR 5.34 et EMR 6.5.

Activation du contributeur

Si vous souhaitez activer EMR Hive pour valider les données par défaut pour toutes les tables gérées et externes par Hive, utilisez la hive-site configuration suivante dans les clusters EMR 6.5.0 ou EMR 5.34.0. HiveEMRFSOptimizedCommitter

[ { "classification": "hive-site", "properties": { "hive.blobstore.use.output-committer": "true" } } ]
Note

N'activez pas cette fonction lorsque hive.exec.parallel est défini sur true.

Limites

Les restrictions de base suivantes s’appliquent aux balises :

  • L'activation de Hive pour fusionner automatiquement de petits fichiers n'est pas prise en charge. La logique de validation Hive par défaut sera utilisée même lorsque le validateur optimisé est activé.

  • Les ACID tables Hive ne sont pas prises en charge. La logique de validation Hive par défaut sera utilisée même lorsque le validateur optimisé est activé.

  • La nomenclature des noms de fichiers pour les fichiers écrits est passée de Hive <task_id>_<attempt_id>_<copy_n> à <task_id>_<attempt_id>_<copy_n>_<query_id>. Par exemple, un fichier nommé

    s3://warehouse/table/partition=1/000000_0 sera remplacé par s3://warehouse/table/partition=1/000000_0-hadoop_20210714130459_ba7c23ec-5695-4947-9d98-8a40ef759222-1. query_idVoici une combinaison du nom d'utilisateur, de l'horodatage etUUID.

  • Lorsque des partitions personnalisées se trouvent sur des systèmes de fichiers différents (HDFSS3), cette fonctionnalité est automatiquement désactivée. La logique de validation Hive par défaut sera utilisée lorsqu'elle sera activée.