Abilitazione del committer ottimizzato per Hive S3 EMRFS - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Abilitazione del committer ottimizzato per Hive S3 EMRFS

L'Hive EMRFS S3 Optimized Committer è un modo alternativo con cui EMR Hive scrive file per le query di inserimento durante l'utilizzo. EMRFS Il committer elimina le operazioni di elenco e rinominazione eseguite su Amazon S3 e migliora le prestazioni dell'applicazione. La funzionalità è disponibile a partire dalle versioni 5.34 e 6.5. EMR EMR

Abilitazione del committer

Se desideri consentire a EMR Hive di utilizzare HiveEMRFSOptimizedCommitter il commit dei dati come impostazione predefinita per tutte le tabelle gestite ed esterne di Hive, usa la seguente hive-site configurazione nei cluster EMR 6.5.0 o 5.34.0. EMR

[ { "classification": "hive-site", "properties": { "hive.blobstore.use.output-committer": "true" } } ]
Nota

Non attivare questa funzione quando hive.exec.parallel è impostato su true.

Limitazioni

Ai tag si applicano le seguenti limitazioni di base:

  • L'abilitazione di Hive per unire automaticamente file di piccole dimensioni non è supportata. La logica di commit Hive predefinita verrà utilizzata anche quando il committer ottimizzato è abilitato.

  • Le tabelle Hive non sono supportate. ACID La logica di commit Hive predefinita verrà utilizzata anche quando il committer ottimizzato è abilitato.

  • Il sistema di denominazione dei file per i file scritti viene modificata da quella di Hive <task_id>_<attempt_id>_<copy_n> a <task_id>_<attempt_id>_<copy_n>_<query_id>. Ad esempio, un file denominato

    s3://warehouse/table/partition=1/000000_0 verrà modificato in s3://warehouse/table/partition=1/000000_0-hadoop_20210714130459_ba7c23ec-5695-4947-9d98-8a40ef759222-1. query_idEcco una combinazione di nome utente, timestamp e. UUID

  • Quando le partizioni personalizzate si trovano su file system diversi (HDFS, S3), questa funzionalità viene disattivata automaticamente. La logica di commit Hive predefinita verrà utilizzata quando abilitata.