Amazon EMR 6.11.0: note di rilascio per Hive - Amazon EMR

Amazon EMR 6.11.0: note di rilascio per Hive

Amazon EMR 6.11.0: modifiche di Hive

Type (Tipo) Descrizione
Miglioramenti Aggiunto il supporto per l'eliminazione multithread delle partizioni per migliorare le prestazioni di eliminazione di queste ultime
Miglioramenti Supporto della lettura di file di query Hive codificati
Miglioramenti Abilitazione di Tez Shuffle Handler per impostazione predefinita per i processi Hive su Tez
Bug Aggiunta un'opzione per abilitare la distribuzione deterministica delle chiavi sui riduttori per correggere il risultato errato quando hive.groupby.skewindata è abilitato (segnalato in HIVE-20220)
Bug Correzione dell'errore di calcolo delle statistiche quando è configurato il nome della partizione predefinita
Bug Rispetto di tutti i parametri di classificazione SSL personalizzati passati quando SSL viene configurato immediatamente per HiveServer2 in un cluster con crittografia in transito abilitata
Backport HIVE-23617: corretti i problemi relativi a storage-api FindBug
Backport HIVE-26408: vettorizzazione: correzione della deallocazione delle colonne scratch, nessun riutilizzo di una ConstantVectorExpression secondaria come output
Backport HIVE-23614: passare sempre HiveConfig a removeTempOrDuplicateFiles
Backport HIVE-23354: rimozione del controllo dell'integrità delle dimensioni dei file da CompareTempOrDuplicateFiles
Backport HIVE-20344: corretto PrivilegeSynchronizer per SBA che genera AccessControlException. È stata inoltre introdotta la proprietà hive.privilege.synchronizer per disabilitare la sincronizzazione dei privilegi
Backport HIVE-15826: supporto della configurazione di "serialization.encoding" per tutti i SerDes
Backport HIVE-18284: correzione dell'NPE durante l'inserimento di dati con la clausola "distribute by" con ottimizzazione dell'ordinamento in dynpart
Backport HIVE-24930: il cortocircuito Operator.setDone() da child op non viene utilizzato nel codepath vettorizzato (se childSize == 1)
Backport HIVE-24523: il percorso di lettura vettorizzato per LazySimpleSerde non rispetta SERDEPROPERTIES per il timestamp
Backport HIVE-23265: i set di righe duplicati vengono restituiti con Limit e Offset impostati
Backport HIVE-21492: VectorizedParquetRecordReader non è in grado di leggere il file di parquet generato utilizzando lo strumento thrift/custom
Backport HIVE-22540: vettorizzazione: le colonne Decimal64 non funzionano con VectorizedBatchUtil.makeLikeColumnVector()
Backport HIVE-22588: svuota le righe rimanenti per il resto dei set di raggruppamento quando si cambia la modalità del vettore groupby
Backport HIVE-22551: BytesColumnVector initBuffer dovrebbe pulire il vettore e la lunghezza in modo coerente
Backport HIVE-22448: CBO: espandi il conteggio multiplo distinto con una chiave group-by
Backport HIVE-22248: correzione dei problemi persistenti delle statistiche
Backport HIVE-22210: la vettorizzazione può riutilizzare le colonne di output di calcolo coinvolte nel filtraggio
Backport HIVE-21531: vettorizzazione: tutti gli hashcode NULL non vengono calcolati utilizzando Murmur3
Backport HIVE-20419: vettorizzazione: impedisce la mutazione di VectorPartitionDesc dopo essere stato utilizzato in una chiave hashmap
Backport HIVE-19388: ClassCastException durante l'inizializzazione di VectorMapJoinCommonOperator
Backport HIVE-21584: preparazione a Java 11: il loader di classi di sistema non è URLClassLoader
Backport HIVE-25107: la registrazione di Classpath deve essere al livello DEBUG (#2271)
Backport HIVE-22097: java.util.ArrayList incompatibile per java 11
Backport HIVE-23938: LLAP: JDK11 - alcuni argomenti jvm relativi alla rotazione dei file di log GC non possono più essere utilizzati
Backport HIVE-26226: esclusione di jdk.tools dep da hive-metastore in upgrade-acid
Backport HIVE-17879: aggiornamento del plugin Datanucleus Maven
Backport HIVE-27004: DateTimeFormatterBuilder#appendZoneText non può analizzare "UTC+" nelle versioni Java successive a 8
Backport HIVE-16812: VectorizedOrcAcidRowBatchReader non filtra gli eventi di eliminazione
Backport HIVE-17917: ottimizzazione di VectorizedOrcAcidRowBatchReader.computeOffsetAndBucket
Backport HIVE-19985: ACID: saltare la decodifica delle sezioni ROW__ID per le query di sola lettura
Backport HIVE-20635: VectorizedOrcAcidRowBatchReader non filtra gli eventi di eliminazione per i file originali
Upgrade Aggiornamento di Javadoc a 3.3.1
Upgrade Aggiornamento di Javassist a 3.24.1-GA
Upgrade Aggiornamento di apache-directory-server a 2.0.0-M14

Nuove configurazioni

Nome Classificazione Descrizione
hive.metastore.fs.drop.partition.threads hive-site Numero di thread principali nel pool di thread della partizione eliminata.
hive.metastore.fs.drop.partition.keepalive.time hive-site Tempo in secondi in cui un thread asincrono della partizione inattiva (dal pool di thread) attende l'arrivo di una nuova attività prima di terminare.
hive.metastore.fs.drop.partition.threadpool.max.queue.size hive-site Dimensione massima della coda da utilizzare nel pool di thread per eliminare le partizioni dal file system.
hive.groupby.enable.deterministic.distribution hive-site Abilita la distribuzione deterministica delle chiavi sui riduttori. Passa un valore seed costante durante la chiamata alla funzione rand utilizzata per il partizionamento casuale.
hive.privilege.synchronizer hive-site Se sincronizzare periodicamente i privilegi dall'autorizzatore esterno in HiveServer2.
hive.cli.query.file.encoding hive-site Codifica dei file per tutti i tipi di file di query (file di query, file di query init, file rc ecc.) forniti negli argomenti CLI.
hive.emr.tez.shuffle.enabled hive-site I lavori Hive su Tez ora utilizzano tez_shuffle per impostazione predefinita invece di mapreduce_shuffle come Shuffle Handler predefinito.