Amazon EMR 6.9.0 - Note sul rilascio per Hive

Modalità Focus

Amazon EMR 6.9.0 - Note sul rilascio per Hive - Amazon EMR

Amazon EMR 6.9.0 - Modifiche a Hive

Tipo	Descrizione
Upgrade	Aggiornamento di Jetty a 9.4.48.v20220622
Upgrade	Supporto per Hadoop 3.3.3
Funzionalità	Integrazione di Amazon EMR Hive con Lake Formation per carichi di lavoro interattivi utilizzando l'API di GCSC.
Funzionalità	Integrazione di Amazon EMR Hive con Iceberg.
Miglioramenti	Abilita SSL in HiveServer 2 quando la crittografia in transito è abilitata utilizzando le configurazioni di sicurezza di Amazon EMR.
Miglioramenti	Abilita il committer ottimizzato per Amazon S3 di Hive EMRFS per impostazione predefinita. Per ulteriori informazioni, consultare Abilitazione del committer ottimizzato EMRFS S3 di Hive.
Miglioramenti	Aggiungi `HiveHBaseTableInputFormatV2` che eredita solo la versione mappata di per correggere SPARK-34210. InputFormat Imposta `hive.hbase.inputformat.v2` su `true` per utilizzarlo.
Miglioramenti	Attendi che TezAM si avvii in background con hive.cli.tez.session.async invece di terminare la sessione e avviarne immediatamente un'altra. Utilizza `hive.emr.cli.tez.session.open.timeout` per impostare questo timeout in secondi.
Miglioramenti	Aggiungi l'opzione hive.conf.restricted.list.append per aggiungere configurazioni separate da virgole all'elenco di configurazioni con restrizioni `hive.conf.restricted.list` esistente.
Miglioramenti	È stato reso più chiaro il messaggio di errore restituito quando la query Hive fallisce perché la posizione non è definita per il database.
Backport	HIVE-24484: aggiornamento di Hadoop a 3.3.1 e Tez a 0.10.2
Backport	HIVE-22398: rimuove la gestione delle code YARN tramite. ShimLoader
Backport	HIVE-23190: LLAP: modifica per passare l'oggetto del filesystem a. IndexCache TezSpillRecord
Backport	HIVE-22185: HADOOP-15832 causerà problemi con i test che utilizzano i cluster. MiniYarn
Backport	HIVE-21670: `mockito-all` è stata sostituita con la dipendenza `mockito-core`.
Backport	HIVE-24542: Guava è stato preparato per gli aggiornamenti.
Backport	HIVE-23751:: Sostituisci il metodo per allinearlo dopo HADOOP-16582. QTest `#mkdirs()` `ProxyFileSystem`
Backport	HIVE-21603: preparazione di Java 11: aggiornamento della versione powermock.
Backport	HIVE-24083: errore `hcatalog`, è necessario il tipo di autenticazione, in Hadoop 3.3.0.
Backport	HIVE-24282: le colonne di visualizzazione non devono ordinare le colonne di output a meno che non sia esplicitamente indicato.
Backport	HIVE-20656: (impostazioni predefinite sensibili) le configurazioni della memoria di aggregazione delle mappe sono troppo aggressive.
Backport	HIVE-25443: Arrow non può serializzare/deserializzare tipi di dati complessi quando ci sono più di 1024 valori SerDe
Backport	HIVE-19792: orc è stato aggiornato al rilascio 1.5.2 e sono stati abilitati i test di evoluzione dello schema decimal_64.
Backport	HIVE-20437: l'evoluzione dello schema può essere gestita da float, double e decimal.
Backport	HIVE-21987: Hive non è in grado di leggere Parquet int32 annotato con decimali.
Backport	HIVE-20038: l'aggiornamento delle query su tabelle non inserite in bucket e partizionate genera NPE.

Amazon EMR 6.9.0 - Problemi noti di Hive

Con le versioni da 6.6.0 a 6.9.x di Amazon EMR, le query INSERT con partizione dinamica e una clausola ORDER BY o SORT BY avranno sempre due riduttori. Questo problema è causato dalla modifica dell'OSS HIVE-20703, che assoggetta l'ottimizzazione dinamica delle partizioni di ordinamento a una decisione basata sui costi. Se il carico di lavoro non richiede l'ordinamento delle partizioni dinamiche, ti consigliamo di impostare la proprietà hive.optimize.sort.dynamic.partition.threshold su -1 per disabilitare la nuova caratteristica e ottenere il numero di riduttori calcolato correttamente. Questo problema è stato corretto in OSS Hive come parte di HIVE-22269 ed è stato risolto in Amazon EMR 6.10.0.