Amazon EMR 6.9.0 - Note sul rilascio per Hive - Amazon EMR

Amazon EMR 6.9.0 - Note sul rilascio per Hive

Amazon EMR 6.9.0 - Modifiche a Hive

Type (Tipo) Descrizione
Upgrade Aggiornamento di Jetty a 9.4.48.v20220622
Upgrade Supporto per Hadoop 3.3.3
Caratteristica Integrazione di Amazon EMR Hive con Lake Formation per carichi di lavoro interattivi utilizzando l'API di GCSC.
Caratteristica Integrazione di Amazon EMR Hive con Iceberg.
Miglioramenti Abilita SSL in HiveServer2 quando la crittografia in transito è abilitata utilizzando le configurazioni di sicurezza di Amazon EMR.
Miglioramenti Abilita il committer ottimizzato per Amazon S3 di Hive EMRFS per impostazione predefinita. Per ulteriori informazioni, consulta Abilitazione del committer ottimizzato EMRFS S3 di Hive.
Miglioramenti Aggiungi HiveHBaseTableInputFormatV2, che eredita solo la versione mapred di InputFormat per correggere SPARK-34210. Imposta hive.hbase.inputformat.v2 su true per utilizzarlo.
Miglioramenti Attendi che TezAM si avvii in background con hive.cli.tez.session.async invece di terminare la sessione e avviarne immediatamente un'altra. Utilizza hive.emr.cli.tez.session.open.timeout per impostare questo timeout in secondi.
Miglioramenti Aggiungi l'opzione hive.conf.restricted.list.append per aggiungere configurazioni separate da virgole all'elenco di configurazioni con restrizioni hive.conf.restricted.list esistente.
Miglioramenti È stato reso più chiaro il messaggio di errore restituito quando la query Hive fallisce perché la posizione non è definita per il database.
Backport HIVE-24484: aggiornamento di Hadoop a 3.3.1 e Tez a 0.10.2
Backport HIVE-22398: è stata rimossa la gestione delle code YARN tramite ShimLoader.
Backport HIVE-23190: (LLAP) è stato modificato IndexCache per passare l'oggetto del file system a TezSpillRecord.
Backport HIVE-22185: HADOOP-15832 causerà problemi con i test che utilizzano i cluster MiniYarn.
Backport HIVE-21670: mockito-all è stata sostituita con la dipendenza mockito-core.
Backport HIVE-24542: Guava è stato preparato per gli aggiornamenti.
Backport HIVE-23751: (QTest) il metodo #mkdirs() è stato sovrascritto in ProxyFileSystem per l'allineamento in seguito a HADOOP-16582.
Backport HIVE-21603: preparazione di Java 11: aggiornamento della versione powermock.
Backport HIVE-24083: errore hcatalog, è necessario il tipo di autenticazione, in Hadoop 3.3.0.
Backport HIVE-24282: le colonne di visualizzazione non devono ordinare le colonne di output a meno che non sia esplicitamente indicato.
Backport HIVE-20656: (impostazioni predefinite sensibili) le configurazioni della memoria di aggregazione delle mappe sono troppo aggressive.
Backport HIVE-25443: Arrow SerDe non è in grado di serializzare/deserializzare tipi di dati complessi quando sono presenti più di 1.024 valori.
Backport HIVE-19792: orc è stato aggiornato al rilascio 1.5.2 e sono stati abilitati i test di evoluzione dello schema decimal_64.
Backport HIVE-20437: l'evoluzione dello schema può essere gestita da float, double e decimal.
Backport HIVE-21987: Hive non è in grado di leggere Parquet int32 annotato con decimali.
Backport HIVE-20038: l'aggiornamento delle query su tabelle non inserite in bucket e partizionate genera NPE.

Amazon EMR 6.9.0 - Problemi noti di Hive

  • Con le versioni da 6.6.0 a 6.9.x di Amazon EMR, le query INSERT con partizione dinamica e una clausola ORDER BY o SORT BY avranno sempre due riduttori. Questo problema è causato dalla modifica dell'OSS HIVE-20703, che assoggetta l'ottimizzazione dinamica delle partizioni di ordinamento a una decisione basata sui costi. Se il carico di lavoro non richiede l'ordinamento delle partizioni dinamiche, ti consigliamo di impostare la proprietà hive.optimize.sort.dynamic.partition.threshold su -1 per disabilitare la nuova caratteristica e ottenere il numero di riduttori calcolato correttamente. Questo problema è stato corretto in OSS Hive come parte di HIVE-22269 ed è stato risolto in Amazon EMR 6.10.0.