Amazon EMR 6.6.0 - Note sul rilascio di Hive - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Amazon EMR 6.6.0 - Note sul rilascio di Hive

Amazon EMR 6.6.0 - Modifiche a Hive

Type Descrizione
Upgrade

Aggiorna Parquet a 1.12.1.

Upgrade

Aggiorna la versione dei jar jetty a 9.4.43.v20210629

Bug È stato risolto un problema che causava l'installazione di Hive su tutti i nodi task/principali quando LLAP era abilitato in un cluster Hive.
Backport HIVE-25942: aggiornare commons-io alla versione 2.8.0 per via di CVE-2021-29425
Backport HIVE-25726: aggiornamento della velocità a 2.3 grazie a CVE-2020-13936
Backport HIVE-25680: autorizza l'API del HiveMetastore server #get_table_meta a utilizzare uno qualsiasi dei modelli di autorizzazione. HiveMetastore
Backport HIVE-25554: aggiornare versione arrow alla 0.15
Backport HIVE-25242: la query funziona con estrema lentezza con vectorized.adaptor selezionato
Backport HIVE-25085: MetaStore I client non sono più condivisi tra le sessioni.
Backport HIVE-24827: la query di aggregazione Hive restituisce risultati non corretti per i file non di testo.
Backport HIVE-24683: Hadoop23Shim è soggetto a NPE per percorsi inesistenti getFileId
Backport HIVE-24656: CBO ha esito negativo per le query con "is null" ("è nullo") sui tipi di mappa e array
Backport HIVE-24556: ottimizzato per i DefaultGraphWalker casi senza nipoti
Backport HIVE-24408: aggiornare Parquet alla versione 1.11.1
Backport HIVE-24391: correggi gli errori FIX in branch-3.1 TestOrcFile
Backport HIVE-24362: l'elaborazione dell'albero AST non è ottimale per l'albero con un numero elevato di nodi
Backport HIVE-24316: aggiornamento ORC da 1.5.6 a 1.5.8 in branch-3.1
Backport HIVE-24307: Beeline con file di proprietà e parametro -e ha esito negativo
Backport HIVE-24245: PTF vettorizzato con conteggio e distinto su partizione che produce risultati errati.
Backport HIVE-24224: correggere il salto di intestazione/piè di pagina per Hive su Tez su file compressi
Backport HIVE-24157: modalità strict non riuscirà su CAST timestamp ↔ numerico
Backport HIVE-24113: NPE in GenericUDF ToUnixTimeStamp
Backport HIVE-23987: aggiornare versione arrow alla 0.11.0
Backport HIVE-23972: aggiungere ID client esterno al client esterno LLAP
Backport HIVE-23806: evitare di cancellare gli stati delle statistiche delle colonne in tutte le partizioni nel caso in cui lo schema sia esteso. Ciò migliora il runtime dell'istruzione "alter table add columns" ("modifica tabelle aggiungi colonne").
Backport HIVE-23779: Le informazioni non vengono stampate nella console Beeline BasicStatsTask
Backport HIVE-23306: il comando RESET non funziona se è presente una configurazione impostata da System.getProperty
Backport HIVE-23164: il server non è terminato correttamente a causa di thread non daemon
Backport HIVE-22967: supportare hive.reloadable.aux.jars.path per Hive su Tez
Backport HIVE-22934: contatori di log interattivi del server Hive per il flusso di errori
Backport HIVE-22901: la sostituzione delle variabili può portare a OOM sui riferimenti circolari
Backport HIVE-22769: risultati delle query errati e query non riuscite durante la suddivisione dei file di testo compressi
Backport HIVE-22716: Reading to è interrotto ByteBuffer ParquetFooterInputFromCache
Backport HIVE-22648: aggiornare Parquet alla versione 1.11.0
Backport HIVE-22640: Decimal64: quando il tipo di colonna della partizione è Decimale ColumnVector ClassCastException
Backport HIVE-22621: unstable testcase TestLlapSignerImpl: .testSigning
Backport HIVE-22533: correggere le possibili vulnerabilità dell'interfaccia utente web del daemon LLAP
Backport HIVE-22532: PTFPPD può spingere il limite in modo errato tramite Rank/ function DenseRank
Backport HiveProtoLoggingHook HIVE-22514: potrebbe consumare molta memoria
Backport HIVE-22476: la funzione Hive datediff ha fornito risultati incoerenti quando hive.fetch.task.conversion è impostato su "none" ("nessuno")
Backport HIVE-22429: le tabelle in cluster migrate utilizzando bucketing_version 1 su hive 3 utilizza bucketing_version 2 per gli inserti
Backport HIVE-22412: lancia NPE quando viene spiegato StatsUtils
Backport HIVE-22360: MultiDelimitSerDe restituisce risultati errati nell'ultima colonna quando il file caricato ha più colonne di quelle nello schema della tabella
Backport HIVE-22332: Hive dovrebbe garantire impostazioni valide per l'evoluzione dello schema a partire da ORC-540
Backport HIVE-22331: unix_timestamp senza argomento restituisce timestamp in millisecondi anziché in secondi
Backport HIVE-22275:. OperationManager queryIdOperationnon pulisce correttamente più QueryID
Backport HIVE-22273: il controllo di accesso non è riuscito quando è stata rimossa una directory temporanea
Backport HIVE-22270: aggiornare commons-io alla versione 2.6
Backport HIVE-22241: implementare UDF per interpretare data/ora utilizzando la sua rappresentazione interna e il calendario ibrido gregoriano-giuliano
Backport HIVE-22241: implementare UDF per interpretare data/ora utilizzando la sua rappresentazione interna e il calendario ibrido gregoriano-giuliano
Backport HIVE-22232: NPE quando hive.order.columnalignment è impostato su false
Backport HIVE-22231: la query hive con grandi dimensioni tramite knox ha esito negativo con "Broken pipe Write" non riuscito
Backport HIVE-22221: client esterno Llap - È necessario ridurre #getSplits LlapBaseInputFormat
Backport HIVE-22208: il nome della colonna con parola chiave riservata non viene salvato quando la query che include il join su una tabella con la colonna maschera viene riscritta
Backport HIVE-22197: Common Merge join genera un'eccezione cast di classe.
Backport HIVE-22170: from_unixtime e unix_timestamp dovrebbero utilizzare il fuso orario della sessione utente
Backport HIVE-22169: Tez: SplitGenerator prova a cercare file di piano che non esisteranno per Tez
Backport HIVE-22168: rimuovere la registrazione molto onerosa dall'hotpath della cache llap
Backport HIVE-22161: UDF: si sincronizza sulla classe org.apache.hadoop.hive.ql.UDF.UDFType FunctionRegistry
Backport HIVE-22120: corregge i risultati/le ArrayOutOfBound eccezioni errati nelle giunzioni della mappa esterna sinistra in base a condizioni limite specifiche
Backport HIVE-22115: impedire la creazione di appender di routing di query se la proprietà è impostata su false
Backport HIVE-22113: Impedisci l'arresto di LLAP su AMReporter relativo a AMReporter RuntimeException
Backport HIVE-22106: rimuovere la sincronizzazione tra query per la valutazione della partizione
Backport HIVE-22099: varie FDU correlate alla data non possono gestire correttamente le date del calendario giuliano dall'HIVE-20007
Backport HIVE-22037: HS2 dovrebbe registrare quando si disattiva a causa di OOM
Backport HIVE-21976: L'offset dovrebbe essere nullo anziché zero in Calcite HiveSortLimit
Backport HIVE-21924: dividere i file di testo anche se esiste intestazione/piè di pagina
Backport HIVE-21913: GetSplits GenericUDTF dovrebbe gestire i nomi utente allo stesso modo di LLAP
Backport HIVE-21905: miglioramento dei farmaci FetchOperator generici durante la classe
Backport HIVE-21902: HiveServer 2 UI: l'header jetty response richiede X-Frame-Options
Backport HIVE-21888: impostare hive.parquet.timestamp.skip.conversion predefinito su true
Backport HIVE-21868: vettorizzazione CAST... FORMAT
Backport LlapBaseInputFormatHIVE-21864: #closeAll
Backport HIVE-21863: migliorare il casting del tipo vettorizzato per l'espressione WHEN
Backport HIVE-21862: ORC ppd produce risultati errati con timestamp
Backport HIVE-21846: crea un thread in TeZam che recuperi periodicamente le metriche LlapDaemon
Backport HIVE-21837: genera un'eccezione quando la colonna selezionata ha valori completamente MapJoin nulli
Backport HIVE-21834: evitare chiamate inutili per semplificare le condizioni del filtro
Backport HIVE-21832: nuove metriche per ottenere il tempo medio di queue/serving/response
Backport HIVE-21827: più chiamate in entrata non passano attraverso il metodo SemanticAnalyzer getTableObject ByName
Backport HIVE-21822: LlapDaemon esponi le metriche tramite un nuovo metodo API
Backport HIVE-21818: CBO: La copia ha un traffico di metastore TableRelOptHiveTable
Backport HIVE-21815: le statistiche nel file ORC vengono analizzate due volte
Backport HIVE-21805: 2: Usa le API veloci HiveServer ShutdownHookManager
Backport HIVE-21799: NullPointerException in, quando la chiave di unione si trova sulla colonna di DynamicPartitionPruningOptimization aggregazione
Backport HIVE-21794: aggiungi i parametri della vista materializzata a sqlStdAuth SafeVarNameRegexes
Backport HIVE-21768: JDBC: eliminare il prefisso dell'unione predefinito per le query UNION non incluse
Backport HIVE-21746: ArrayIndexOutOfBoundsException durante l'hash join partizionato dinamicamente, con CBO disabilitato
Backport HIVE-21717: la rinominazione non è riuscita per la directory nell'attività di spostamento.
Backport HIVE-21685: semplificazione errata nella query con più clausole IN
Backport HIVE-21681: la descrizione formattata mostra informazioni errate per più chiavi primarie
Backport HIVE-21651: spostare protobuf serde in hive-exec.
Backport HIVE-21619: tipo di stampa timestamp impreciso nella spiegazione SQL estesa
Backport HIVE-21592: non viene mostrato quando l'espressione contiene CONCAT OptimizedSql
Backport HIVE-21576: presentazione di CAST... FORMAT e di un elenco limitato di formati data/ora SQL:2016
Backport HIVE-21573: il trasporto binario ignora il principale se l'autenticazione è impostata su delegationToken
Backport HIVE-21550: TestObjectStore i test sono instabili - Non è stato possibile ottenere un blocco entro il tempo richiesto
Backport HIVE-21544: la propagazione costante corrompe le espressioni coalesce/case/when durante il fold
Backport HIVE-21539: GroupBy + dove la clausola sulla stessa colonna comporta una riscrittura errata della query
Backport HIVE-21538: Beeline: origine password attraverso il lettore della console non passata al parametro di connessione
Backport HIVE-21509: LLAP potrebbe memorizzare nella cache i vettori di colonna danneggiati e restituire un risultato errato
Backport HIVE-21499: non dovrebbe rimuovere la funzione dal registro se il comando di creazione non è riuscito con AlreadyExistsException
Backport HIVE-21496: possibile overflow del buffer non ordinato durante il dimensionamento automatico
Backport HIVE-21468: distinzione tra maiuscole e minuscole nei nomi degli identificatori per il gestore di archiviazione JDBC
Backport HIVE-21467: rimozione importazioni junit.framework.Assert obsolete
Backport HIVE-21435: LlapBaseInputFormat dovrebbe ottenere il numero dell'attività dal file TASK_ATTEMPT_ID conf, se presente, durante la compilazione SubmitWorkRequestProto
Backport HIVE-21389: la distribuzione di Hive non presenta javax.ws.rs-api.jar dopo HIVE-21247
Backport HIVE-21385: autorizzazione a disabilitare il pushdown del calcolo non divisibile su sorgenti JDBC
Backport HIVE-21383: gestore di archiviazione JDBC: utilizzare catalogo e schema per recuperare le tabelle se specificato
Backport HIVE-21382: ottimizzazione della riduzione dei gruppi per chiavi: chiavi non ridotte su query23
Backport HIVE-21362: aggiungere un formato di input e serde per leggere dai file protobuf.
Backport HIVE-21340: CBO: pota le colonne non chiave inserendole in un SemiJoin
Backport HIVE-21332: eliminazione buffer non bloccati anziché buffer bloccati
Backport HIVE-21329: dimensioni del buffer di output non ordinato del runtime Tez personalizzate a seconda della pipeline dell'operatore
Backport HIVE-21295: converte la data in stringa usando la convenzione Hive StorageHandler
Backport HIVE-21294: vettorizzazione: lo shuffle con 1 riduttore può saltare le funzioni hash dell'oggetto
Backport HIVE-21255: Rimuovi QueryConditionBuilder JdbcStorageHandler
Backport HIVE-21253: Supporta DB2 in JDBC StorageHandler
Backport HIVE-21232: LLAP: aggiungere un provider di affinità split friendly per la mancata cache
Backport HIVE-21214: MoveTask : Usa AttemptID anziché la dimensione del file per la deduplicazione dei file compareTempOr DuplicateFiles
Backport HIVE-21184: aggiunta spiegazione e spiegazione piano CBO formattato con informazioni sui costi
Backport HIVE-21182: saltare la configurazione di Hive Scratch Dir durante la pianificazione
Backport HIVE-21171: saltare la creazione di scratch per tez se RPC è attivo
Backport HIVE-21126: consenti le interrogazioni a livello di sessione in #getSplit LlapBaseInputFormat
Backport HIVE-21107: errore "Cannot find field" ("Impossibile trovare il campo") durante l'hash join partizionato dinamicamente
Backport HIVE-21061: La query CTAS ha esito negativo per sorgente vuota IllegalStateException
Backport HIVE-21041: NPE, nell'ottenere lo schema dal piano logico ParseException
Backport HIVE-21013: JdbcStorageHandler impossibile trovare la colonna di partizione in Oracle
Backport HIVE-21006: Estendi per rimuovere i semijoin quando esiste un'opportunità SharedWorkOptimizer di riutilizzo
Backport HIVE-20992: suddividere la configurazione hive.metastore.dbaccess.ssl.properties in configurazioni più significative
Backport HIVE-20989: JDBC - Il log + può bloccare l'avanzamento delle query tramite sleep GetOperationStatus
Backport HIVE-20988: risultati errati per gruppi per query con chiave primaria su più colonne
Backport HIVE-20985: se gli input operatore selezionati sono colonne temporanee, la vettorizzazione può riutilizzarne alcuni come output
Backport HIVE-20978: «hive.jdbc.*» dovrebbe essere aggiunto a sqlStdAuth SafeVarNameRegexes
Backport HIVE-20953: rimozione di una funzione dal relativo registro quando non può essere aggiunta al metastore durante la sua creazione.
Backport HIVE-20952: VectorizationContext Pulizia di .java
Backport HIVE-20951: LLAP: impostare sempre Xms al 50%
Backport HIVE-20949: migliorare la stima della cardinalità PKFK nella pianificazione fisica
Backport HIVE-20944: non convalidare le statistiche durante la compilazione delle query
Backport HIVE-20940: casi bridge in cui la risoluzione del tipo Calcite è più rigorosa di Hive.
Backport HIVE-20937: la query jdbc Postgres ha esito negativo con l'errore "LIMIT must not be negative" ("LIMIT non deve essere negativo")
Backport HIVE-20926: il suggerimento di riduzione semi join ha esito negativo quando le voci del filtro Bloom sono alte o quando non ci sono statistiche
Backport HIVE-20920: utilizzare i vincoli SQL per migliorare l'algoritmo di riordinamento del join
Backport HIVE-20918: flag per abilitare/disabilitare l'impostazione del calcolo da Calcite nella connessione JDBC
Backport HIVE-20915: disponibilità ottimizzazione dinamica partizioni di ordinamento per HoS e MR
Backport HIVE-20910: errore di inserimento nella tabella con bucket a causa dell'ottimizzazione dinamica dell'ordinamento partizioni
Backport HIVE-20899: l'URI Keytab per il servizio LLAP YARN è restrittivo per supportare solo HDFS
Backport HIVE-20898: per le funzioni correlate al tempo, gli argomenti non possono essere trasferiti su un tipo non annullabile
Backport HIVE-20881: la propagazione costante semplifica eccessivamente le proiezioni
Backport HIVE-20880: aggiornare il valore predefinito per hive.stats.filter.in.min.ratio
Backport HIVE-20873: usa l'hash Murmur per ridurre la collisione dell'hash VectorHashKeyWrapperTwoLong
Backport HIVE-20868: SMB Join fallisce a intermittenza quando è presente un child op in TezDummyOperator getFinalOp MapRecordProcessor
Backport HIVE-20853: esponi .registerDAG nell'API del demone llap ShuffleHandler
Backport HIVE-20850: passaggio del case condizionale dalle proiezioni alle tabelle dimensionali, se possibile
Backport HIVE-20842: correggere la logica introdotta in HIVE-20660 per stimare le statistiche di raggruppamento in base a una condizione
Backport HIVE-20839: errore "Cannot find field" ("Impossibile trovare il campo") durante l'hash join partizionato dinamicamente
Backport HIVE-20835: l'interazione tra vincoli e riscrittura VM può creare loop nel pianificatore di Calcite
Backport HIVE-20834: voci Hive QueryResultCache che mantengono il riferimento a una query SemanticAnalyzer memorizzata nella cache
Backport HIVE-20830: errore di asserzione della query di intervallo in alcuni casi JdbcStorageHandler
Backport HIVE-20829: la divisione dell'intervallo genera NPE JdbcStorageHandler
Backport HIVE-20827: risultati incoerenti per array vuoti
Backport HIVE-20826: Migliora la HiveSemiJoin regola per convertire join + group by sul lato sinistro in Left Semi Join
Backport HIVE-20821: riscrivere SUM0 nella combinazione SUM+COALESCE
Backport HIVE-20815: .next non farà eccezione JdbcRecordReader
Backport HIVE-20813: udf to_epoch_milli deve supportare anche il timestamp senza fuso orario.
Backport HIVE-20804: ulteriori miglioramenti al raggruppamento per ottimizzazione con vincoli
Backport HIVE-20792: l'inserimento di timestamp con zone tronca i dati
Backport HIVE-20788: la riduzione estesa dell'SJ potrebbe far tornare indietro le colonne in modo errato durante la creazione
Backport HIVE-20778: il riordino delle join potrebbe non essere attivato se tutte le join nel piano sono create dalla logica di decorrelazione
Backport HIVE-20772: registrare i contatori CPU per attività in LLAP
Backport HIVE-20768: aggiungere UDF della finestra a cascata
Backport HIVE-20767: più progetti tra operatori di join possono influire sul riordinamento del join utilizzando i vincoli
Backport HIVE-20762: l'intervallo di pulizia NOTIFICATION_LOG è codificato come 60 ed è troppo piccolo
Backport HIVE-20761: la selezione per l'aggiornamento sulla tabella notification_sequence ha un intervallo di nuovi tentativi e un numero di tentativi troppo piccoli
Backport HIVE-20751: aggiornare versione arrow alla 0.10.0
Backport HIVE-20746: HiveProtoHookLogger non chiude il file a fine giornata.
Backport HIVE-20744: utilizzare i vincoli SQL per migliorare l'algoritmo di riordinamento del join
Backport HIVE-20740: rimuove il blocco globale nel metodo.setConf. ObjectStore Questo cherrypick supporta HIVE-20740 progettato per Hive 3.2 e da 4.x a 3.1.x
Backport HIVE-20734: Beeline: quando beeline-site.xml è attivo e la CLI di Hive reindirizza a Beeline, dovrebbe usare il nome utente del sistema/password fittizia invece di chiederne una
Backport HIVE-20731: il file keystore in deve essere autorizzato JdbcStorageHandler
Backport HIVE-20720: aggiungere l'opzione colonna partizione al gestore JDBC
Backport HIVE-20719: l'istruzione SELECT fallisce dopo l'UPDATE con l'ottimizzazione e la vettorizzazione di hive.optimize.sort.dynamic.partition attive
Backport HIVE-20718: aggiunto il driver perf cli con vincoli
Backport HIVE-20716: impostare il valore predefinito per hive.cbo.stats.correlated.multi.key.joins su true
Backport HIVE-20712: dovrebbe estrarre casi profondi HivePointLookupOptimizer
Backport HIVE-20710: il fold costante potrebbe non creare costanti nulle senza tipi
Backport HIVE-20706: external_jdbc_table2.q saltuariamente non funzionante
Backport HIVE-20704: Estendi per supportare altre funzioni HivePreFilteringRule
Backport HIVE-20703: mettere l'ottimizzazione della partizione di ordinamento dinamico nella decisione basata sui costi
Backport HIVE-20702: tenere conto del sovraccarico derivante dalle stime consapevoli della struttura dei dati durante la selezione di mapjoin
Backport HIVE-20692: abilitare il fold delle espressioni NOT x IS (NOT) [TRUE|FALSE]
Backport HIVE-20691: correggi org.apache.hadoop.hive.cli. TestMiniLlapCliDriver. testCliDriver[ctrl]
Backport HIVE-20682: l'esecuzione asincrona di query può potenzialmente non riuscire se SessionHive condivisa viene chiusa dal thread principale
Backport HIVE-20676: HiveServer 2: non PrivilegeSynchronizer è impostato sullo stato del demone
Backport HIVE-20660: la stima raggruppa per statistica potrebbe essere migliorata limitando il numero totale di righe alla tabella di origine
Backport HIVE-20652: invia l'unione di due diverse sorgenti dati al driver jdbc JdbcStorageHandler
Backport HIVE-20651: JdbcStorageHandler la password deve essere crittografata
Backport HIVE-20649: gestore di memoria LLAP per scrittori Orc
Backport HIVE-20648: LLAP: Il gruppo vettoriale per operatore dovrebbe utilizzare la memoria per esecutore
Backport HIVE-20646: la condizione del filtro di partizione non viene spinta verso il basso alla query di metastore se il valore è IS NOT NULL
Backport HIVE-20644: evitare di esporre informazioni sensibili tramite un'eccezione Hive Runtime
Backport HIVE-20636: migliorare la stima del numero di valori nulli dopo il join esterno
Backport HIVE-20632: la query con get_splits UDF ha esito negativo se la vista materializzata viene creata sulla tabella interrogata
Backport HIVE-20627: Le query asincrone simultanee falliscono in modo intermittente e causano perdite di memoria LockException
Backport HIVE-20623: lavoro condiviso: estendere la condivisione delle voci della cache di map-join in LLAP
Backport HIVE-20619 MultiDelimitSerDe : HiveServer Includi in 2 per impostazione predefinita
Backport HIVE-20618: Durante la selezione dei partecipanti è possibile scegliere tavoli non raggruppati BucketMapJoin
Backport HIVE-20617: correggere il tipo di costanti nelle espressioni IN per avere il tipo corretto
Backport HIVE-20612: creazione di un nuovo flag di correlazione a più chiavi di join per CBO
Backport HIVE-20603: errore "Wrong FS" ("FS errato") durante l'inserimento nella partizione dopo aver modificato il file system della posizione della tabella
Backport HIVE-20601: null nell'evento ALTER_PARTITION in EnvironmentContext DbNotificationListener
Backport HIVE-20583: usa il nome host canonico solo per l'autenticazione Kerberos in HiveConnection
Backport HIVE-20582: rendere configurabile il flush in hive proto logging
Backport HIVE-20563: vettorizzazione: l'espressione CASE WHEN ha esito negativo quando il tipo THEN/ELSE e il tipo di risultato sono diversi
Backport HIVE-20558: cambia il valore predefinito di hive.hashtable.key.count.adjustment a 0,99
Backport HIVE-20552: ottieni LogicalPlan Schema più velocemente
Backport HIVE-20550: cambiare WebHCat per usare Beeline per inviare query Hive
Backport HIVE-20537: multi-colonna riunisce le stime con colonne non correlate diverse in CBO e Hive
Backport HIVE-20524: il controllo Schema Evolution è interrotto passando dalla versione 2 di Hive alla versione 3 per ALTER TABLE VARCHAR a DECIMAL
Backport HIVE-20522: HiveFilterSetOpTransposeRule può generare un errore di asserzione a causa della nullabilità dei campi
Backport HIVE-20521: HS2 doAs=true ha un problema di autorizzazione con hadoop.tmp.dir, con filesystem MR e S3A
Backport HIVE-20515: risultati della query vuoti quando si utilizza la cache dei risultati e la directory temporanea della query, la directory della cache dei risultati in diversi filesystem
Backport HIVE-20508: Hive non supporta nomi utente del tipo "user@realm"
Backport HIVE-20507: Beeline: aggiungere un comando di utility per recuperare tutti gli uri da beeline-site.xml
Backport HIVE-20505: aggiornare org.openjdk.jmh:jmh-core alla versione 1.21
Backport HIVE-20503: utilizzare stime consapevoli della struttura dati durante la selezione di mapjoin
Backport HIVE-20498: supportare il tipo di data per la raccolta automatica delle statistiche delle colonne
Backport HIVE-20496: Vettorizzazione: PTF vettorializzato IllegalStateException
Backport HIVE-20494: GenericUDF è guasto dopo RestrictInformationSchema HIVE-19440
Backport HIVE-20477: non viene mostrato se l'espressione contiene IN OptimizedSql
Backport HIVE-20467: ammesse le istruzioni IF NOT EXISTS/IF EXISTS nella creazione/drop del piano di risorse
Backport HIVE-20462: "CREATE VIEW IF NOT EXISTS" ha esito negativo se la vista esiste già
Backport HIVE-20455: Spew di registro da security.authorization. PrivilegeSynchonizer.correre
Backport HIVE-20439: usare il limite di memoria gonfiato durante la selezione del join per llap
Backport HIVE-20433: la conversione implicita da stringa a timestamp è lenta
Backport HIVE-20432: riscrivere da BETWEEN a IN per i tipi interi per la stima delle statistiche
Backport HIVE-20423: impostazione di NULLS LAST come ordinamento nullo predefinito
Backport HIVE-20418: LLAP IO potrebbe non gestire file ORC con indice di riga disabilitato correttamente per le query senza colonne selezionate
Backport HIVE-20412: ingresso NPE HiveMetaHook
Backport HIVE-20406: Nested Coalesce restituisce risultati errati
Backport HIVE-20399: CTAS con una posizione di tabella personalizzata che non è completamente qualificata ha esito negativo per le tabelle MM
Backport HIVE-20393: Riduzione semiarticolare: FordPP si comporta in modo incoerente markSemiJoin
Backport HIVE-20391: può dedurre un tipo di ritorno errato durante la decomposizione della funzione aggregata HiveAggregateReduceFunctionsRule
Backport HIVE-20383: nome della coda non valido e problemi di sincronizzazione nell'hook degli eventi proto di hive.
Backport HIVE-20367: vettorizzazione: supportare lo streaming per PTF AVG, MAX, MIN, SUM
Backport HIVE-20366: le stime delle statistiche TPC-DS query78 sono disattivate per il suo filtro nullo
Backport HIVE-20364: aggiornare predefinito per hive.map.aggr.hash.min.reduction
Backport HIVE-20352: vettorizzazione: supportare la funzione di raggruppamento
Backport HIVE-20347: hive.optimize.sort.dynamic.partition dovrebbe funzionare con CTAS e VM partizionati
Backport HIVE-20345: il database di rilascio potrebbe bloccarsi se le tabelle vengono eliminate da una chiamata diversa
Backport HIVE-20343: Hive 3: CTAS non rispetta le transactional_properties
Backport HIVE-20340: Druid necessita di CAST espliciti da Timestamp a STRING quando l'output della funzione timestamp viene utilizzato come Strin
Backport HIVE-20339: vettorizzazione: sollevare le restrizioni non necessarie che causano la mancata vettorizzazione di un PTF con RANK
Backport HIVE-20337:: Expr non sta compilando correttamente l'elenco delle partizioni CachedStore getPartitionsBy
Backport HIVE-20336: criteri di mascheramento e filtraggio per viste materializzate
Backport HIVE-20326: creare vincoli con RELY come predefinito anziché NO RELY
Backport HIVE-20321: Vettorizzazione: riduce la dimensione della memoria da 1 col a <1 VectorHashKeyWrapper CacheLine
Backport HIVE-20320: attivazione flag hive.optimize.remove.sq_count_check
Backport HIVE-20315: vettorizzazione: correggere altri problemi NULL/risultati errati ed evitare cast/conversioni inutili
Backport HIVE-20314: include la potatura delle partizioni nella riscrittura delle viste materializzate
Backport HIVE-20312: consenti ai client Arrow di utilizzare i propri con BufferAllocator LlapOutputFormatService
Backport HIVE-20302: LLAP: l'esecuzione non vettorizzata in IO ignora le colonne virtuali, incluso ROW__ID
Backport HIVE-20300: VectorFileSinkArrowOperator
Backport HIVE-20299: potenziale competizione nel test dell'unità firmatario LLAP
Backport HIVE-20296: Migliora HivePointLookupOptimizerRule per essere in grado di estrarre da contesti più sofisticati
Backport HIVE-20294: vettorizzazione: risoluzione problemi NULL/risultati errati in COALESCE / ELT
Backport HIVE-20292: ordine delle join errato in query93 di tpcds con il vincolo primario definito
Backport HIVE-20290: inizializzazione lenta in modo da non allocare buffer durante ArrowColumnarBatchSerDe GetSplits
Backport HIVE-20281: fallisce con «i contenuti della cache dell'operatore e il piano effettivo differiscono» SharedWorkOptimizer
Backport HIVE-20277: vettorizzazione: le espressioni case che restituiscono BOOLEAN non sono supportate per FILTER
Backport HIVE-20267: espandere la WebUI per includere il modulo per configurare dinamicamente i livelli di log
Backport HIVE-20263: errore di battitura nella variabile HiveReduceExpressionsWithStatsRule
Backport HIVE-20260: l'NDV di una colonna non deve essere ridimensionato quando il numero di righe viene modificato dal filtro su un'altra colonna
Backport HIVE-20252: riduzione semijoin: i cicli dovuti al ramo semi join possono rimanere inosservati se il lato piccolo della tabella ha una mappa join a monte.
Backport HIVE-20245: vettorizzazione: risolvere problemi NULL/risultati errati in BETWEEN/IN
Backport HIVE-20241: supporto delle specifiche di partizionamento nelle istruzioni CTAS
Backport HIVE-20240: riduzione semijoin: uso della variabile locale per verificare le condizioni della tabella esterna
Backport HIVE-20226: HMS getNextNotification genererà un'eccezione quando la richiesta MaxEvents supera le max_rows della tabella
Backport HIVE-20225: per supportare il formato binario Teradata SerDe
Backport HIVE-20213: aggiornamento di Calcite a 1.17.0
Backport HIVE-20212: Hiveserver2 in modalità http emette in modo errato la metrica default.General.open_connections
Backport HIVE-20210: L'ottimizzatore Simple Fetch dovrebbe portare a quando il filtro su una colonna non partizionata e la conversione sono minime MapReduce
Backport HIVE-20209: la connessione al metastore fallisce per il primo tentativo nel dump repl
Backport HIVE-20207: vettorizzazione: risolvere problemi NULL/risultati errati in filtra/confronta
Backport HIVE-20204: conversione del tipo durante IN
Backport SerDe HIVE-20203: Arrow perde un DirectByteBuffer
Backport HIVE-20197: vettorizzazione: aggiunto il test DECIMAL_64, aggiunta l'aritmetica di data/intervallo/timestamp e aggiunte altre aggregazioni GROUP BY
Backport HIVE-20193: CBOInfo non è presente nel json del piano descrittivo
Backport HIVE-20192: HS2 con metastore incorporato sta perdendo oggetti JDO PersistenceManager
Backport HIVE-20183: l'inserimento da una tabella con bucket può causare la perdita di dati, se la tabella di origine contiene bucket vuoti
Backport HIVE-20177: Vettorizzazione: riduzione dell'allocazione in modalità Streaming KeyWrapper GroupBy
Backport HIVE-20174: vettorizzazione: risoluzione dei problemi NULL / risultati errati nelle funzioni di aggregazione GROUP BY
Backport HIVE-20172: StatsUpdater errore con GSS Exception durante il tentativo di connessione al metastore remoto
Backport HIVE-20153: le UDF Count e Sum consumano più memoria in Hive 2+
Backport HIVE-20152: reimpostare lo stato db quando il dump repl ha esito negativo, in modo da poter rinominare la tabella
Backport HIVE-20149: TestHiveCli guasto/scadenza
Backport HIVE-20130: migliore registrazione per il sincronizzatore dello schema delle informazioni
Backport HIVE-20129: ripristina l'evoluzione dello schema basato sulla posizione per le tabelle orc
Backport SessionStateUserAuthenticatorHIVE-2018:. getGroupNames
Backport HIVE-20116: TezTask sta usando il logger principale
Backport HIVE-20115: le tabelle Acid non devono utilizzare la scansione del footer per analizzare
Backport HIVE-20103: WM: aggregare solo contatori DAG se ne viene utilizzato almeno uno
Backport HIVE-20101: BloomKFilter: evitare di utilizzare completamente gli array di byte[] locali
Backport HIVE-20100: OpTraits : Select Optraits dovrebbe interrompersi quando viene rilevata una mancata corrispondenza
Backport HIVE-20098: statistiche: NPE quando si ottengono le statistiche sulla partizione della colonna Data
Backport HIVE-20095: correggere la funzione per l'invio push della computazione alle tabelle esterne jdbc
Backport HIVE-20093:: Uso con Netty per la contabilità LlapOutputFomatService ArrowBuf
Backport HIVE-20090: estendere la creazione di filtri di riduzione semijoin per scoprire nuove opportunità
Backport HIVE-20088: il percorso della posizione di configurazione di Beeline è assemblato in modo errato
Backport HIVE-20082: la conversione in stringa non formatta correttamente HiveDecimal il decimale
Backport HIVE-20069: correggere la riottimizzazione in caso di ottimizzazione DPP e Semijoin
Backport HIVE-20051: ignorare l'autorizzazione per le tabelle temporanee
Backport HIVE-20044: Arrow Serde dovrebbe tamponare i valori dei caratteri e gestire correttamente le stringhe vuote
Backport HIVE-20028: la configurazione della cache client metastore viene utilizzata in modo errato
Backport HIVE-20025: Pulizia dei file di eventi creati da HiveProtoLoggingHook
Backport HIVE-20020: il jar contrib di Hive non deve essere nella lib
Backport HIVE-20013: aggiunta di un cast implicito al tipo di data per la funzione to_date
Backport HIVE-20011: allontanarsi dalla modalità di aggiunta nell'hook di registrazione proto
Backport HIVE-20005: acid_table_stats, acid_no_buckets, ecc.; modifica del risultato della query sul branch
Backport HIVE-20004: Una scala errata utilizzata da 64 dà risultati errati ConvertDecimal ToDecimal
Backport HIVE-19995: aggregazione del traffico di righe per le tabelle Acid
Backport HIVE-19993: non è possibile utilizzare un alias di tabella che appare anche come nome di colonna
Backport HIVE-19992: Vettorizzazione: seguito a HIVE-19951 --> aggiungi chiamata a. SchemaEvolution isOnlyImplicitConversione per disabilitare l'I/O LLAP codificato per ORC solo quando la conversione del tipo di dati non è implicita
Backport HIVE-19989: Metastore utilizza il nome dell'applicazione errato per le metriche HADOOP2
Backport HIVE-19981: Le tabelle gestite convertite in tabelle esterne dall' HiveStrictManagedMigration utilità devono essere impostate per eliminare i dati quando la tabella viene eliminata
Backport HIVE-19967: SMB Join: necessari Optraits per PTFOperator ala GBY Op
Backport HIVE-19935: sessione Hive WM eliminata: non è stato possibile aggiornare il conteggio delle attività LLAP
Backport HIVE-19924: contrassegno dei processi distcp eseguiti da Repl Load
Backport HIVE-19891: l'inserimento in tabelle esterne con directory di partizioni personalizzate può causare la perdita di dati
Backport HIVE-19850: la potatura dinamica delle partizioni in Tez conduce all'errore "No work found for tablescan" ("Nessun lavoro trovato per la scansione tabelle")
Backport HIVE-19806: ordinamento dell'output dei qtest per evitare errori nei risultati dei test
Backport HIVE-19770: supporto per CBO per le query con più colonne uguali nella select
Backport HIVE-19769: creazione di oggetti dedicati per i nomi di DB e tabelle
Backport HIVE-19765: Aggiungi test specifici per Parquet a BlobstoreCliDriver
Backport HIVE-19759: Test Flaky: # TestRpc testServerPort
Backport HIVE-19711: rifattorizzare strumento schema di Hive
Backport HIVE-19701: non ha bisogno di essere sincronizzato getDelegationToken FromMetaStore
Backport HIVE-19694: l'istruzione Create Materialized View dovrebbe verificare la presenza di conflitti di nomi MV prima di eseguire l'istruzione SQL di MV.
Backport HIVE-19674: raggruppamento per costanti decimali passato poi fino alla tabella Druid
Backport HIVE-19668: Oltre il 30% dell'heap sprecato da org.antlr.runtime duplicati. CommonTokene stringhe duplicate
Backport HIVE-19663: rifattorizzazione della generazione di report LLAP IO
Backport HIVE-19661: cambiare le UDF Hive per utilizzare il motore regex Re2J
Backport HIVE-19628: possibile NPE in LLAP testSigning
Backport HIVE-19568: HS2 HA attivo/passivo: non consentire la connessione diretta all'istanza HS2 passiva
Backport HIVE-19564: vettorizzazione: risolvere problemi NULL/risultati errati negli operatori aritmetici
Backport HIVE-19552: abilita #druidkafkamini_basic .q TestMiniDruidKafkaCliDriver
Backport HIVE-19432: GetTablesOperation è troppo lento se l'hive ha troppi database e tabelle
Backport HIVE-19360: CBO: aggiungi un «SQL ottimizzato» all'oggetto QueryPlan
Backport HIVE-19326: raccolta automatica delle statistiche: aggregazione errata durante le query UNION
Backport TestJdbcWithTokenStoreNoDoAsHIVE-19313: i test DB falliscono
Backport HIVE-19285: aggiunge i log alle sottoclassi di MetaDataOperation
Backport HIVE-19235: aggiornamento dei file golden per i test Minimr
Backport HIVE-19104: Quando il test viene avviato con retry, le istanze dovrebbero essere MetaStore indipendenti
Backport HIVE-18986: La ridenominazione della tabella eseguirà java.lang. StackOverflowError in DataNucleus se la tabella contiene un numero elevato di colonne
Backport HIVE-18920: CBO: inizializzare i provider Janino prima della prima query
Backport HIVE-18873: Saltare silenziosamente il push down dei predicati per MR può far sì che i gestori di archiviazione producano risultati errati HiveInputFormat
Backport HIVE-18871: errore di esecuzione hive su tez dovuto all'impostazione di hive.aux.jars.path su hdfs://
Backport HIVE-18725: miglioramento della gestione degli errori per le query secondarie in caso di riferimento di colonna errato
Backport HIVE-18696: Le cartelle delle partizioni potrebbero non essere pulite correttamente nel metodo.add_partitions_core se HiveMetaStore
Backport HIVE-18453: ACID: aggiunta la sintassi "CREATE TRANSACTIONAL TABLE" per unire il supporto di ACID ORC e Parquet
Backport HIVE-18201: disabilitata XPROD_EDGE per sq_count_chec
Backport HIVE-18140: le statistiche delle tabelle partizionate possono risultare errate in un caso combinato di statistiche base
Backport HIVE-17921: l'aggregazione con struttura in LLAP produce risultati errati
Backport HIVE-17896: TopNKey: creazione di un operatore TopNKey vettorializzabile autonomo
Backport HIVE-17840: HiveMetaStore mangia un'eccezione se TransactionalListeners.notifyEvent fallisce
Backport HIVE-17043: rimuovere colonne non univoche dal gruppo in base alle chiavi se non viene fatto riferimento in seguito
Backport HIVE-17040: partecipare all'eliminazione in presenza di relazione FK
Backport HIVE-16839: chiamate sbilanciate a openTransaction/commitTransaction quando si altera contemporaneamente la stessa partizione
Backport HIVE-16100: l'ottimizzatore dinamico delle partizioni ordinate perde operatori di pari livello
Backport StackOverflowError HIVE-15956: quando si eliminano molte partizioni
Backport HIVE-15177: l'autenticazione con hive ha esito negativo quando il tipo di autenticazione kerberos è impostato su fromSubject e il principale contiene _HOST
Backport HIVE-14898: HS2 non dovrebbe eseguire il log del callstack per un errore di intestazione di autenticazione vuota
Backport HIVE-14493: supporto del partizionamento per le viste materializzate
Backport HIVE-14431: riconoscimento di COALESCE come CASE
Backport HIVE-13457: creare endpoint HS2 REST API per il monitoraggio delle informazioni
Backport HIVE-12342: impostazione del valore predefinito di hive.optimize.index.filter a true
Backport HIVE-10296: rilevata un'eccezione di cast quando hive esegue una query multi-join su metastore
Backport HIVE-6980: abbandonare tabella usando direct sql

Amazon EMR 6.6.0 - Modifiche alla configurazione di Hive

  • Come parte della modifica dell'OSS HIVE-20703, la proprietà di ordinamento delle partizioni dinamiche hive.optimize.sort.dynamic.partition è stata sostituita con hive.optimize.sort.dynamic.partition.threshold.

    La configurazione hive.optimize.sort.dynamic.partition.threshold presenta i seguenti valori potenziali:

    Valore Descrizione

    0

    (default) (predefinito)

    Rende l'ottimizzazione per l'ordinamento delle partizioni dinamiche una decisione basata sui costi quando vengono utilizzati i file ORC. Il numero massimo di scrittori consentiti nelle query INSERT viene calcolato secondo la formula (memoria esecutore/container) * (percentuale di memoria occupata da orc) diviso per la memoria massima (dimensione della striscia) occupata da un singolo scrittore.

    -1

    Disabilita l'ottimizzazione per l'ordinamento completo delle partizioni dinamiche.

    1

    Consente l'ordinamento globale delle partizioni dinamiche. Ciò mantiene aperto solo un scrittore di record per ogni valore di partizione nel riduttore, riducendo così la pressione della memoria sui riduttori.

    2

    (or greater integer) (o numero intero maggiore)

    Indica a Hive di utilizzare il numero intero specificato come soglia per il numero massimo di scrittori.

Amazon EMR 6.6.0: problemi noti di Hive

  • Le query con funzioni finestra sulla stessa colonna di join possono portare a trasformazioni non valide, come riportato in HIVE-25278 e causare risultati errati o errori di query. Come soluzione alternativa, è possibile disabilitare CBO a livello di query per tali query. Contatta l'assistenza per ulteriori informazioni AWS .

  • Amazon EMR 6.6.0 include la versione 3.1.2 del software Hive. Hive 3.1.2 introduce una caratteristica che divide i file di testo se contengono un'intestazione e un piè di pagina (HIVE-21924). Apache Tez App Master legge ciascuno dei file per determinare i punti di offset nell'intervallo di dati. La combinazione di questi comportamenti potrebbe influire negativamente sulle prestazioni se le query leggono un numero elevato di file di testo di piccole dimensioni. Come soluzione alternativa, è possibile utilizzare CombineHiveInputFormat e regolare la dimensione massima della divisione configurando le seguenti proprietà:

    SET hive.tez.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; SET mapreduce.input.fileinputformat.split.maxsize=16777216;
  • Con le versioni da 6.6.0 a 6.9.x di Amazon EMR, le query INSERT con partizione dinamica e una clausola ORDER BY o SORT BY avranno sempre due riduttori. Questo problema è causato dalla modifica dell'OSS HIVE-20703, che assoggetta l'ottimizzazione dinamica delle partizioni di ordinamento a una decisione basata sui costi. Se il carico di lavoro non richiede l'ordinamento delle partizioni dinamiche, ti consigliamo di impostare la proprietà hive.optimize.sort.dynamic.partition.threshold su -1 per disabilitare la nuova caratteristica e ottenere il numero di riduttori calcolato correttamente. Questo problema è stato corretto in OSS Hive come parte di HIVE-22269 ed è stato risolto in Amazon EMR 6.10.0.