Apache Hive - Amazon EMR

Apache Hive

Hive é um data warehouse e um pacote de análises de código aberto executado além de um cluster do Hadoop. Os scripts do Hive usam uma linguagem semelhante a SQL chamada Hive QL (query language, linguagem de consulta) que abstrai modelos de programação e dá suporte a interações de data warehouse típicas. O Hive permite evitar as complexidades de escrever trabalhos do Tez com base em Directed Acyclic Graphs (DAGs – Gráficos acíclicos dirigidos) ou em programas do MapReduce em uma linguagem de computador de nível inferior, como Java.

O Hive amplia o paradigma do SQL incluindo formatos de serialização. Você também pode personalizar o processamento de consultas com a criação de um esquema de tabela que corresponda a seus dados, sem tocar nos próprios dados. Enquanto o SQL oferece suporte a tipos de valor primitivos, como datas, números e strings, os valores de tabelas do Hive são elementos estruturados, como objetos JSON, qualquer tipo de dados definido pelo usuário ou qualquer função escrita em Java.

Para obter mais informações sobre o Hive, consulte http://hive.apache.org/.

A tabela a seguir lista a versão do Hive incluída na versão mais recente da série 6.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Hive.

Para obter a versão dos componentes instalados com o Hive nessa versão, consulte Versões dos componentes da versão 6.14.0.

Informações sobre versões do Hive para o emr-6.14.0
Rótulo de versão do Amazon EMR Versão do Hive Componentes instalados com o Hive

emr-6.14.0

Hive 3.1.3

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn, tez-on-worker, zookeeper-client, zookeeper-server

A tabela a seguir lista a versão do Hive incluída na versão mais recente da série 5.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Hive.

Para obter a versão dos componentes instalados com o Hive nessa versão, consulte Versões dos componentes da versão 6.14.0.

Informações sobre versões do Hive para o emr-5.36.1
Rótulo de versão do Amazon EMR Versão do Hive Componentes instalados com o Hive

emr-5.36.1

Hive 2.3.9

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn

Desde a versão 5.18.0 do Amazon EMR, você pode usar o repositório de artefatos do Amazon EMR para criar o código de trabalho em comparação com as versões exatas de bibliotecas e dependências disponíveis com versões específicas do Amazon EMR. Para obter mais informações, consulte Verificar dependências usando o repositório de artefatos do Amazon EMR.