Apache Hive - Amazon EMR

Apache Hive

Hive est un entrepôt de données open source et un package analytique qui s'exécute au-dessus d'un cluster Hadoop. Les scripts Hive utilisent un langage de type SQL appelé Hive QL (langage de requête), qui extrait des modèles de programmation et prend en charge les interactions classiques d'entrepôt de données. Hive vous permet d'éviter les complexités liées à l'écriture de travaux Tez basés sur des DAG (Directed Acyclic Graphs, graphes acycliques dirigés) ou des programmes MapReduce en langage informatique de niveau inférieur, comme Java.

Hive étend le modèle SQL en incluant des formats de sérialisation. Vous pouvez également personnaliser le traitement d'une requête en créant un schéma de table correspondant à vos données, sans toucher au données elles-même. Alors que SQL prend uniquement en charge les types de valeur primitifs tels que les dates, les chiffres et les chaînes, les valeurs figurant dans les tableaux Hive sont des éléments structurés, tels que des objets JSON, tous types de données définis par l'utilisateur ou toutes fonctions écrites en Java.

Pour plus d'informations sur Hive, consultez le site http://hive.apache.org/.

Le tableau suivant répertorie la version de Hive incluse dans la dernière version d'Amazon EMR série 6.x, ainsi que les composants qu'Amazon EMR installe avec Hive.

Pour connaître la version des composants installés avec Hive dans cette version, consultez les versions des composants de la version 6.14.0.

Informations sur la version de Hive pour emr-6.14.0
Étiquette de version Amazon EMR Version de Hive Composants installés avec Hive

emr-6.14.0

Hive 3.1.3

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn, tez-on-worker, zookeeper-client, zookeeper-server

Le tableau suivant répertorie la version de Hive incluse dans la dernière version d'Amazon EMR série 5.x, ainsi que les composants qu'Amazon EMR installe avec Hive.

Pour connaître la version des composants installés avec Hive dans cette version, consultez les versions des composants de la version 6.14.0.

Informations sur la version de Hive pour emr-5.36.1
Étiquette de version Amazon EMR Version de Hive Composants installés avec Hive

emr-5.36.1

Hive 2.3.9

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn

À partir d'Amazon EMR 5.18.0, vous pouvez utiliser le référentiel d'artefacts d'Amazon EMR pour générer le code de votre tâche en fonction des versions exactes des bibliothèques et des dépendances qui sont disponibles avec des versions spécifiques d'Amazon EMR. Pour de plus amples informations, veuillez consulter Vérification des dépendances à l'aide du référentiel d'artefacts d'Amazon EMR.