Apache Hive

Bei Hive handelt es sich um ein Open-Source-Data-Warehouse und Analyse-Paket von Datensätzen, das auf einem Hadoop-Cluster ausgeführt wird. Für Hive-Skripte wird die SQL-ähnliche Sprache Hive QL (Query Language) verwendet, die Programmiermodelle abstrahiert und typische Data Warehouse-Interaktionen unterstützt. Mit Hive können Sie die Komplexität vermeiden, die mit dem Schreiben von Tez-Jobs verbunden ist, die auf gerichteten azyklischen Graphen (DAGs) oder MapReduce Programmen in einer Computersprache niedrigerer Stufe wie Java basieren.

Hive erweitert das SQL-Paradigma durch Einschließen von Serialisierungsformaten. Sie können die Abfrageverarbeitung auch anpassen, indem Sie ein Tabellenschema erstellen, das mit Ihren Daten übereinstimmt, ohne die eigentlichen Daten zu bearbeiten. Während SQL nur primitive Wertetypen (z. B. Datumsangaben, Zahlen und Zeichenfolgen) unterstützt, handelt es sich bei den Werten in Hive-Tabellen um strukturierte Elemente wie beispielsweise JSON-Objekte, benutzerdefinierte Datentypen oder Java-Funktionen.

Weitere Informationen zu Hive finden Sie unter http://hive.apache.org/.

Die folgende Tabelle listet die Version von Hive auf, die in der neuesten Version der Amazon-EMR-7.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Hive installiert.

Informationen zur Version der Komponenten, die in dieser Version mit Hive installiert wurden, finden Sie unter Komponentenversionen von Version 7.10.0.

Hive-Versionsinformationen für emr-7.10.0
Amazon-EMR-Versionsbezeichnung	Hive-Version	Mit Hive installierte Komponenten
emr-7.10.0	Hive 3.1.3-amzn-19	emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn, tez-on-worker, zookeeper-client, zookeeper-server

Die folgende Tabelle listet die Version von Hive auf, die in der neuesten Version der Amazon-EMR-6.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Hive installiert.

Die Version der Komponenten, die mit Hive in dieser Version installiert wurden, finden Sie unter Komponentenversionen der Version 6.15.0.

Hive-Versionsinformationen für emr-6.15.0
Amazon-EMR-Versionsbezeichnung	Hive-Version	Mit Hive installierte Komponenten
emr-6.15.0	Hive 3.1.3-amzn-8	emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn, tez-on-worker, zookeeper-client, zookeeper-server

Die folgende Tabelle listet die Version von Hive auf, die in der neuesten Version der Amazon-EMR-5.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Hive installiert.

Informationen zur Version der Komponenten, die in dieser Version mit Hive installiert wurden, finden Sie unter Komponentenversionen von Version 5.36.2.

Hive-Versionsinformationen für emr-5.36.2
Amazon-EMR-Versionsbezeichnung	Hive-Version	Mit Hive installierte Komponenten
emr-5.36.2	Hive 2.3.9-amzn-2	emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn

Ab Amazon EMR 5.18.0 können Sie das Amazon-EMR-Artefakt-Repository verwenden, um Ihren Auftragscode anhand der genauen Versionen von Bibliotheken und Abhängigkeiten zu erstellen, die mit bestimmten Amazon-EMR-Versionen verfügbar sind. Weitere Informationen finden Sie unter Überprüfen von Abhängigkeiten mithilfe des Amazon-EMR-Artefakt-Repositorys.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

HCatalog Versionsverlauf

Unterschiede und Überlegungen für Hive auf Amazon EMR