Amazon EMR 6.x-Versionen - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon EMR 6.x-Versionen

Jede Registerkarte unten listet Anwendungsversionen, Versionshinweise, Komponentenversionen und Konfigurationsklassifizierungen auf, die in jeder Amazon EMR-6.x-Version verfügbar ist.

Die Amazon EMR 6.x-Serie unterstützt Apache Hadoop 3. Ein umfassendes Diagramm von Anwendungsversionen in jeder Version finden Sie unter Anwendungsversionen in Amazon EMR-6.x-Versionen (PNG).

New Amazon EMR release versions are made available in different regions over a period of several days, beginning with the first region on the initial release date. The latest release version may not be available in your region during this period.

6.2.0 (Latest)

6.2.0 Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: JupyterEnterpriseGateway000, Flink, Ganglia, Hadoop, HBase, _000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000ent_000_000_000ent000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000ent_3_000ent_3_3_3_3_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000HCataloghttp://hive.apache.org/http://gethue.com/JupyterHubhttps://livy.incubator.apache.org/MXNethttp://oozie.apache.org/https://phoenix.apache.org/http://pig.apache.org/https://prestodb.io/PrestoSQLhttps://spark.apache.org/docs/latest/http://sqoop.apache.org/TensorFlowhttps://tez.apache.org/https://zeppelin.incubator.apache.org/ZooKeeper

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

6.2.0 Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zu Amazon EMR Version 6.2.0. Änderungen beziehen sich auf Version 6.1.0.

Erste Version: 09. Dezember 2020

Letzte Aktualisierung: 08. Jan. 2021

Unterstützte Anwendungen

  • AWS SDK for Java Version 1.11.828

  • emr-record-server Version 1.7.0

  • Flink Version 1.11.2

  • Ganglia Version 3.7.2

  • Hadoop Version 3.2.1-amzn-1

  • HBase Version 2.2.6

  • HBase-operator-tools 1.0.0

  • HCatalog Version 3.1.2-amzn-0

  • Hive Version 3.1.2-amzn-3

  • Hudi Version 0.6.0-amzn-1

  • Hue Version 4.8.0

  • JupyterHub Version 1.1.0

  • Livy Version 0.7.0

  • MXNet Version 1.7.0

  • Oozie Version 5.2.0

  • Phoenix Version 5.0.0

  • Pig Version 0.17.0

  • Presto Version 0.238.3-amzn-1

  • PrestoSQL Version 343

  • Spark Version 3.0.1

  • Sparks-Rapids 0.2.0

  • TensorFlow Version 2.3.1

  • Zeppelin Version 0.9.0-preview1

  • Zookeeper Version 3.4.14

  • Anschlüsse und Treiber: DynamoDB Connector 4.16.0

Neue Funktionen

Änderungen, Verbesserungen und behobene Probleme

  • Spark: Leistungsverbesserungen in der Spark-Laufzeitumgebung.

Bekannte Probleme

  • Maven-Artefakte von Amazon EMR 6.2.0 werden nicht veröffentlicht. Sie werden mit einer zukünftigen Version von Amazon EMR veröffentlicht.

  • Persistentes HFile-Tracking mit der HBase storefile-Systemtabelle unterstützt die HBase-Regionsreplikationsfunktion nicht. Weitere Informationen zur HBase-Regionsreplikation finden Sie unter Timeline-consistent High Available Reads.

  • Versionsunterschiede bei Amazon EMR 6.x und EMR 5.x Hive Bucketing

    EMR 5.x verwendet OOS Apacke Hive 2, während in EMR 6.x OOS Apache Hive 3 verwendet wird. Der Open Source Hive2 verwendet Bucketing Version 1, während Open Source Hive3 Bucketing Version 2 verwendet. Diese unterschiedliche Bucketing-Version zwischen Hive 2 (EMR 5.x) und Hive 3 (EMR 6.x) bedeutet, dass Hive-Bucketing-Hashing-anders funktioniert. Sehen Sie sich das folgende Beispiel an.

    Die folgende Tabelle ist ein Beispiel, das in EMR 6.x bzw. EMR 5.x erstellt wurde.

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    Einfügen der gleichen Daten sowohl in EMR 6.x als auch in EMR 5.x.

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    Bei Überprüfen des S3-Speicherorts wird ersichtlich, dass der Bucketing-Dateiname anders lautet, da die Hashing-Funktion zwischen EMR 6.x (Hive 3) und EMR 5.x (Hive 2) unterschiedlich ist.

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    Sie können den Versionsunterschied auch anzeigen, indem Sie den folgenden Befehl in der Hive CLI in EMR 6.x ausführen. Beachten Sie, dass es Bucketing-Version 2 zurückgibt.

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...

6.2.0 Komponentenversionen

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und Funktionen installiert. Diese beginnen in der Regel mit emr oder aws. Big-Data-Anwendungspakete in der aktuellsten Amazon EMR-Version sind in der Regel die aktuelle Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente Version Beschreibung
aws-sagemaker-spark-sdk 1.4.1 Spark-SDK für SageMaker
emr-ddb 4.16.0 Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies 3.1.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.5.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-notebook-env 1.0.0 Conda env für emr Notebook, das das Jupyter Enterprise Gateway enthält
emr-s3-dist-cp 2.16.0 Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
emr-s3-select 2.0.0 EMR-S3Select-Konnektor
emrfs 2.44.0 – Amazon S3-Konnektor für Anwendungen aus dem Hadoop-Ökosystem.
flink-client 1.11.2 Apache Flink-Clientskripts und -Anwendungen für die Befehlszeile.
flink-Auftragsmanager-Konfiguration 1.11.2 Verwalten von Ressourcen auf EMR-Knoten für Apache Flink JobManager.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 3.2.1-Amzn-2 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 3.2.1-Amzn-2 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 3.2.1-Amzn-2 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 3.2.1-Amzn-2 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 3.2.1-Amzn-2 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 3.2.1-Amzn-2 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 3.2.1-Amzn-2 Der Server für die Verwaltung kryptographischer Schlüssel, der auf der Hadoop-API KeyProvider basiert.
hadoop-mapred 3.2.1-Amzn-2 MapReduce-Ausführungs-Engine-Bibliotheken für die Ausführung einer MapReduce-Anwendung.
hadoop-yarn-nodemanager 3.2.1-Amzn-2 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 3.2.1-Amzn-2 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 3.2.1-Amzn-2 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 2.2.6-Amzn-0 Service für einen HBase-Cluster, der für die Koordination der Regionen und die Ausführung von administrativen Befehlen verantwortlich ist.
hbase-region-server 2.2.6-Amzn-0 Service für die Bereitstellung einer oder mehrerer HBase-Regionen.
hbase-client 2.2.6-Amzn-0 HBase-Befehlszeilen-Client.
hbase-rest-server 2.2.6-Amzn-0 Service, der einen RESTful-HTTP-Endpunkt für HBase bereitstellt.
hbase-thrift-server 2.2.6-Amzn-0 Service, der einen Thrift-Endpunkt für HBase bereitstellt.
hcatalog-client 3.1.2-Amzn-3 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 3.1.2-Amzn-3 Servicebereitstellung von HCatalog, einer Tabellen- und Speicherverwaltungsebene für verteilte Anwendungen.
hcatalog-webhcat-server 3.1.2-Amzn-3 HTTP-Endpunkt, der eine REST-Schnittstelle zu HCatalog bereitstellt.
hive-client 3.1.2-Amzn-3 Hive-Befehlszeilen-Client.
hive-hbase 3.1.2-Amzn-3 Hive-hbase client.
hive-metastore-server 3.1.2-Amzn-3 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 3.1.2-Amzn-3 Service zur Annahme von Hive-Abfragen als Webanfragen.
Hudi 0.6.0-Amzn-1 Inkrementelles Verarbeitungs-Framework zur Stromversorgung der Datenpipline bei geringer Latenz und hoher Effizienz.
Hudi-Presto 0.6.0-Amzn-1 Bundle-Bibliothek zum Ausführen von Presto mit Hudi.
Hudi-Prestosql 0.6.0-Amzn-1 Bundle-Bibliothek für die Ausführung von PrestoSQL mit Hudi.
Hudi-Spark 0.6.0-Amzn-1 Bundle-Bibliothek für die Ausführung von Spark mit Hudi.
hue-server 4.8.0 Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 1.1.0 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.7.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mxnet 1.7.0 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.
mariadb-server 5.5.64+ MariaDB-Datenbankserver.
nvidia-cuda 10.1.243 Nvidia-Treiber und Cuda-Toolkit
oozie-client 5.2.0 Oozie-Befehlszeilen-Client.
oozie-server 5.2.0 Service für die Annahme von Oozie Workflow-Anforderungen.
opencv 4.4.0 Open Source Computer Vision Library.
phoenix-library 5.0.0-HBase-2.0 Die Phoenix-Bibliotheken für den Server und den Client
phoenix-query-server 5.0.0-HBase-2.0 Ein schlanker Server für den Zugriff auf JDBC und Protokollpuffer sowie den Zugriff auf die Avatica-API über das JSON-Format.
presto-coordinator 0,333.3-amzn-1 Service zur Annahme von Abfragen und die Verwaltung der Abfrageausführung der Presto-Worker.
presto-worker 0,333.3-amzn-1 Service für das Ausführen von Teilen einer Abfrage.
presto-client 0,333.3-amzn-1 Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
Prestosql-Koordinator 343 Service für die Annahme von Abfragen und die Verwaltung der Abfrageausführung zwischen Prestosql-Workern.
Prestosql-Worker 343 Service für das Ausführen von Teilen einer Abfrage.
Prestosql-Client 343 Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
pig-client 0.17.0 Pig-Befehlszeilen-Client.
r 3.4.3 The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
ranger-kms-server 2.0.0 Apache Ranger Key Management System
spark-client 3.0.1-Amzn-0 Spark-Befehlszeilen-Clients.
spark-history-server 3.0.1-Amzn-0 Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn 3.0.1-Amzn-0 In-Memory-Ausführungs-Engine für YARN.
spark-yarn-slave 3.0.1-Amzn-0 Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
Spark-rapids 0.2.0 Nvidia Spark-RAPIDS-Plugin, das Apache Spark mit GPUs beschleunigt.
sqoop-client 1.4.7 Apache Sqoop-Befehlszeilen-Client.
tensorflow 2.3.1 TensorFlow Open-Source-Softwarebibliothek für numerische Berechnungen mit hoher Leistung.
tez-on-yarn 0.9.2 Die Tez-YARN-Anwendung und -Bibliotheken.
webserver 2.4.41+ Apache HTTP-Server.
zeppelin-server 0.9.0-Vorversion1 Webbasiertes Notizbuch, das interaktive Datenanalysen ermöglicht.
zookeeper-server 3.4.14 Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client 3.4.14 ZooKeeper-Befehlszeilen-Client.

6.2.0 Konfigurationsklassifizierungen

Konfigurationsklassifizierungen ermöglichen es Ihnen, Anwendungen anzupassen. Diese entsprechen oft einer XML-Konfigurationsdatei für die Anwendung, wie z. B. hive-site.xml. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

emr-6.2.0-Klassifizierungen
Klassifizierungen Beschreibung

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

container-executor

Ändern Sie die Werte in der Datei „container-executor.cfg“ Datei von Hadoop YARN.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

Docker-Konfiguration

Docker-bezogene Einstellungen ändern.

emrfs-site

Ändert die EMRFS-Einstellungen.

flink-conf

Ändert die flink-conf.yaml-Einstellungen.

flink-log4j

Ändert die log4j.properties-Einstellungen für Flink.

flink-log4j-yarn-session

Ändert die log4j-yarn-session.properties-Einstellungen für Flink.

flink-log4j-cli

Ändert die log4j-cli.properties-Einstellungen für Flink.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

hbase

Von Amazon EMR zusammengestellte Einstellungen für Apache HBase.

hbase-env

Ändert die Werte in der HBase-Umgebung.

hbase-log4j

Ändert die Werte in der hbase-log4j.properties-Datei in HBase.

hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in HBase.

hbase-policy

Ändert die Werte in der hbase-policy.xml-Datei in HBase.

hbase-site

Ändert die Werte in der hbase-site.xml-Datei in HBase.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

hdfs-env

Ändert die Werte in der HDFS-Umgebung.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

hcatalog-env

Ändert die Werte in der HCatalog-Umgebung.

hcatalog-server-jndi

Ändert die Werte in der jndi.properties-Datei von HCatalog.

hcatalog-server-proto-hive-site

Ändert die Werte in der proto-hive-site.xml-Datei in HCatalog.

hcatalog-webhcat-env

Ändert die Werte in der HCatalog WebHCat-Umgebung.

hcatalog-webhcat-log4j2

Ändert die Werte in der Datei "log4j2.properties" in HCatalog WebHCat.

hcatalog-webhcat-site

Ändert die Werte in der webhcat-site.xml-Datei in HCatalog WebHCat.

Hive

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Hive.

hive-beeline-log4j2

Ändert die Werte in der beeline-log4j2.properties-Datei in Hive.

hive-parquet-logging

Ändert die Werte in der parquet-logging.properties-Datei in Hive.

hive-env

Ändert die Werte in der Hive-Umgebung.

hive-exec-log4j2

Ändert die Werte in der hive-exec-log4j2.properties-Datei in Hive.

hive-llap-daemon-log4j2

Ändert die Werte in der llap-daemon-log4j2.properties-Datei in Hive.

hive-log4j2

Ändert die Werte in der hive-log4j2.properties-Datei in Hive.

hive-site

Ändert die Werte in der hive-site.xml-Datei in Hive.

hiveserver2-site

Ändert die Werte in der hiveserver2-site.xml-Datei von Server2 in Hive.

hue-ini

Ändert die Werte in der INI-Datei in Hue.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

hudi-env

Ändern der Werte in der Hudi-Umgebung.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

jupyter-hub-conf

Ändert die Werte in der jupyterhub_config.py-Datei in JupyterHubs.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

livy-env

Ändert die Werte in der Livy-Umgebung.

livy-log4j

Ändert die log4j.properties-Einstellungen für Livy.

mapred-env

Ändert die Werte in der MapReduce-Anwendungsumgebung.

mapred-site

Ändert die Werte in der mapred-site.xml-Datei der MapReduce-Anwendung.

oozie-env

Ändert die Werte in der Oozie-Umgebung.

oozie-log4j

Ändert die Werte in der oozie-log4j.properties-Datei in Oozie.

oozie-site

Ändert die Werte in der oozie-site.xml-Datei in Oozie.

phoenix-hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in Phoenix.

phoenix-hbase-site

Ändert die Werte in der hbase-site.xml-Datei in Phoenix.

phoenix-log4j

Ändert die Werte in der log4j.properties-Datei in Phoenix.

phoenix-metrics

Ändert die Werte in der hadoop-metrics2-phoenix.properties-Datei in Phoenix.

pig-env

Ändert die Werte in der Pig-Umgebung.

pig-properties

Ändert die Werte in der pig.properties-Datei in Pig.

pig-log4j

Ändert die Werte in der log4j.properties-Datei in Pig.

presto-log

Ändert die Werte in der log.properties-Datei in Presto.

presto-config

Ändert die Werte in der config.properties-Datei in Presto.

presto-password-authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

presto-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

presto-node

Ändern Sie die Werte in der node.properties-Datei in Presto.

presto-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in Presto.

presto-connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in Presto.

presto-connector-hive

Ändert die Werte in der hive.properties-Datei in Presto.

presto-connector-jmx

Ändert die Werte in der jmx.properties-Datei in Presto.

presto-connector-kafka

Ändert die Werte in der kafka.properties-Datei in Presto.

presto-connector-localfile

Ändert die Werte in der localfile.properties-Datei in Presto.

presto-connector-memory

Ändert die Werte in der memory.properties-Datei in Presto.

presto-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in Presto.

presto-connector-mysql

Ändert die Werte in der mysql.properties-Datei in Presto.

presto-connector-postgresql

Ändert die Werte in der postgresql.properties-Datei in Presto.

presto-connector-raptor

Ändert die Werte in der raptor.properties-Datei in Presto.

presto-connector-redis

Ändert die Werte in der redis.properties-Datei in Presto.

presto-connector-redshift

Ändert die Werte in der redshift.properties-Datei.

presto-connector-tpch

Ändert die Werte in der tpch.properties-Datei in Presto.

presto-connector-tpcds

Ändert die Werte in der tpcds.properties-Datei in Presto.

Prestosql-Protokoll

Ändert die Werte in der log.properties-Datei in Presto.

Prestosql-Konfiguration

Ändert die Werte in der config.properties-Datei in Presto.

Prestosql-Passwort-Authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

Prestosql-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

Prestosql-Knoten

Ändert die Werte in der node.properties-Datei in PrestoSQL.

prestosql-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in PrestoSQL.

Prestosql-Connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in PrestoSQL.

Prestosql-Connector-hive

Ändert die Werte in der hive.properties-Datei in PrestoSQL.

Prestosql-Connector-jmx

Ändert die Werte in der jmx.properties-Datei in PrestoSQL.

prestosql-connector-kafka

Ändert die Werte in der kafka.properties-Datei in PrestoSQL.

Prestosql-Connector-Localfile

Ändert die Werte in der localfile.properties-Datei in PrestoSQL.

Prestosql-Connector-Speicher

Ändert die Werte in der memory.properties-Datei in PrestoSQL.

prestosql-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in PrestoSQL.

Prestosql-Konnektor-mysql

Ändert die Werte in der mysql.properties-Datei in PrestoSQL.

Prestosql-Konnektor-postgresql

Ändert die Werte in der postgresql.properties-Datei in PrestoSQL.

Prestosql-Connector-raptor

Ändert die Werte in der PrestoSQL-Datei "raptor.properties".

Prestosql-Konnektor-Redis

Ändert die Werte in der redis.properties-Datei in PrestoSQL.

Prestosql-Konnektor-redshift

Ändert die Werte in der redshift.properties-Datei in PrestoSQL.

Prestosql-Connector-tpch

Ändert die Werte in der tpch.properties-Datei in PrestoSQL.

Prestosql-Konnektor-Tpcds

Ändert die Werte in der tpcds.properties-Datei in PrestoSQL.

ranger-kms-dbks-site

Ändert die Werte in der dbks-site.xml-Datei von Ranger KMS.

ranger-kms-site

Ändert die Werte in der ranger-kms-site.xml-Datei von Ranger KMS.

ranger-kms-env

Ändert die Werte in der Ranger KMS-Umgebung.

ranger-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei von Ranger KMS.

ranger-kms-db-ca

Ändert die Werte für die CA-Datei in S3 für die MySQL-SSL-Verbindung mit Ranger KMS.

spark

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Spark.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

spark-env

Ändert die Werte in der Spark-Umgebung.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

spark-log4j

Ändert die Werte in der log4j.properties-Datei in Spark.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

sqoop-env

Ändert die Werte in der Sqoop-Umgebung.

sqoop-oraoop-site

Ändert die Werte in der oraoop-site.xml-Datei in Sqoop OraOop.

sqoop-site

Ändert die Werte in der sqoop-site.xml in Sqoop.

tez-site

Ändert die Werte in der tez-site.xml-Datei in Tez.

yarn-env

Ändert die Werte in der YARN-Umgebung.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

zeppelin-env

Ändert die Werte in der Zeppelin-Umgebung.

zookeeper-config

Ändert die Werte in der zoo.cfg-Datei in ZooKeeper.

zookeeper-log4j

Ändert die Werte in der log4j.properties-Datei in ZooKeeper.

6.1.0

6.1.0-Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: Blinken, , und Sie haben die Möglichkeit Ganglia (Ganglien), , und Sie haben die Möglichkeit Veranstaltungsraum "Hadoop", , und Sie haben die Möglichkeit H-Grundlage, , und Sie haben die Möglichkeit H-Katalogeintrag, , und Sie haben die Möglichkeit Bienenstock, , und Sie haben die Möglichkeit Farbton, , und Sie haben die Möglichkeit Veranstaltungsraum "JupyterHub", , und Sie haben die Möglichkeit Livy (Flüssigkeit), , und Sie haben die Möglichkeit MXNet (MX-Netzwerk), , und Sie haben die Möglichkeit Veranstaltungsraum "Oozie", , und Sie haben die Möglichkeit Veranstaltungsraum "Phoen, , und Sie haben die Möglichkeit Schweinchen, , und Sie haben die Möglichkeit Veranstaltungsraum "Presto", , und Sie haben die Möglichkeit PrestoSQL (vorherige Qualitätsprüfung), , und Sie haben die Möglichkeit Funkenflug, , und Sie haben die Möglichkeit Sqoop (Schrägwinkel), , und Sie haben die Möglichkeit Tensordurchfluss, , und Sie haben die Möglichkeit Veranstaltungsraum "Tez", , und Sie haben die Möglichkeit Veranstaltungsraum "Zeppelin", und ZooKeeper (Keeper).

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

6.1.0 Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zu Amazon EMR Version 6.1.0. Änderungen beziehen sich auf Version 6.0.0.

Erstveröffentlichung: 04. September 2020

Letzte Aktualisierung: 15. Okt. 2020

Unterstützte Anwendungen

  • AWS SDK for Java Version 1.11.828

  • Flink-Version 1.11.0

  • Ganglia Version 3.7.2

  • Hadoop Version 3.2.1-amzn-1

  • HBase Version 2.2.5

  • HBase-operator-tools 1.0.0

  • HCatalog Version 3.1.2-amzn-0

  • Hive Version 3.1.2-amzn-1

  • Hudi Version 0.5.2-incubating

  • Hue Version 4.7.1

  • JupyterHub Version 1.1.0

  • Livy Version 0.7.0

  • MXNet Version 1.6.0

  • Oozie Version 5.2.0

  • Phoenix Version 5.0.0

  • Presto Version 0.232

  • PrestoSQL Version 338

  • Spark Version 3.0.0

  • TensorFlow Version 2.1.0

  • Zeppelin Version 0.9.0-preview1

  • Zookeeper Version 3.4.14

  • Anschlüsse und Treiber: DynamoDB Connector 4.14.0

Neue Funktionen

  • ARM-Instance-Typen werden ab Amazon EMR Version 5.30.0 und Amazon EMR Version 6.1.0 unterstützt.

  • M6g-Allzweck-Instance-Typen werden ab Amazon EMR Version 6.1.0 und 5.31.0 unterstützt. Weitere Informationen finden Sie unter Unterstützte Instance-Typen im Management Guide für Amazon EMR.

  • Die EC2-Platzierungsgruppen-Funktion wird ab Amazon EMR-Version 5.23.0 als Option für mehrere Master-Knoten-Cluster unterstützt. Zurzeit werden nur Master-Knotentypen von der Platzierungsgruppen-Funktion unterstützt, und die SPREAD-Strategie wird auf diese Master-Knoten angewendet. Die SPREAD-Strategie platziert eine kleine Gruppe von Instances auf separate zugrunde liegende Hardware, um den Verlust mehrerer Master-Knoten im Falle eines Hardwarefehlers zu schützen. Weitere Informationen finden Sie unter EMR-Integration mit EC2-Platzierungsgruppe im Management Guide für Amazon EMR.

  • Verwaltete Skalierung – Mit Amazon EMR ab Version 6.1.0 können Sie die verwaltete EMR-Skalierung aktivieren, um die Anzahl der Instances oder Einheiten in Ihrem Cluster abhängig vom Workload automatisch zu erhöhen oder zu verringern. EMR wertet Cluster-Metriken kontinuierlich aus, um Skalierungsentscheidungen zu treffen, die Ihre Cluster für Kosten und Geschwindigkeit optimieren. Managed Scaling ist auch für Amazon EMR Version 5.30.0 und höher verfügbar, außer 6.0.0. Weitere Informationen finden Sie unter Skalieren von Cluster-Ressourcen im Management Guide für Amazon EMR.

  • PrestoSQL Version 338 wird mit EMR 6.1.0 unterstützt. Weitere Informationen finden Sie unter Presto.

    • PrestoSQL wird nur unter EMR 6.1.0 und höheren Versionen unterstützt, nicht unter EMR 6.0.0 oder EMR 5.x.

    • Der Anwendungsname Presto wird weiterhin verwendet, um PrestoDB auf Clustern zu installieren. Um PrestoSQL auf Clustern zu installieren, verwenden Sie den Anwendungsnamen PrestoSQL.

    • Sie können PrestoDB oder PrestoSQL installieren. Sie können jedoch nicht beide Anwendungen auf einem einzigen Cluster installieren. Wenn sowohl PrestoDB als auch PrestoSQL beim Erstellen eines Clusters angegeben werden, tritt ein Validierungsfehler auf, und die Anforderung zur Clustererstellung schlägt fehl.

    • PrestoSQL wird sowohl auf Single-Master- als auch Multi-Master-Clustern unterstützt. Auf Multi-Master-Clustern ist ein externer Hive-Metastore erforderlich, um PrestoSQL oder PrestoDB auszuführen. Weitere Informationen finden Sie unter Unterstützte Anwendungen in einem EMR-Cluster mit mehreren Master-Knoten.

  • Unterstützung der automatischen ECR-Authentifizierung auf Apache Hadoop und Apache Spark mit Docker: Spark-Benutzer können Docker-Images aus Docker Hub und Amazon Elastic Container Registry (Amazon ECR) verwenden, um Umgebungs- und Bibliotheksabhängigkeiten zu definieren.

    Konfigurieren Sie Docker und führen Sie Spark-Anwendungen mit Docker unter Amazon EMR 6.x aus.

  • EMR unterstützt Apache Hive ACID-Transaktionen: Amazon EMR 6.1.0 fügt Unterstützung für Hive ACID-Transaktionen hinzu, um den ACID-Eigenschaften einer Datenbank zu entsprechen. Mit dieser Funktion können Sie INSERT-, UPDATE-, DELETE- und MERGE-Operationen in Hive-verwalteten Tabellen mit Daten in Amazon Simple Storage Service (Amazon S3) ausführen. Dies ist eine Schlüsselfunktion für Anwendungsfälle wie Streaming-Aufnahme, Datenumformulierungen, Massenaktualisierungen mit MERGE und sich langsam verändernde Dimensionen. Weitere Informationen einschließlich Konfigurationsbeispielen und Anwendungsfällen finden Sie unter Amazon EMR unterstützt Apache Hive ACID-Transaktionen.

Änderungen, Verbesserungen und behobene Probleme

  • Apache Flink wird unter EMR 6.0.0 nicht unterstützt, unter EMR 6.1.0 mit Flink 1.11.0 jedoch unterstützt. Dies ist die erste Version von Flink, die Hadoop 3 offiziell unterstützt. Weitere Informationen finden Sie unter Apache Flink 1.11.0-Versionsankündigung.

  • Ganglia wurde aus den EMR 6.1.0-Standardpaketen entfernt.

Bekannte Probleme

  • Wenn Sie eine benutzerdefinierte Speicherbereinigungskonfiguration mit spark.driver.extraJavaOptions und spark.executor.extraJavaOptions festlegen, führt dies zu aufgrund einer widersprüchlichen Speicherbereinigungskonfiguration zu einem Fehler beim Starten des Treibers/Executors mit EMR 6.1. Mit EMR Version 6.1.0 sollten Sie stattdessen eine benutzerdefinierte Spark-Speicherbereinigungskonfiguration für Treiber und Executors mit den Eigenschaften spark.driver.defaultJavaOptions und spark.executor.defaultJavaOptions angeben. Weitere Informationen finden Sie unter Apache Spark-Laufzeitumgebung und Konfigurieren der Spark-Speicherbereinigung in Amazon EMR 6.1.0.

  • Wenn Sie Pig mit Oozie verwenden (und innerhalb von Hue, da Hue Oozie-Aktionen zum Ausführen von Pig-Skripts verwendet), wird die Fehlermeldung angezeigt, dass eine native-lzo-Bibliothek nicht geladen werden kann. Diese Fehlermeldung dient Informationszwecken und blockiert die Ausführung von Pig nicht.

  • Hudi-Gleichzeitigkeitsunterstützung: Zurzeit unterstützt Hudi keine gleichzeitigen Schreibvorgänge in einer einzelnen Hudi-Tabelle. Darüber hinaus setzt Hudi alle Änderungen zurück, die von zurzeit ausgeführten Writern durchgeführt werden, bevor ein neuer Writer gestartet werden kann. Gleichzeitige Schreibvorgänge können mit diesem Mechanismus konkurrieren und Race-Bedingungen schaffen, was zu Datenbeschädigungen führen kann. Sie sollten sicherstellen, dass im Rahmen Ihres Datenverarbeitungs-Workflows stets nur ein einziger Hudi-Writer in einer Hudi-Tabelle arbeitet. Hudi unterstützt jedoch mehrere gleichzeitige Reader, die in derselben Hudi-Tabelle arbeiten.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

6.1.0-Komponentenversionen

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und Funktionen installiert. Diese beginnen in der Regel mit emr oder aws. Big-Data-Anwendungspakete in der aktuellsten Amazon EMR-Version sind in der Regel die aktuelle Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente Version () Description (Beschreibung)
aws-sagemaker-spark-sdk 1.3.0 Amazon SageMaker Spark SDK
emr-ddb 4.14.0 Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies 3.1.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.5.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-s3-dist-cp 2.14.0 Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
emr-s3-select 2.0.0 EMR S3Select-Konnektor
emrfs Abschnitt 2,42.0 Amazon S3-Konnektor für Anwendungen aus dem Hadoop-Ökosystem.
flink-client 1.11.0 Apache Flink-Clientskripts und -Anwendungen für die Befehlszeile.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 3.2.1-Schicht-1 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 3.2.1-Schicht-1 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 3.2.1-Schicht-1 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 3.2.1-Schicht-1 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 3.2.1-Schicht-1 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 3.2.1-Schicht-1 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 3.2.1-Schicht-1 Kryptografischer Schlüsselverwaltungsserver auf Basis der KeyProvider-API von Hadoop.
hadoop-mapred 3.2.1-Schicht-1 Engine-Bibliotheken zur MapReduce-Ausführung für die Ausführung einer MapReduce-Anwendung.
hadoop-yarn-nodemanager 3.2.1-Schicht-1 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 3.2.1-Schicht-1 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 3.2.1-Schicht-1 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 2.2.5 Service für einen HBase-Cluster, der für die Koordinierung der Regionen und die Ausführung von administrativen Befehlen zuständig ist.
hbase-region-server 2.2.5 Service für die Bereitstellung einer oder mehrerer HBase-Regionen.
hbase-client 2.2.5 HBase-Befehlszeilen-Client.
hbase-rest-server 2.2.5 Service, der einen RESTful-HTTP-Endpunkt für HBase bereitstellt.
hbase-thrift-server 2.2.5 Service, der einen Thrift-Endpunkt für HBase bereitstellt.
hcatalog-client 3.1.2-schätzig-2 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 3.1.2-schätzig-2 Service, der HCatalog bereitstellt (ein Tabellen- und Speicherverwaltungs-Layer für verteilte Anwendungen).
hcatalog-webhcat-server 3.1.2-schätzig-2 HTTP-Endpunkt, der eine REST-Schnittstelle für HCatalog bereitstellt.
hive-client 3.1.2-schätzig-2 Hive-Befehlszeilen-Client.
hive-hbase 3.1.2-schätzig-2 Hive-hbase client.
hive-metastore-server 3.1.2-schätzig-2 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 3.1.2-schätzig-2 Service zur Annahme von Hive-Abfragen als Webanfragen.
Hudi 0,5,2-inkubierend-amzn-2 Inkrementelles Verarbeitungs-Framework zur Stromversorgung der Datenpipline bei geringer Latenz und hoher Effizienz.
Hudi-Presto 0,5,2-inkubierend-amzn-2 Bundle-Bibliothek zum Ausführen von Presto mit Hudi.
vorher-vorher-vorher-hinten 0,5,2-inkubierend-amzn-2 Bündeln Sie die Bibliothek für die Ausführung von PrestoSQL mit Hudi.
hudi-funke 0,5,2-inkubierend-amzn-2 Bündelbibliothek für die Ausführung von Spark mit Hudi.
hue-server 4.7.1 (Vorhersorge) Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 1.1.0 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.7.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mxnet 1.6.0 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.
mariadb-server 5.5.64 MariaDB-Datenbankserver.
nvidia-cuda 9.2.88 Nvidia-Treiber und Cuda-Toolkit
oozie-client 5.2.0 Oozie-Befehlszeilen-Client.
oozie-server 5.2.0 Service für die Annahme von Oozie Workflow-Anforderungen.
opencv 4.3.0 Open Source Computer Vision Library.
phoenix-library 5.0.0-HBase-2.0 Die Phoenix-Bibliotheken für den Server und den Client
phoenix-query-server 5.0.0-HBase-2.0 Ein schlanker Server für den Zugriff auf JDBC und Protokollpuffer sowie den Zugriff auf die Avatica-API über das JSON-Format.
presto-coordinator 0.232 Service zur Annahme von Abfragen und die Verwaltung der Abfrageausführung der Presto-Worker.
presto-worker 0.232 Service für das Ausführen von Teilen einer Abfrage.
presto-client 0.232 Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
prestosql-koordinator (voreingestellter Koordinator) Veranstaltungsraum "338" Service für die Annahme von Abfragen und die Verwaltung der Abfrageausführung unter prestosql-workers.
prestosql-arbeiter Veranstaltungsraum "338" Service für das Ausführen von Teilen einer Abfrage.
prestosql-client (vorsichtsvoller Kunde) Veranstaltungsraum "338" Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
pig-client 0.17.0 Pig-Befehlszeilen-Client.
\r 3.4.3 The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
ranger-kms-server 2.0.0 Apache Ranger Key Management System
spark-client 3.0.0-amzn-0 (Durchschnittsgeschwindigkeit von 3,0.0-amzn-0) Spark-Befehlszeilen-Clients.
spark-history-server 3.0.0-amzn-0 (Durchschnittsgeschwindigkeit von 3,0.0-amzn-0) Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn 3.0.0-amzn-0 (Durchschnittsgeschwindigkeit von 3,0.0-amzn-0) In-Memory-Ausführungs-Engine für YARN.
spark-yarn-slave 3.0.0-amzn-0 (Durchschnittsgeschwindigkeit von 3,0.0-amzn-0) Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
sqoop-client 1.4.7 Apache Sqoop-Befehlszeilen-Client.
tensorflow 2.1.0 TensorFlow-Open-Source-Softwarebibliothek für numerische Berechnungen mit hoher Leistung.
tez-on-yarn 0.9.2 Die Tez-YARN-Anwendung und -Bibliotheken.
webserver 2.4.41+ Apache HTTP-Server.
zeppelin-server 0.9.0-Vorschau1 Webbasiertes Notizbuch, das interaktive Datenanalysen ermöglicht.
zookeeper-server 3.4.14 Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client 3.4.14 ZooKeeper-Befehlszeilen-Client.

6.1.0-Konfigurationsklassifizierungen

Konfigurationsklassifizierungen ermöglichen es Ihnen, Anwendungen anzupassen. Diese entsprechen oft einer XML-Konfigurationsdatei für die Anwendung, wie z. B. hive-site.xml. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

emr-6.1.0 Klassifizierungen
Klassifizierungen Description (Beschreibung)

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

container-executor

Ändern Sie die Werte in der Datei „container-executor.cfg“ Datei von Hadoop YARN.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

emrfs-site

Ändert die EMRFS-Einstellungen.

flink-conf

Ändert die flink-conf.yaml-Einstellungen.

flink-log4j

Ändert die log4j.properties-Einstellungen für Flink.

flink-log4j-yarn-session

Ändert die log4j-yarn-session.properties-Einstellungen für Flink.

flink-log4j-cli

Ändert die log4j-cli.properties-Einstellungen für Flink.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

hbase

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache HBase.

hbase-env

Ändert die Werte in der HBase-Umgebung.

hbase-log4j

Ändert die Werte in der hbase-log4j.properties-Datei in HBase.

hbase-metrics

Ändern Sie die Werte in der hadoop-metrics2-hbase.properties-Datei in HBase.

hbase-policy

Ändert die Werte in der hbase-policy.xml-Datei in HBase.

hbase-site

Ändert die Werte in der hbase-site.xml-Datei in HBase.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

hdfs-env

Ändert die Werte in der HDFS-Umgebung.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

hcatalog-env

Ändert die Werte in der HCatalog-Umgebung.

hcatalog-server-jndi

Ändert die Werte in der jndi.properties-Datei von HCatalog.

hcatalog-server-proto-hive-site

Ändert die Werte in der proto-hive-site.xml-Datei von HCatalog.

hcatalog-webhcat-env

Ändert die Werte in der WebHCat-Umgebung von HCatalog.

hcatalog-webhcat-log4j2

Ändert die Werte in der log4j2.properties-Datei von WebHCat in HCatalog.

hcatalog-webhcat-site

Ändert die Werte in der webhcat-site.xml-Datei von WebHCat in HCatalog.

Hive

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Hive.

hive-beeline-log4j2

Ändert die Werte in der beeline-log4j2.properties-Datei in Hive.

hive-parquet-logging

Ändert die Werte in der parquet-logging.properties-Datei in Hive.

hive-env

Ändert die Werte in der Hive-Umgebung.

hive-exec-log4j2

Ändert die Werte in der hive-exec-log4j2.properties-Datei in Hive.

hive-llap-daemon-log4j2

Ändert die Werte in der llap-daemon-log4j2.properties-Datei in Hive.

hive-log4j2

Ändert die Werte in der hive-log4j2.properties-Datei in Hive.

hive-site

Ändert die Werte in der hive-site.xml-Datei in Hive.

hiveserver2-site

Ändert die Werte in der hiveserver2-site.xml-Datei von Server2 in Hive.

hue-ini

Ändert die Werte in der INI-Datei in Hue.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

hudi-env

Ändern der Werte in der Hudi-Umgebung.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

jupyter-hub-conf

Ändert die Werte in der jupyterhub_config.py-Datei in JupyterHubs.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

livy-env

Ändert die Werte in der Livy-Umgebung.

livy-log4j

Ändert die log4j.properties-Einstellungen für Livy.

mapred-env

Ändert die Werte in der MapReduce-Anwendungsumgebung.

mapred-site

Ändert die Werte in der mapred-site.xml-Datei der MapReduce-Anwendung.

oozie-env

Ändert die Werte in der Oozie-Umgebung.

oozie-log4j

Ändert die Werte in der oozie-log4j.properties-Datei in Oozie.

oozie-site

Ändert die Werte in der oozie-site.xml-Datei in Oozie.

phoenix-hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in Phoenix.

phoenix-hbase-site

Ändert die Werte in der hbase-site.xml-Datei in Phoenix.

phoenix-log4j

Ändert die Werte in der log4j.properties-Datei in Phoenix.

phoenix-metrics

Ändert die Werte in der hadoop-metrics2-phoenix.properties-Datei in Phoenix.

pig-env

Ändert die Werte in der Pig-Umgebung.

pig-properties

Ändert die Werte in der pig.properties-Datei in Pig.

pig-log4j

Ändert die Werte in der log4j.properties-Datei in Pig.

presto-log

Ändert die Werte in der log.properties-Datei in Presto.

presto-config

Ändert die Werte in der config.properties-Datei in Presto.

presto-password-authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

presto-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

presto-node

Ändern Sie die Werte in der node.properties-Datei in Presto.

presto-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in Presto.

presto-connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in Presto.

presto-connector-hive

Ändert die Werte in der hive.properties-Datei in Presto.

presto-connector-jmx

Ändert die Werte in der jmx.properties-Datei in Presto.

presto-connector-kafka

Ändert die Werte in der kafka.properties-Datei in Presto.

presto-connector-localfile

Ändert die Werte in der localfile.properties-Datei in Presto.

presto-connector-memory

Ändert die Werte in der memory.properties-Datei in Presto.

presto-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in Presto.

presto-connector-mysql

Ändert die Werte in der mysql.properties-Datei in Presto.

presto-connector-postgresql

Ändert die Werte in der postgresql.properties-Datei in Presto.

presto-connector-raptor

Ändert die Werte in der raptor.properties-Datei in Presto.

presto-connector-redis

Ändert die Werte in der redis.properties-Datei in Presto.

presto-connector-redshift

Ändert die Werte in der redshift.properties-Datei.

presto-connector-tpch

Ändert die Werte in der tpch.properties-Datei in Presto.

presto-connector-tpcds

Ändert die Werte in der tpcds.properties-Datei in Presto.

prestosql-aufzeichnung

Ändert die Werte in der log.properties-Datei in Presto.

Prestosql-konfig.

Ändert die Werte in der config.properties-Datei in Presto.

prestosql-passwort-authentifizierung

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

prestosql-umgebung

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

prestosql-knoten

Ändern Sie die Werte in der Datei node.properties von PrestoSQL.

prestosql-anschluss-schwarzes-loch

Ändern Sie die Werte in der Datei blackhole.properties von PrestoSQL.

prestosql-anschluss-kassette

Ändern Sie die Werte in der Datei cassandra.properties von PrestoSQL.

prestosql-anschluss-stumpf

Ändern Sie die Werte in der hive.properties-Datei von PrestoSQL.

prestosql-anschluss-jmx

Ändern Sie die Werte in der Datei "jmx.properties" von PrestoSQL.

prestosql-anschluss-kaka

Ändern Sie die Werte in der Datei kafka.properties von PrestoSQL.

prestosql-anschluss-lokaldatei

Ändern Sie die Werte in der Datei localfile.properties von PrestoSQL.

prestosql-anschluss-speicher

Ändern Sie die Werte in der Datei memory.properties von PrestoSQL.

prestosql-anschluss-mongodb

Ändern Sie die Werte in der Datei mongodb.properties von PrestoSQL.

prestosql-anschluss-mysql

Ändern Sie die Werte in der Datei mysql.properties von PrestoSQL.

prestosql-anschluss-nachkommenql

Ändern Sie die Werte in der Datei postgresql.properties von PrestoSQL.

prestosql-anschluss-aufnehmer

Ändern Sie die Werte in der raptor.properties-Datei von PrestoSQL.

prestosql-anschluss-wiederholung

Ändern Sie die Werte in der prestoSQL-Datei redis.properties.

prestosql-anschluss-rotverschiebung

Ändern Sie die Werte in der Datei redshift.properties von PrestoSQL.

prestosql-anschluss-tpch

Ändern Sie die Werte in der Datei tpch.properties von PrestoSQL.

prestosql-anschluss-tpcds

Ändern Sie die Werte in der Datei tpcds.properties von PrestoSQL.

ranger-kms-dbks-site

Ändert die Werte in der dbks-site.xml-Datei von Ranger KMS.

ranger-kms-site

Ändert die Werte in der ranger-kms-site.xml-Datei von Ranger KMS.

ranger-kms-env

Ändert die Werte in der Ranger KMS-Umgebung.

ranger-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei von Ranger KMS.

ranger-kms-db-ca

Ändert die Werte für die CA-Datei auf S3 für die MySQL SSL-Verbindung mit Ranger KMS.

spark

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Spark.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

spark-env

Ändert die Werte in der Spark-Umgebung.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

spark-log4j

Ändert die Werte in der log4j.properties-Datei in Spark.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

sqoop-env

Ändert die Werte in der Sqoop-Umgebung.

sqoop-oraoop-site

Ändert die Werte in der oraoop-site.xml in Sqoop OraOop.

sqoop-site

Ändert die Werte in der sqoop-site.xml in Sqoop.

tez-site

Ändert die Werte in der tez-site.xml-Datei in Tez.

yarn-env

Ändert die Werte in der YARN-Umgebung.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

zeppelin-env

Ändert die Werte in der Zeppelin-Umgebung.

zookeeper-config

Ändert die Werte in der zoo.cfg-Datei in ZooKeeper.

zookeeper-log4j

Ändert die Werte in der log4j.properties-Datei in ZooKeeper.

6.0.0

6.0.0-Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, MXNet, Oozie, Phoenix, Presto, Spark, TensorFlow, Tez, Zeppelin und ZooKeeper.

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

6.0.0 Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 6.0.0.

Erste Version: 10. März 2020

Unterstützte Anwendungen

  • AWS SDK for Java Version 1.11.711

  • Ganglia Version 3.7.2

  • Hadoop Version 3.2.1

  • HBase Version 2.2.3

  • HCatalog Version 3.1.2

  • Hive Version 3.1.2

  • Hudi Version 0.5.0-incubating

  • Hue Version 4.4.0

  • JupyterHub Version 1.0.0

  • Livy Version 0.6.0

  • MXNet Version 1.5.1

  • Oozie Version 5.1.0

  • Phoenix Version 5.0.0

  • Presto Version 0.230

  • Spark Version 2.4.4

  • TensorFlow Version 1.14.0

  • Zeppelin Version 0.9.0-SNAPSHOT

  • Zookeeper Version 3.4.14

  • Anschlüsse und Treiber: DynamoDB Connector 4.14.0

Anmerkung

Flink, Sqoop, Pig und Mahout sind in Amazon EMR Version 6.0.0 nicht verfügbar.

Neue Funktionen

  • YARN Docker Runtime Support - YARN-Anwendungen, wie etwa Spark-Aufgaben, können jetzt im Kontext eines Docker-Containers ausgeführt werden. Dadurch können Sie ganz einfach Abhängigkeiten in einem Docker-Image definieren, ohne dass benutzerdefinierte Bibliotheken auf dem Amazon EMR-Cluster installiert werden müssen. Weitere Informationen finden Sie unter Konfigurieren der Docker-Integration und Ausführen von Spark-Anwendungen mit Docker mit Amazon EMR 6.0.0.

  • Unterstützung für Hive LLAP - Hive unterstützt jetzt den LLAP-Ausführungsmodus für eine verbesserte Abfrageleistung. Weitere Informationen finden Sie unter Verwenden von Hive LLAP.

Änderungen, Verbesserungen und behobene Probleme

  • Amazon Linux

    • Amazon Linux 2 ist das Betriebssystem für die EMR 6.x-Release-Serie.

    • systemd wird für die Serviceverwaltung statt upstart in Amazon Linux 1 verwendet.

  • Java Development Kit (JDK)

    • Coretto JDK 8 ist das Standard-JDK für die EMR 6.x-Release-Serie.

  • Scala

    • Scala 2.12 wird mit Apache Spark und Apache Livy verwendet.

  • Python 3

    • Python 3 ist jetzt die Standardversion von Python in EMR.

  • YARN-Knotenbeschriftungen

    • Beginnend mit der Amazon EMR 6.x-Release-Reihe ist die Funktion YARN-Knotenbeschriftungen standardmäßig deaktiviert. Die Anwendungs-Master-Prozesse können standardmäßig sowohl auf Kern- als auch auf Aufgabenknoten ausgeführt werden. Sie können die Funktion YARN-Knotenbeschriftungen aktivieren, indem Sie folgende Eigenschaften konfigurieren: yarn.node-labels.enabled und yarn.node-labels.am.default-node-label-expression. Weitere Informationen finden Sie unter Grundlegendes zu Master-, Kern- und Aufgabenknoten.

Bekannte Probleme

  • Die interaktive Spark-Shell, einschließlich PySpark, SparkR und Spark-Shell, unterstützt die Verwendung von Docker mit zusätzlichen Bibliotheken nicht.

  • Um Python 3 mit Amazon EMR-Version 6.0.0 zu verwenden, müssen Sie yarn.nodemanager.env-whitelist PATH hinzufügen.

  • Die Live Long and Process (LLAP)-Funktionalität wird nicht unterstützt, wenn Sie den AWS Glue-Datenkatalog als Metastore für Hive verwenden.

  • Wenn Sie Amazon EMR 6.0.0 mit der Spark- und Docker-Integration verwenden, müssen Sie die Instances in Ihrem Cluster mit dem gleichen Instance-Typ und der gleichen Menge an EBS-Volumes konfigurieren, um Fehler beim Senden eines Spark-Auftrags mit Docker-Laufzeit zu vermeiden.

  • In Amazon EMR 6.0.0 ist HBase im Amazon S3-Speichermodus vom HBASE-24286.-Problem betroffen. HBase Master kann nicht initialisiert werden, wenn der Cluster mit vorhandenen S3-Daten erstellt wird.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

6.0.0-Komponentenversionen

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und Funktionen installiert. Diese beginnen in der Regel mit emr oder aws. Big-Data-Anwendungspakete in der aktuellsten Amazon EMR-Version sind in der Regel die aktuelle Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente Version Beschreibung
aws-sagemaker-spark-sdk 1.2.6 Amazon SageMaker Spark SDK
emr-ddb 4.14.0 Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies 3.0.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.5.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-s3-dist-cp 2.14.0 Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
emr-s3-select 1.5.0 EMR S3Select-Konnektor
emrfs 2.39.0 Amazon S3-Connector für Anwendungen aus dem Hadoop-Ökosystem.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 3.2.1-amzn-0 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 3.2.1-amzn-0 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 3.2.1-amzn-0 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 3.2.1-amzn-0 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 3.2.1-amzn-0 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 3.2.1-amzn-0 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 3.2.1-amzn-0 Kryptografischer Schlüsselverwaltungsserver auf Basis der KeyProvider-API von Hadoop.
hadoop-mapred 3.2.1-amzn-0 Engine-Bibliotheken zur MapReduce-Ausführung für die Ausführung einer MapReduce-Anwendung.
hadoop-yarn-nodemanager 3.2.1-amzn-0 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 3.2.1-amzn-0 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 3.2.1-amzn-0 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 2.2.3 Service für einen HBase-Cluster, der für die Koordinierung der Regionen und die Ausführung von administrativen Befehlen zuständig ist.
hbase-region-server 2.2.3 Service für die Bereitstellung einer oder mehrerer HBase-Regionen.
hbase-client 2.2.3 HBase-Befehlszeilen-Client.
hbase-rest-server 2.2.3 Service, der einen RESTful-HTTP-Endpunkt für HBase bereitstellt.
hbase-thrift-server 2.2.3 Service, der einen Thrift-Endpunkt für HBase bereitstellt.
hcatalog-client 3.1.2-amzn-0 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 3.1.2-amzn-0 Service, der HCatalog bereitstellt (ein Tabellen- und Speicherverwaltungs-Layer für verteilte Anwendungen).
hcatalog-webhcat-server 3.1.2-amzn-0 HTTP-Endpunkt, der eine REST-Schnittstelle für HCatalog bereitstellt.
hive-client 3.1.2-amzn-0 Hive-Befehlszeilen-Client.
hive-hbase 3.1.2-amzn-0 Hive-hbase client.
hive-metastore-server 3.1.2-amzn-0 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 3.1.2-amzn-0 Service zur Annahme von Hive-Abfragen als Webanfragen.
Hudi 0.5.0-incubating-amzn-1 Inkrementelles Verarbeitungs-Framework zur Stromversorgung der Datenpipline bei geringer Latenz und hoher Effizienz.
Hudi-Presto 0.5.0-incubating-amzn-1 Bundle-Bibliothek zum Ausführen von Presto mit Hudi.
hue-server 4.4.0 Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 1.0.0 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.6.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mxnet 1.5.1 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.
mariadb-server 5.5.64+ MariaDB-Datenbankserver.
nvidia-cuda 9.2.88 Nvidia-Treiber und Cuda-Toolkit
oozie-client 5.1.0 Oozie-Befehlszeilen-Client.
oozie-server 5.1.0 Service für die Annahme von Oozie Workflow-Anforderungen.
opencv 3.4.0 Open Source Computer Vision Library.
phoenix-library 5.0.0-HBase-2.0 Die Phoenix-Bibliotheken für den Server und den Client
phoenix-query-server 5.0.0-HBase-2.0 Ein schlanker Server für den Zugriff auf JDBC und Protokollpuffer sowie den Zugriff auf die Avatica-API über das JSON-Format.
presto-coordinator 0.230 Service zur Annahme von Abfragen und die Verwaltung der Abfrageausführung der Presto-Worker.
presto-worker 0.230 Service für das Ausführen von Teilen einer Abfrage.
presto-client 0.230 Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
r 3.4.3 The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
spark-client 2.4.4 Spark-Befehlszeilen-Clients.
spark-history-server 2.4.4 Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn 2.4.4 In-Memory-Ausführungs-Engine für YARN.
spark-yarn-slave 2.4.4 Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
tensorflow 1.14.0 TensorFlow-Open-Source-Softwarebibliothek für numerische Berechnungen mit hoher Leistung.
tez-on-yarn 0.9.2 Die Tez-YARN-Anwendung und -Bibliotheken.
webserver 2.4.41+ Apache HTTP-Server.
zeppelin-server 0.9.0-SNAPSHOT Webbasiertes Notizbuch, das interaktive Datenanalysen ermöglicht.
zookeeper-server 3.4.14 Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client 3.4.14 ZooKeeper-Befehlszeilen-Client.

6.0.0-Konfigurationsklassifizierungen

Konfigurationsklassifizierungen ermöglichen es Ihnen, Anwendungen anzupassen. Diese entsprechen oft einer XML-Konfigurationsdatei für die Anwendung, wie z. B. hive-site.xml. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

emr-6.0.0-Klassifizierungen
Klassifizierungen Beschreibung

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

container-executor

Ändern Sie die Werte in der Datei „container-executor.cfg“ Datei von Hadoop YARN.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

emrfs-site

Ändert die EMRFS-Einstellungen.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

hbase

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache HBase.

hbase-env

Ändert die Werte in der HBase-Umgebung.

hbase-log4j

Ändert die Werte in der hbase-log4j.properties-Datei in HBase.

hbase-metrics

Ändern Sie die Werte in der hadoop-metrics2-hbase.properties-Datei in HBase.

hbase-policy

Ändert die Werte in der hbase-policy.xml-Datei in HBase.

hbase-site

Ändert die Werte in der hbase-site.xml-Datei in HBase.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

hdfs-env

Ändert die Werte in der HDFS-Umgebung.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

hcatalog-env

Ändert die Werte in der HCatalog-Umgebung.

hcatalog-server-jndi

Ändert die Werte in der jndi.properties-Datei von HCatalog.

hcatalog-server-proto-hive-site

Ändert die Werte in der proto-hive-site.xml-Datei von HCatalog.

hcatalog-webhcat-env

Ändert die Werte in der WebHCat-Umgebung von HCatalog.

hcatalog-webhcat-log4j2

Ändert die Werte in der log4j2.properties-Datei von WebHCat in HCatalog.

hcatalog-webhcat-site

Ändert die Werte in der webhcat-site.xml-Datei von WebHCat in HCatalog.

Hive

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Hive.

hive-beeline-log4j2

Ändert die Werte in der beeline-log4j2.properties-Datei in Hive.

hive-parquet-logging

Ändert die Werte in der parquet-logging.properties-Datei in Hive.

hive-env

Ändert die Werte in der Hive-Umgebung.

hive-exec-log4j2

Ändert die Werte in der hive-exec-log4j2.properties-Datei in Hive.

hive-llap-daemon-log4j2

Ändert die Werte in der llap-daemon-log4j2.properties-Datei in Hive.

hive-log4j2

Ändert die Werte in der hive-log4j2.properties-Datei in Hive.

hive-site

Ändert die Werte in der hive-site.xml-Datei in Hive.

hiveserver2-site

Ändert die Werte in der hiveserver2-site.xml-Datei von Server2 in Hive.

hue-ini

Ändert die Werte in der INI-Datei in Hue.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

jupyter-hub-conf

Ändert die Werte in der jupyterhub_config.py-Datei in JupyterHubs.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

livy-env

Ändert die Werte in der Livy-Umgebung.

livy-log4j

Ändert die log4j.properties-Einstellungen für Livy.

mapred-env

Ändert die Werte in der MapReduce-Anwendungsumgebung.

mapred-site

Ändert die Werte in der mapred-site.xml-Datei der MapReduce-Anwendung.

oozie-env

Ändert die Werte in der Oozie-Umgebung.

oozie-log4j

Ändert die Werte in der oozie-log4j.properties-Datei in Oozie.

oozie-site

Ändert die Werte in der oozie-site.xml-Datei in Oozie.

phoenix-hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in Phoenix.

phoenix-hbase-site

Ändert die Werte in der hbase-site.xml-Datei in Phoenix.

phoenix-log4j

Ändert die Werte in der log4j.properties-Datei in Phoenix.

phoenix-metrics

Ändert die Werte in der hadoop-metrics2-phoenix.properties-Datei in Phoenix.

presto-log

Ändert die Werte in der log.properties-Datei in Presto.

presto-config

Ändert die Werte in der config.properties-Datei in Presto.

presto-password-authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

presto-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

presto-node

Ändern Sie die Werte in der node.properties-Datei in Presto.

presto-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in Presto.

presto-connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in Presto.

presto-connector-hive

Ändert die Werte in der hive.properties-Datei in Presto.

presto-connector-jmx

Ändert die Werte in der jmx.properties-Datei in Presto.

presto-connector-kafka

Ändert die Werte in der kafka.properties-Datei in Presto.

presto-connector-localfile

Ändert die Werte in der localfile.properties-Datei in Presto.

presto-connector-memory

Ändert die Werte in der memory.properties-Datei in Presto.

presto-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in Presto.

presto-connector-mysql

Ändert die Werte in der mysql.properties-Datei in Presto.

presto-connector-postgresql

Ändert die Werte in der postgresql.properties-Datei in Presto.

presto-connector-raptor

Ändert die Werte in der raptor.properties-Datei in Presto.

presto-connector-redis

Ändert die Werte in der redis.properties-Datei in Presto.

presto-connector-redshift

Ändert die Werte in der redshift.properties-Datei.

presto-connector-tpch

Ändert die Werte in der tpch.properties-Datei in Presto.

presto-connector-tpcds

Ändert die Werte in der tpcds.properties-Datei in Presto.

ranger-kms-dbks-site

Ändert die Werte in der dbks-site.xml-Datei von Ranger KMS.

ranger-kms-site

Ändert die Werte in der ranger-kms-site.xml-Datei von Ranger KMS.

ranger-kms-env

Ändert die Werte in der Ranger KMS-Umgebung.

ranger-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei von Ranger KMS.

ranger-kms-db-ca

Ändert die Werte für die CA-Datei auf S3 für die MySQL SSL-Verbindung mit Ranger KMS.

recordserver-env

Ändert die Werte in der EMR RecordServer-Umgebung.

recordserver-conf

Ändert die Werte in der Datei "erver.properties" von EMR RecordServer.

recordserver-log4j

Ändert die Werte in der Datei "log4j.properties" von EMR RecordServer.

spark

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Spark.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

spark-env

Ändert die Werte in der Spark-Umgebung.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

spark-log4j

Ändert die Werte in der log4j.properties-Datei in Spark.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

tez-site

Ändert die Werte in der tez-site.xml-Datei in Tez.

yarn-env

Ändert die Werte in der YARN-Umgebung.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

zeppelin-env

Ändert die Werte in der Zeppelin-Umgebung.

zookeeper-config

Ändert die Werte in der zoo.cfg-Datei in ZooKeeper.

zookeeper-log4j

Ändert die Werte in der log4j.properties-Datei in ZooKeeper.