Amazon EMR 5.x-Versionen - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon EMR 5.x-Versionen

Jede Registerkarte unten listet Anwendungsversionen, Versionshinweise, Komponentenversionen und Konfigurationsklassifizierungen auf, die in jeder Amazon EMR-5.x-Version verfügbar ist.

Ein umfassendes Diagramm von Anwendungsversionen in jeder Version finden Sie unter Anwendungsversionen in Amazon EMR-5.x-Veröffentlichungen (PNG).

Wenn Sie einen Cluster starten, können Sie aus verschiedenen Versionen von Amazon EMR wählen. Auf diese Weise können Sie Anwendungsversionen testen und verwenden, die zu Ihren Kompatibilitätsanforderungen passen. Sie geben die Version unter Verwendung der Versionsbezeichnung an. Versionsbezeichnungen haben die Form emr-x.x.x. For example, emr-5.32.0.

New Amazon EMR release versions are made available in different regions over a period of several days, beginning with the first region on the initial release date. The latest release version may not be available in your region during this period.

5.32.0

Version 5.32.0 Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: JupyterEnterpriseGateway, Flink, Ganglia, Hadoop, HBase_32ent_32ent_xatalog, H000_000_000_<Mus_000_____>33__33_3Jupyter_Hub, ent_32ent_xxxx32ent_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_000_______________________________________________________________________________https://cwiki.apache.org/confluence/display/Hive/HCataloghttp://hive.apache.org/http://gethue.com/https://jupyterhub.readthedocs.io/en/latest/#https://livy.incubator.apache.org/http://mahout.apache.org/https://mxnet.incubator.apache.org/http://oozie.apache.org/https://phoenix.apache.org/http://pig.apache.org/https://prestodb.io/https://spark.apache.org/docs/latest/http://sqoop.apache.org/https://www.tensorflow.org/https://tez.apache.org/https://zeppelin.incubator.apache.org/https://zookeeper.apache.org

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

Version 5.32.0 Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zu Amazon EMR Version 5.32.0. Änderungen beziehen sich auf Version 5.31.0.

Erste Version: 8. Januar 2021

Upgrades

  • Upgrade von Amazon Glue-Connector auf Version 1.14.0

  • Upgrade von Amazon SageMaker Spark SDK auf Version 1.4.1

  • Upgrade von AWS Java SDK auf Version 1.11.890

  • Upgrade von EMR DynamoDB Connector auf Version 4.16.0

  • Upgrade von EMRFS auf Version 2.45.0

  • EMR Log Analytics Metriken auf Version 1.18.0 aktualisiert

  • Upgrade des EMR-MetricsAndEventsApiGateway-Clients auf Version 1.5.0

  • EMR Record Server auf Version 1.8.0 aktualisiert

  • Upgrade von EMR S3 Dist CP auf Version 2.17.0

  • EMR Secret Agent auf Version 1.7.0 aktualisiert

  • Upgrade von Flink auf Version 1.11.2

  • Upgrade von Hadoop auf Version 2.10.1-amzn-0

  • Upgrade von Hive auf Version 2.3.7-amzn-3

  • Upgrade von Hue auf Version 4.8.0

  • Upgrade von Mxnet auf Version 1.7.0

  • Upgrade von OpenCV auf Version 4.4.0

  • Upgrade von Presto auf Version 0.240.1-amzn-0

  • Spark auf Version 2.4.7-amzn-0 aktualisiert

  • Upgrade von TensorFlow auf Version 2.3.1

Änderungen, Verbesserungen und behobene Probleme

Neue Funktionen

  • Ab Amazon EMR 5.32.0 können Sie einen Cluster starten, der sich nativ in Apache Ranger integriert. Apache Ranger ist ein Open-Source-Framework zur Aktivierung, Überwachung und Verwaltung umfassender Datensicherheit auf der Hadoop-Plattform. Weitere Informationen finden Sie unter Apache Ranger. Mit der nativen Integration können Sie Ihren eigenen Apache Ranger nutzen, um eine feinkörnige Datenzugriffskontrolle auf Amazon EMR durchzusetzen. Weitere Informationen finden Sie unter Integrieren von Amazon EMR in Apache Ranger im Amazon EMR-Versionshinweise.

  • Amazon-EMR-Version 5.32.0 unterstützt Amazon EMR auf EKS. Weitere Informationen zu den ersten Schritten mit EMR auf EKS finden Sie unter Was ist Amazon EMR auf EKS.

  • Amazon-EMR-Version 5.32.0 unterstützt Amazon EMR Studio (Vorversion). Weitere Informationen zu den ersten Schritten mit EMR Studio finden Sie unter Amazon EMR Studio (Vorversion).

Bekannte Probleme

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    sudo mkdir -p /etc/systemd/system/instance-controller.service.d/ sudo tee /etc/systemd/system/instance-controller.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF sudo systemctl daemon-reload tee /home/hadoop/restart.sh <<EOS #!/bin/bash while true; do NODEPROVISIONSTATE=' sed -n '/localInstance [{]/,/[}]/{ /nodeProvisionCheckinRecord [{]/,/[}]/ { /status: / { p } /[}]/a } /[}]/a }' /emr/instance-controller/lib/info/job-flow-state.txt | awk { print $2 }' if [ "\$NODEPROVISIONSTATE" == "SUCCESSFUL" ]; then sleep 10; echo "Node Provisioning Completed" echo "Restart IC" sudo systemctl restart instance-controller exit fi sleep 10; done EOS sudo bash /home/hadoop/restart-ic.sh & exit 0
  • Wichtig

    Amazon EMR-Cluster, auf denen AMIs (Amazon Linux Machine Images) von Amazon Linux oder Amazon Linux 2 ausgeführt werden, verwenden das standardmäßige Amazon-Linux-Verhalten und laden nicht automatisch wichtige bzw. kritische einen Neustart erfordernde Kernel-Updates herunter und installieren sie. Dies ist das gleiche Verhalten wie bei anderen Amazon EC2-Instances, auf denen das Amazon Linux-Standard-AMI ausgeführt wird. Wenn nach der Veröffentlichung einer EMR-Version neue Amazon Linux-Softwareupdates verfügbar werden, die einen Neustart erfordern (z. B. Kernel-, NVIDIA- und CUDA-Updates), laden EMR-Cluster-Instances mit dem Standard-AMI diese Updates nicht automatisch herunter und installieren sie. Um Kernel-Updates zu erhalten, können Sie Ihr Amazon EMR-AMI anpassen, sodass Sie das neueste Amazon Linux-AMI verwenden.

  • Konsolenunterstützung zum Erstellen einer Sicherheitskonfiguration, die die AWS-Ranger-Integrationsoption angibt, wird derzeit in der Region GovCloud nicht unterstützt. Die Sicherheitskonfiguration kann mit der CLI erfolgen. Weitere Informationen finden Sie unter Erstellen der EMR-Sicherheitskonfiguration im Management Guide für Amazon EMR.

Version 5.32.0 Komponentenversionen

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und Funktionen installiert. Diese beginnen in der Regel mit emr oder aws. Big-Data-Anwendungspakete in der aktuellsten Amazon EMR-Version sind in der Regel die aktuelle Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente Version Beschreibung
aws-sagemaker-spark-sdk 1.4.1 Amazon SageMaker Spark SDK
emr-ddb 4.16.0 Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies 2.13.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.5.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-notebook-env 1.1.0 Conda env für emr Notebook, das das Jupyter Enterprise Gateway enthält
emr-s3-dist-cp 2.17.0 Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
emr-s3-select 1.6.0 EMR S3Select-Konnektor
emrfs 2.45.0: Amazon S3-Konnektor für Anwendungen aus dem Hadoop-Ökosystem.
flink-client 1.11.2 Apache Flink-Clientskripts und -Anwendungen für die Befehlszeile.
flink-Auftragsmanager-Konfiguration 1.11.2 Verwalten von Ressourcen auf EMR-Knoten für Apache Flink JobManager.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 2.10.1-amzn-0 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 2.10.1-amzn-0 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 2.10.1-amzn-0 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 2.10.1-amzn-0 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 2.10.1-amzn-0 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 2.10.1-amzn-0 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 2.10.1-amzn-0 Kryptografischer Schlüsselverwaltungsserver auf Basis der KeyProvider-API von Hadoop.
hadoop-mapred 2.10.1-amzn-0 Engine-Bibliotheken zur MapReduce-Ausführung für die Ausführung einer MapReduce-Anwendung.
hadoop-yarn-nodemanager 2.10.1-amzn-0 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 2.10.1-amzn-0 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 2.10.1-amzn-0 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 1.4.13 Service für einen HBase-Cluster, der für die Koordinierung der Regionen und die Ausführung von administrativen Befehlen zuständig ist.
hbase-region-server 1.4.13 Service für die Bereitstellung einer oder mehrerer HBase-Regionen.
hbase-client 1.4.13 HBase-Befehlszeilen-Client.
hbase-rest-server 1.4.13 Service, der einen RESTful-HTTP-Endpunkt für HBase bereitstellt.
hbase-thrift-server 1.4.13 Service, der einen Thrift-Endpunkt für HBase bereitstellt.
hcatalog-client 2.3.7-amzn-3 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 2.3.7-amzn-3 Service, der HCatalog bereitstellt (ein Tabellen- und Speicherverwaltungs-Layer für verteilte Anwendungen).
hcatalog-webhcat-server 2.3.7-amzn-3 HTTP-Endpunkt, der eine REST-Schnittstelle für HCatalog bereitstellt.
hive-client 2.3.7-amzn-3 Hive-Befehlszeilen-Client.
hive-hbase 2.3.7-amzn-3 Hive-hbase client.
hive-metastore-server 2.3.7-amzn-3 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 2.3.7-amzn-3 Service zur Annahme von Hive-Abfragen als Webanfragen.
Hudi 0.6.0-amzn-0 Inkrementelles Verarbeitungs-Framework zur Stromversorgung der Datenpipline bei geringer Latenz und hoher Effizienz.
Hudi-Spark 0.6.0-amzn-0 Bundle-Bibliothek für die Ausführung von Spark mit Hudi.
Hudi-Presto 0.6.0-amzn-0 Bundle-Bibliothek zum Ausführen von Presto mit Hudi.
hue-server 4.8.0 Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 1.1.0 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.7.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mahout-client 0.13.0 Bibliothek für Machine Learning.
mxnet 1.7.0 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.
mariadb-server 5.5.68 MySQL-Datenbankserver.
nvidia-cuda 10.1.243 Nvidia-Treiber und Cuda-Toolkit
oozie-client 5.2.0 Oozie-Befehlszeilen-Client.
oozie-server 5.2.0 Service für die Annahme von Oozie Workflow-Anforderungen.
opencv 4.4.0 Open Source Computer Vision Library.
phoenix-library 4.14.3-HBase-1.4 Die Phoenix-Bibliotheken für den Server und den Client
phoenix-query-server 4.14.3-HBase-1.4 Ein schlanker Server für den Zugriff auf JDBC und Protokollpuffer sowie den Zugriff auf die Avatica-API über das JSON-Format.
presto-coordinator 0.240.1-amzn-0 Service zur Annahme von Abfragen und die Verwaltung der Abfrageausführung der Presto-Worker.
presto-worker 0.240.1-amzn-0 Service für das Ausführen von Teilen einer Abfrage.
presto-client 0.240.1-amzn-0 Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
pig-client 0.17.0 Pig-Befehlszeilen-Client.
r 3.4.3 The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
ranger-kms-server 1.2.0 Apache Ranger Key Management System
spark-client 2.4.7-amzn-0 Spark-Befehlszeilen-Clients.
spark-history-server 2.4.7-amzn-0 Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn 2.4.7-amzn-0 In-Memory-Ausführungs-Engine für YARN.
spark-yarn-slave 2.4.7-amzn-0 Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
sqoop-client 1.4.7 Apache Sqoop-Befehlszeilen-Client.
tensorflow 2.3.1 TensorFlow-Open-Source-Softwarebibliothek für numerische Berechnungen mit hoher Leistung.
tez-on-yarn 0.9.2 Die Tez-YARN-Anwendung und -Bibliotheken.
webserver 2.4.25+ Apache HTTP-Server.
zeppelin-server 0.8.2 Webbasiertes Notizbuch, das interaktive Datenanalysen ermöglicht.
zookeeper-server 3.4.14 Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client 3.4.14 ZooKeeper-Befehlszeilen-Client.

Version 5.32.0 Konfigurationsklassifizierungen

Konfigurationsklassifizierungen ermöglichen es Ihnen, Anwendungen anzupassen. Diese entsprechen oft einer XML-Konfigurationsdatei für die Anwendung, wie z. B. hive-site.xml. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

emr-5.32.0 Klassifizierungen
Klassifizierungen Beschreibung

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

container-executor

Ändern Sie die Werte in der Datei „container-executor.cfg“ Datei von Hadoop YARN.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

Docker-Konfiguration

Docker-bezogene Einstellungen ändern.

emrfs-site

Ändert die EMRFS-Einstellungen.

flink-conf

Ändert die flink-conf.yaml-Einstellungen.

flink-log4j

Ändert die log4j.properties-Einstellungen für Flink.

flink-log4j-yarn-session

Ändert die log4j-yarn-session.properties-Einstellungen für Flink.

flink-log4j-cli

Ändert die log4j-cli.properties-Einstellungen für Flink.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

hbase

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache HBase.

hbase-env

Ändert die Werte in der HBase-Umgebung.

hbase-log4j

Ändert die Werte in der hbase-log4j.properties-Datei in HBase.

hbase-metrics

Ändern Sie die Werte in der hadoop-metrics2-hbase.properties-Datei in HBase.

hbase-policy

Ändert die Werte in der hbase-policy.xml-Datei in HBase.

hbase-site

Ändert die Werte in der hbase-site.xml-Datei in HBase.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

hcatalog-env

Ändert die Werte in der HCatalog-Umgebung.

hcatalog-server-jndi

Ändert die Werte in der jndi.properties-Datei von HCatalog.

hcatalog-server-proto-hive-site

Ändert die Werte in der proto-hive-site.xml-Datei von HCatalog.

hcatalog-webhcat-env

Ändert die Werte in der WebHCat-Umgebung von HCatalog.

hcatalog-webhcat-log4j2

Ändert die Werte in der log4j2.properties-Datei von WebHCat in HCatalog.

hcatalog-webhcat-site

Ändert die Werte in der webhcat-site.xml-Datei von WebHCat in HCatalog.

hive-beeline-log4j2

Ändert die Werte in der beeline-log4j2.properties-Datei in Hive.

hive-parquet-logging

Ändert die Werte in der parquet-logging.properties-Datei in Hive.

hive-env

Ändert die Werte in der Hive-Umgebung.

hive-exec-log4j2

Ändert die Werte in der hive-exec-log4j2.properties-Datei in Hive.

hive-llap-daemon-log4j2

Ändert die Werte in der llap-daemon-log4j2.properties-Datei in Hive.

hive-log4j2

Ändert die Werte in der hive-log4j2.properties-Datei in Hive.

hive-site

Ändert die Werte in der hive-site.xml-Datei in Hive.

hiveserver2-site

Ändert die Werte in der hiveserver2-site.xml-Datei von Server2 in Hive.

hue-ini

Ändert die Werte in der INI-Datei in Hue.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

hudi-env

Ändern der Werte in der Hudi-Umgebung.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

jupyter-hub-conf

Ändert die Werte in der jupyterhub_config.py-Datei in JupyterHubs.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

livy-env

Ändert die Werte in der Livy-Umgebung.

livy-log4j

Ändert die log4j.properties-Einstellungen für Livy.

mapred-env

Ändert die Werte in der MapReduce-Anwendungsumgebung.

mapred-site

Ändert die Werte in der mapred-site.xml-Datei der MapReduce-Anwendung.

oozie-env

Ändert die Werte in der Oozie-Umgebung.

oozie-log4j

Ändert die Werte in der oozie-log4j.properties-Datei in Oozie.

oozie-site

Ändert die Werte in der oozie-site.xml-Datei in Oozie.

phoenix-hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in Phoenix.

phoenix-hbase-site

Ändert die Werte in der hbase-site.xml-Datei in Phoenix.

phoenix-log4j

Ändert die Werte in der log4j.properties-Datei in Phoenix.

phoenix-metrics

Ändert die Werte in der hadoop-metrics2-phoenix.properties-Datei in Phoenix.

pig-env

Ändert die Werte in der Pig-Umgebung.

pig-properties

Ändert die Werte in der pig.properties-Datei in Pig.

pig-log4j

Ändert die Werte in der log4j.properties-Datei in Pig.

presto-log

Ändert die Werte in der log.properties-Datei in Presto.

presto-config

Ändert die Werte in der config.properties-Datei in Presto.

presto-password-authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

presto-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

presto-node

Ändern Sie die Werte in der node.properties-Datei in Presto.

presto-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in Presto.

presto-connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in Presto.

presto-connector-hive

Ändert die Werte in der hive.properties-Datei in Presto.

presto-connector-jmx

Ändert die Werte in der jmx.properties-Datei in Presto.

presto-connector-kafka

Ändert die Werte in der kafka.properties-Datei in Presto.

presto-connector-localfile

Ändert die Werte in der localfile.properties-Datei in Presto.

presto-connector-memory

Ändert die Werte in der memory.properties-Datei in Presto.

presto-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in Presto.

presto-connector-mysql

Ändert die Werte in der mysql.properties-Datei in Presto.

presto-connector-postgresql

Ändert die Werte in der postgresql.properties-Datei in Presto.

presto-connector-raptor

Ändert die Werte in der raptor.properties-Datei in Presto.

presto-connector-redis

Ändert die Werte in der redis.properties-Datei in Presto.

presto-connector-redshift

Ändert die Werte in der redshift.properties-Datei.

presto-connector-tpch

Ändert die Werte in der tpch.properties-Datei in Presto.

presto-connector-tpcds

Ändert die Werte in der tpcds.properties-Datei in Presto.

ranger-kms-dbks-site

Ändert die Werte in der dbks-site.xml-Datei von Ranger KMS.

ranger-kms-site

Ändert die Werte in der ranger-kms-site.xml-Datei von Ranger KMS.

ranger-kms-env

Ändert die Werte in der Ranger KMS-Umgebung.

ranger-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei von Ranger KMS.

ranger-kms-db-ca

Ändert die Werte für die CA-Datei auf S3 für die MySQL SSL-Verbindung mit Ranger KMS.

recordserver-env

Ändert die Werte in der EMR RecordServer-Umgebung.

recordserver-conf

Ändert die Werte in der Datei "erver.properties" von EMR RecordServer.

recordserver-log4j

Ändert die Werte in der Datei "log4j.properties" von EMR RecordServer.

spark

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Spark.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

spark-env

Ändert die Werte in der Spark-Umgebung.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

spark-log4j

Ändert die Werte in der log4j.properties-Datei in Spark.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

sqoop-env

Ändert die Werte in der Sqoop-Umgebung.

sqoop-oraoop-site

Ändert die Werte in der oraoop-site.xml in Sqoop OraOop.

sqoop-site

Ändert die Werte in der sqoop-site.xml in Sqoop.

tez-site

Ändert die Werte in der tez-site.xml-Datei in Tez.

yarn-env

Ändert die Werte in der YARN-Umgebung.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

zeppelin-env

Ändert die Werte in der Zeppelin-Umgebung.

zookeeper-config

Ändert die Werte in der zoo.cfg-Datei in ZooKeeper.

zookeeper-log4j

Ändert die Werte in der log4j.properties-Datei in ZooKeeper.

5.31.0

Version 5.31.0 Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: Blinken, , und Sie haben die Möglichkeit Ganglia (Ganglien), , und Sie haben die Möglichkeit Veranstaltungsraum "Hadoop", , und Sie haben die Möglichkeit HBase, , und Sie haben die Möglichkeit HCatalog, , und Sie haben die Möglichkeit Bienenstock, , und Sie haben die Möglichkeit Farbton, , und Sie haben die Möglichkeit JupyterHub, , und Sie haben die Möglichkeit Livy (Flüssigkeit), , und Sie haben die Möglichkeit Veranstaltungsraum "Mahout", , und Sie haben die Möglichkeit MXNet, , und Sie haben die Möglichkeit Veranstaltungsraum "Oozie", , und Sie haben die Möglichkeit Veranstaltungsraum "Phoen, , und Sie haben die Möglichkeit Schweinchen, , und Sie haben die Möglichkeit Veranstaltungsraum "Presto", , und Sie haben die Möglichkeit Funkenflug, , und Sie haben die Möglichkeit Sqoop (Schrägwinkel), , und Sie haben die Möglichkeit TensorFlow, , und Sie haben die Möglichkeit Veranstaltungsraum "Tez", , und Sie haben die Möglichkeit Veranstaltungsraum "Zeppelin", und ZooKeeper.

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

Version 5.31.0 Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zu Amazon EMR Version 5.31.0. Änderungen beziehen sich auf Version 5.30.1.

Erste Version: 9. Oktober 2020

Letzte Aktualisierung: 15. Okt. 2020

Upgrades

  • Upgrade von Amazon Glue-Connector auf Version 1.13.0

  • Upgrade von Amazon SageMaker Spark SDK auf Version 1.4.0

  • Upgrade von Amazon Kinesis-Connector auf Version 3.5.9

  • Upgrade von AWS Java SDK auf Version 1.11.852

  • Bigtop-tomcat auf Version 8.5.56 aktualisiert

  • Upgrade von EMR FS auf Version 2.43.0

  • Upgrade des EMR-MetricsAndEventsApiGateway-Clients auf Version 1.4.0

  • Upgrade von EMR S3 Dist CP auf Version 2.15.0

  • Upgrade von EMR S3 Select auf Version 1.6.0

  • Upgrade von Flink auf Version 1.11.0

  • Upgrade von Hadoop auf Version 2.10.0

  • Upgrade von Hive auf Version 2.3.7

  • Upgrade von Hudi auf Version 0.6.0

  • Upgrade von Hue auf Version 4.7.1

  • Upgrade von JupyterHub auf Version 1.1.0

  • Upgrade von Mxnet auf Version 1.6.0

  • Upgrade von OpenCV auf Version 4.3.0

  • Upgrade von Presto auf Version 0.238.3

  • Upgrade von TensorFlow auf Version 2.1.0

Änderungen, Verbesserungen und behobene Probleme

Neue Funktionen

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    sudo mkdir -p /etc/systemd/system/instance-controller.service.d/ sudo tee /etc/systemd/system/instance-controller.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF sudo systemctl daemon-reload tee /home/hadoop/restart.sh <<EOS #!/bin/bash while true; do NODEPROVISIONSTATE=' sed -n '/localInstance [{]/,/[}]/{ /nodeProvisionCheckinRecord [{]/,/[}]/ { /status: / { p } /[}]/a } /[}]/a }' /emr/instance-controller/lib/info/job-flow-state.txt | awk { print $2 }' if [ "\$NODEPROVISIONSTATE" == "SUCCESSFUL" ]; then sleep 10; echo "Node Provisioning Completed" echo "Restart IC" sudo systemctl restart instance-controller exit fi sleep 10; done EOS sudo bash /home/hadoop/restart-ic.sh & exit 0
  • Mit 5.31.0 können Sie einen Cluster starten, der in Lake Formation integriert werden kann. Diese Integration bietet eine differenzierte Datenfilterung auf Spaltenebene für Datenbanken und Tabellen im AWS Glue-Datenkatalog. Außerdem ermöglicht sie über ein Unternehmens-Identitätssystem eine verbundene einmalige Anmeldung bei EMR Notebooks oder Apache Zeppelin. Weitere Informationen finden Sie unter Integrieren von mit AWS Lake Formation im Management Guide für Amazon EMR.

    Amazon EMR mit Lake Formation ist zurzeit in 16 AWS-Regionen verfügbar: USA Ost (Ohio und Northern Virginia), USA West (Nordkalifornien und Oregon), Asien-Pazifik (Mumbai, Seoul, Singapur, Sydney und Tokio), Kanada (Zentral), Europa (Frankfurt, Irland, London, Paris und Stockholm) sowie Südamerika (São Paulo).

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.31.0 Komponentenversionen

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und Funktionen installiert. Diese beginnen in der Regel mit emr oder aws. Big-Data-Anwendungspakete in der aktuellsten Amazon EMR-Version sind in der Regel die aktuelle Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente Version Description (Beschreibung)
aws-sagemaker-spark-sdk 1.4.0 Amazonas (Amazon SageMaker Spark-SDK (Sonderprogramm für
emr-ddb Veröffentlichung Amazonas (Amazon DynamoDB -Anschluss für Hadoop-Ökosystemanwendungen.
emr-goodies 2.13.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.5.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-s3-dist-cp 2.15.0 Für Amazon S3 optimierte verteilte Kopieranwendung.
emr-s3-select 1.6.0 Elektronische Patientenakte (EMR) S3Select Steckverbinder
emrfs 2,43,0 (vorherige Amazon S3-Konnektor für Anwendungen aus dem Hadoop-Ökosystem.
flink-client 1.11.0 Apache Flink-Clientskripts und -Anwendungen für die Befehlszeile.
flink-jobmanager-konfiguration 1.11.0 Verwalten von Ressourcen auf EMR-Knoten für Apache Flink JobManager.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 2,10,0-beschrieben-0 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 2,10,0-beschrieben-0 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 2,10,0-beschrieben-0 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 2,10,0-beschrieben-0 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 2,10,0-beschrieben-0 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 2,10,0-beschrieben-0 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 2,10,0-beschrieben-0 Server für kryptografische Schlüsselverwaltung basierend auf Hadoop KeyProvider API.
hadoop-mapred 2,10,0-beschrieben-0 MapReduce -Ausführungs-Engine-Bibliotheken zum Ausführen eines MapReduce Anwendung.
hadoop-yarn-nodemanager 2,10,0-beschrieben-0 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 2,10,0-beschrieben-0 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 2,10,0-beschrieben-0 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 1.4.13 Service für eine HBase -Cluster, der für die Koordination von Regionen und die Ausführung von administrativen Befehlen verantwortlich ist.
hbase-region-server 1.4.13 Service für die Bedienung eines oder mehrerer HBase Regionen.
hbase-client 1.4.13 HBase Befehlszeilen-Client.
hbase-rest-server 1.4.13 Service, der eine RESTful HTTP-Endpunkt für HBase.
hbase-thrift-server 1.4.13 Service, der einen Thrift-Endpunkt für bereitstellt HBase.
hcatalog-client 2,3,7-beschäftigt-1 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 2,3,7-beschäftigt-1 Bereitstellung von Dienstleistungen HCatalog, eine Tabellen- und Speicherverwaltungsebene für verteilte Anwendungen.
hcatalog-webhcat-server 2,3,7-beschäftigt-1 HTTP-Endpunkt mit einer REST-Schnittstelle zu HCatalog.
hive-client 2,3,7-beschäftigt-1 Hive-Befehlszeilen-Client.
hive-hbase 2,3,7-beschäftigt-1 Hive-hbase client.
hive-metastore-server 2,3,7-beschäftigt-1 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 2,3,7-beschäftigt-1 Service zur Annahme von Hive-Abfragen als Webanfragen.
Hudi 0,60-amzn-0 (0,0-Amzn-0) (0,0-Amz Inkrementelles Verarbeitungs-Framework zur Stromversorgung der Datenpipline bei geringer Latenz und hoher Effizienz.
hudi-funke 0,60-amzn-0 (0,0-Amzn-0) (0,0-Amz Bündelbibliothek für die Ausführung von Spark mit Hudi.
Hudi-Presto 0,60-amzn-0 (0,0-Amzn-0) (0,0-Amz Bundle-Bibliothek zum Ausführen von Presto mit Hudi.
hue-server 4.7.1 (Vorhersorge) Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 1.1.0 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.7.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mahout-client 0.13.0 Bibliothek für Machine Learning.
mxnet 1.6.0 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.
mariadb-server 5.5.64 MySQL Datenbankserver.
nvidia-cuda 9.2.88 Nvidia-Treiber und Cuda-Toolkit
oozie-client 5.2.0 Oozie-Befehlszeilen-Client.
oozie-server 5.2.0 Service für die Annahme von Oozie Workflow-Anforderungen.
opencv 4.3.0 Open Source Computer Vision Library.
phoenix-library 4.14.3-HBase-1.4 Die Phoenix-Bibliotheken für den Server und den Client
phoenix-query-server 4.14.3-HBase-1.4 Ein schlanker Server für den Zugriff auf JDBC und Protokollpuffer sowie den Zugriff auf die Avatica-API über das JSON-Format.
presto-coordinator 0,238,3-amzn-0 (entspricht 0) Service zur Annahme von Abfragen und die Verwaltung der Abfrageausführung der Presto-Worker.
presto-worker 0,238,3-amzn-0 (entspricht 0) Service für das Ausführen von Teilen einer Abfrage.
presto-client 0,238,3-amzn-0 (entspricht 0) Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
pig-client 0.17.0 Pig-Befehlszeilen-Client.
r 3.4.3 The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
ranger-kms-server 1.2.0 Apache Ranger Key Management System
spark-client 2,4,6-amzn-0 (bezeichnet) Spark-Befehlszeilen-Clients.
spark-history-server 2,4,6-amzn-0 (bezeichnet) Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn 2,4,6-amzn-0 (bezeichnet) In-Memory-Ausführungs-Engine für YARN.
spark-yarn-slave 2,4,6-amzn-0 (bezeichnet) Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
sqoop-client 1.4.7 Apache Sqoop-Befehlszeilen-Client.
tensorflow 2.1.0 TensorFlow Open-Source-Softwarebibliothek für die numerische Berechnung von Hochleistungsdaten.
tez-on-yarn 0.9.2 Die Tez-YARN-Anwendung und -Bibliotheken.
webserver 2.4.25+ Apache HTTP-Server.
zeppelin-server 0.8.2 Webbasiertes Notizbuch, das interaktive Datenanalysen ermöglicht.
zookeeper-server 3.4.14 Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client 3.4.14 ZooKeeper Befehlszeilen-Client.

Version 5.31.0 Konfigurationsklassifizierungen

Konfigurationsklassifizierungen ermöglichen es Ihnen, Anwendungen anzupassen. Diese entsprechen oft einer XML-Konfigurationsdatei für die Anwendung, wie z. B. hive-site.xml. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

emr-5.31.0 Klassifizierungen
Klassifizierungen Description (Beschreibung)

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

emrfs-site

Ändert die EMRFS-Einstellungen.

flink-conf

Ändert die flink-conf.yaml-Einstellungen.

flink-log4j

Ändert die log4j.properties-Einstellungen für Flink.

flink-log4j-yarn-session

Ändert die log4j-yarn-session.properties-Einstellungen für Flink.

flink-log4j-cli

Ändert die log4j-cli.properties-Einstellungen für Flink.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

hbase

Von Amazon EMR kuratierte Einstellungen für Apache HBase.

hbase-env

Werte ändern in HBaseUmgebung von.

hbase-log4j

Werte ändern in HBaseDie Datei hbase-log4j.properties von.

hbase-metrics

Werte ändern in HBaseDie Datei hadoop-metrics2-hbase.properties von.

hbase-policy

Werte ändern in HBaseDie Datei hbase-policy.xml von.

hbase-site

Werte ändern in HBaseDatei hbase-site.xml von.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

hcatalog-env

Werte ändern in HCatalogUmgebung von.

hcatalog-server-jndi

Werte ändern in HCatalogDie jndi.properties von.

hcatalog-server-proto-hive-site

Werte ändern in HCatalogs proto-hive-site.xml.

hcatalog-webhcat-env

Werte ändern in HCatalog WebHCatUmgebung von.

hcatalog-webhcat-log4j2

Werte ändern in HCatalog WebHCats log4j2.properties.

hcatalog-webhcat-site

Werte ändern in HCatalog WebHCatDie Datei webhcat-site.xml von.

hive-beeline-log4j2

Ändert die Werte in der beeline-log4j2.properties-Datei in Hive.

hive-parquet-logging

Ändert die Werte in der parquet-logging.properties-Datei in Hive.

hive-env

Ändert die Werte in der Hive-Umgebung.

hive-exec-log4j2

Ändert die Werte in der hive-exec-log4j2.properties-Datei in Hive.

hive-llap-daemon-log4j2

Ändert die Werte in der llap-daemon-log4j2.properties-Datei in Hive.

hive-log4j2

Ändert die Werte in der hive-log4j2.properties-Datei in Hive.

hive-site

Ändert die Werte in der hive-site.xml-Datei in Hive.

hiveserver2-site

Ändert die Werte in der hiveserver2-site.xml-Datei von Server2 in Hive.

hue-ini

Ändert die Werte in der INI-Datei in Hue.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

hudi-env

Ändern der Werte in der Hudi-Umgebung.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

jupyter-hub-conf

Werte ändern in JupyterHubsDie Datei jupyterhub_config.py von.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

livy-env

Ändert die Werte in der Livy-Umgebung.

livy-log4j

Ändert die log4j.properties-Einstellungen für Livy.

mapred-env

Ändern Sie die Werte im MapReduce Umgebung der Anwendung.

mapred-site

Ändern Sie die Werte im MapReduce Datei mapred-site.xml der Anwendung.

oozie-env

Ändert die Werte in der Oozie-Umgebung.

oozie-log4j

Ändert die Werte in der oozie-log4j.properties-Datei in Oozie.

oozie-site

Ändert die Werte in der oozie-site.xml-Datei in Oozie.

phoenix-hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in Phoenix.

phoenix-hbase-site

Ändert die Werte in der hbase-site.xml-Datei in Phoenix.

phoenix-log4j

Ändert die Werte in der log4j.properties-Datei in Phoenix.

phoenix-metrics

Ändert die Werte in der hadoop-metrics2-phoenix.properties-Datei in Phoenix.

pig-env

Ändert die Werte in der Pig-Umgebung.

pig-properties

Ändert die Werte in der pig.properties-Datei in Pig.

pig-log4j

Ändert die Werte in der log4j.properties-Datei in Pig.

presto-log

Ändert die Werte in der log.properties-Datei in Presto.

presto-config

Ändert die Werte in der config.properties-Datei in Presto.

presto-password-authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

presto-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

presto-node

Ändern Sie die Werte in der node.properties-Datei in Presto.

presto-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in Presto.

presto-connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in Presto.

presto-connector-hive

Ändert die Werte in der hive.properties-Datei in Presto.

presto-connector-jmx

Ändert die Werte in der jmx.properties-Datei in Presto.

presto-connector-kafka

Ändert die Werte in der kafka.properties-Datei in Presto.

presto-connector-localfile

Ändert die Werte in der localfile.properties-Datei in Presto.

presto-connector-memory

Ändert die Werte in der memory.properties-Datei in Presto.

presto-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in Presto.

presto-connector-mysql

Ändert die Werte in der mysql.properties-Datei in Presto.

presto-connector-postgresql

Ändert die Werte in der postgresql.properties-Datei in Presto.

presto-connector-raptor

Ändert die Werte in der raptor.properties-Datei in Presto.

presto-connector-redis

Ändert die Werte in der redis.properties-Datei in Presto.

presto-connector-redshift

Ändert die Werte in der redshift.properties-Datei.

presto-connector-tpch

Ändert die Werte in der tpch.properties-Datei in Presto.

presto-connector-tpcds

Ändert die Werte in der tpcds.properties-Datei in Presto.

ranger-kms-dbks-site

Ändert die Werte in der dbks-site.xml-Datei von Ranger KMS.

ranger-kms-site

Ändert die Werte in der ranger-kms-site.xml-Datei von Ranger KMS.

ranger-kms-env

Ändert die Werte in der Ranger KMS-Umgebung.

ranger-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei von Ranger KMS.

ranger-kms-db-ca

Werte für CA-Datei auf S3 für ändern MySQL SSL-Verbindung mit Ranger KMS.

recordserver-env

Ändern Sie die Werte im EMR RecordServer Umgebung.

recordserver-conf

Werte in EMR ändern RecordServerDie Datei erver.properties von.

recordserver-log4j

Werte in EMR ändern RecordServerDie Datei log4j.properties von.

spark

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Spark.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

spark-env

Ändert die Werte in der Spark-Umgebung.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

spark-log4j

Ändert die Werte in der log4j.properties-Datei in Spark.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

sqoop-env

Ändert die Werte in der Sqoop-Umgebung.

sqoop-oraoop-site

Werte in Sqoop ändern OraOoporaoop-site.xml-Datei von.

sqoop-site

Ändert die Werte in der sqoop-site.xml in Sqoop.

tez-site

Ändert die Werte in der tez-site.xml-Datei in Tez.

yarn-env

Ändert die Werte in der YARN-Umgebung.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

zeppelin-env

Ändert die Werte in der Zeppelin-Umgebung.

zookeeper-config

Werte ändern in ZooKeepers Datei zoo.cfg.

zookeeper-log4j

Werte ändern in ZooKeeperDie Datei log4j.properties von.

5.30.x

In der 5.30-Reihe gibt es mehrere Versionen. Wählen Sie einen der unten angezeigten Links aus, um auf dieser Registerkarte Informationen für eine bestimmte Version anzuzeigen.

5.30.1 (neueste) | 5.30.0

Amazon EMR Version 5.30.1

Version 5.30.1 Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: Flink, Ganglia, Hadoop, hbasis, hKatalog, Hive, Hue, Jupyterhub, Livy, Mahout, Mxnet, Oozie, Phoenix, Schwein, Vorsto, Spark, Sqoop, Tensorflow, Tez, Zeppelin, und Zookeeper.

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

Version 5.30.1 Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zu Amazon EMR Version 5.30.1. Änderungen beziehen sich auf Version 5.30.0.

Erste Version: 30. Juni 2020

Letzte Aktualisierung: 24. August 2020

Änderungen, Verbesserungen und behobene Probleme

  • Es wurde ein Problem behoben, bei dem der Instance-Controller-Prozess unendlich viele Prozesse hervorgebracht hat.

  • Es wurde ein Problem behoben, bei dem Hue keine Hive-Abfrage ausführen konnte, bei der die Meldung „Datenbank ist gesperrt“ angezeigt wird und die die Ausführung von Abfragen verhindert hat.

  • Ein Spark-Problem wurde behoben, durch das mehr Aufgaben gleichzeitig auf dem EMR-Cluster ausgeführt werden können.

  • Es wurde ein Jupyter-Notizbuch-Problem behoben, das einen „Fehler beim Öffnen von Dateien“ auf dem Jupyter-Server verursachte.

  • Ein Problem mit den Startzeiten des Clusters wurde behoben.

Neue Funktionen

  • Persistente Anwendungsschnittstellen von Tez UI und YARN Timeline Server sind mit Amazon EMR-Versionen 6.x sowie EMR-Version 5.30.1 und höher verfügbar. Mit einem Klick auf den persistenten Anwendungsverlauf können Sie schnell auf den Aufgabenverlauf zugreifen, ohne einen Web-Proxy über eine SSH-Verbindung einzurichten. Protokolle für aktive und beendete Cluster stehen 30 Tage nach Beendigung der Anwendung zur Verfügung. Weitere Informationen finden Sie unter Anzeigen von persistenten Anwendungsbenutzeroberflächen im Management Guide für Amazon EMR.

  • Mit EMR Notebook-Ausführungs-APIs können EMR-Notebooks über ein Skript oder eine Befehlszeile ausgeführt werden. Mit der Möglichkeit, EMR-Notebooks ohne die AWS-Konsole zu starten, zu stoppen, aufzulisten und zu beschreiben, können Sie ein EMR-Notebook programmgesteuert steuern. Mithilfe einer parametrisierten Notebook-Zelle können Sie verschiedene Parameterwerte an ein Notizbuch übergeben, ohne für jeden neuen Satz von Paramterwerten eine Kopie des Notizbuchs erstellen zu müssen. Weitere Informationen finden Sie unter EMR-API-Aktionen. Beispiel-Code finden Sie unter Beispielbefehle zum programmgesteuerten Ausführen von EMR Notebooks.

Bekannte Probleme

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    sudo mkdir -p /etc/systemd/system/instance-controller.service.d/ sudo tee /etc/systemd/system/instance-controller.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF sudo systemctl daemon-reload tee /home/hadoop/restart.sh <<EOS #!/bin/bash while true; do NODEPROVISIONSTATE=' sed -n '/localInstance [{]/,/[}]/{ /nodeProvisionCheckinRecord [{]/,/[}]/ { /status: / { p } /[}]/a } /[}]/a }' /emr/instance-controller/lib/info/job-flow-state.txt | awk { print $2 }' if [ "\$NODEPROVISIONSTATE" == "SUCCESSFUL" ]; then sleep 10; echo "Node Provisioning Completed" echo "Restart IC" sudo systemctl restart instance-controller exit fi sleep 10; done EOS sudo bash /home/hadoop/restart-ic.sh & exit 0
  • EMR-Notebooks

    Die Funktion, mit der Sie zusätzliche Python-Bibliotheken und Kernels auf dem Master-Knoten des Clusters installieren können, ist standardmäßig in EMR-Version 5.30.1 deaktiviert. Weitere Informationen zu dieser Funktion finden Sie unter Installieren von Kernels und Python-Bibliotheken auf einem Cluster-Master-Knoten.

    Gehen Sie folgendermaßen vor, um diese Funktion zu aktivieren:

    1. Stellen Sie sicher, dass die der Servicerolle für EMR Notebooks angefügte Berechtigungsrichtlinie die folgende Aktion zulässt:

      elasticmapreduce:ListSteps

      Weitere Informationen finden Sie unter Servicerolle für EMR-Notebooks.

    2. Verwenden Sie die AWS CLI, um einen Schritt auf dem Cluster auszuführen, der EMR-Notebooks einrichtet, wie im folgenden Beispiel gezeigt. Ersetzen Sie us-east-1 durch die Region, in der sich Ihr Cluster befindet. Weitere Informationen finden Sie unter Hinzufügen von Schritten zu einem Cluster mithilfe der AWS-CLI.

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • Verwaltete Skalierung

    Verwaltete Skalierungsoperationen auf 5.30.0- und 5.30.1-Clustern ohne Installation von Presto können Anwendungsfehler verursachen oder dazu führen, dass eine einheitliche Instance-Gruppe oder Instance-Flotte im ARRESTED-Status verbleibt. Dies gilt besonders dann, wenn eine Abwärtsskalierungsoperation schnell von einer Aufwärtsskalierungsoperation gefolgt wird.

    Als Problemumgehung können Sie Presto als Anwendung auswählen, die beim Erstellen eines Clusters installiert werden soll, auch wenn Ihre Aufgabe Presto nicht erfordert.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.30.1 Komponentenversionen

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und Funktionen installiert. Diese beginnen in der Regel mit emr oder aws. Big-Data-Anwendungspakete in der aktuellsten Amazon EMR-Version sind in der Regel die aktuelle Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente Version () Description (Beschreibung)
aws-sagemaker-spark-sdk 1.3.0 Amazon SageMaker Spark SDK
emr-ddb 4.14.0 Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies 2.13.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.5.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-s3-dist-cp 2.14.0 Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
emr-s3-select 1.5.0 EMR S3Select-Konnektor
emrfs 2.40.0 Amazon S3-Konnektor für Anwendungen aus dem Hadoop-Ökosystem.
flink-client 1.10.0 Apache Flink-Clientskripts und -Anwendungen für die Befehlszeile.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 2.8.5-amzn-6 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 2.8.5-amzn-6 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 2.8.5-amzn-6 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 2.8.5-amzn-6 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 2.8.5-amzn-6 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 2.8.5-amzn-6 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 2.8.5-amzn-6 Kryptografischer Schlüsselverwaltungsserver auf Basis der KeyProvider-API von Hadoop.
hadoop-mapred 2.8.5-amzn-6 Engine-Bibliotheken zur MapReduce-Ausführung für die Ausführung einer MapReduce-Anwendung.
hadoop-yarn-nodemanager 2.8.5-amzn-6 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 2.8.5-amzn-6 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 2.8.5-amzn-6 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 1.4.13 Service für einen HBase-Cluster, der für die Koordinierung der Regionen und die Ausführung von administrativen Befehlen zuständig ist.
hbase-region-server 1.4.13 Service für die Bereitstellung einer oder mehrerer HBase-Regionen.
hbase-client 1.4.13 HBase-Befehlszeilen-Client.
hbase-rest-server 1.4.13 Service, der einen RESTful-HTTP-Endpunkt für HBase bereitstellt.
hbase-thrift-server 1.4.13 Service, der einen Thrift-Endpunkt für HBase bereitstellt.
hcatalog-client 2.3.6-amzn-2 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 2.3.6-amzn-2 Service, der HCatalog bereitstellt (ein Tabellen- und Speicherverwaltungs-Layer für verteilte Anwendungen).
hcatalog-webhcat-server 2.3.6-amzn-2 HTTP-Endpunkt, der eine REST-Schnittstelle für HCatalog bereitstellt.
hive-client 2.3.6-amzn-2 Hive-Befehlszeilen-Client.
hive-hbase 2.3.6-amzn-2 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-2 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 2.3.6-amzn-2 Service zur Annahme von Hive-Abfragen als Webanfragen.
Hudi 0.5.2-incubating Inkrementelles Verarbeitungs-Framework zur Stromversorgung der Datenpipline bei geringer Latenz und hoher Effizienz.
Hudi-Presto 0.5.2-incubating Bundle-Bibliothek zum Ausführen von Presto mit Hudi.
hue-server 4.6.0 Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 1.1.0 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.7.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mahout-client 0.13.0 Bibliothek für Machine Learning.
mxnet 1.5.1 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.
mariadb-server 5.5.64 MySQL-Datenbankserver.
nvidia-cuda 9.2.88 Nvidia-Treiber und Cuda-Toolkit
oozie-client 5.2.0 Oozie-Befehlszeilen-Client.
oozie-server 5.2.0 Service für die Annahme von Oozie Workflow-Anforderungen.
opencv 3.4.0 Open Source Computer Vision Library.
phoenix-library 4.14.3-HBase-1.4 Die Phoenix-Bibliotheken für den Server und den Client
phoenix-query-server 4.14.3-HBase-1.4 Ein schlanker Server für den Zugriff auf JDBC und Protokollpuffer sowie den Zugriff auf die Avatica-API über das JSON-Format.
presto-coordinator 0.232 Service zur Annahme von Abfragen und die Verwaltung der Abfrageausführung der Presto-Worker.
presto-worker 0.232 Service für das Ausführen von Teilen einer Abfrage.
presto-client 0.232 Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
pig-client 0.17.0 Pig-Befehlszeilen-Client.
\r 3.4.3 The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
ranger-kms-server 1.2.0 Apache Ranger Key Management System
spark-client 2.4.5-amzn-0 Spark-Befehlszeilen-Clients.
spark-history-server 2.4.5-amzn-0 Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn 2.4.5-amzn-0 In-Memory-Ausführungs-Engine für YARN.
spark-yarn-slave 2.4.5-amzn-0 Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
sqoop-client 1.4.7 Apache Sqoop-Befehlszeilen-Client.
tensorflow 1.14.0 TensorFlow-Open-Source-Softwarebibliothek für numerische Berechnungen mit hoher Leistung.
tez-on-yarn 0.9.2 Die Tez-YARN-Anwendung und -Bibliotheken.
webserver 2.4.25+ Apache HTTP-Server.
zeppelin-server 0.8.2 Webbasiertes Notizbuch, das interaktive Datenanalysen ermöglicht.
zookeeper-server 3.4.14 Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client 3.4.14 ZooKeeper-Befehlszeilen-Client.

Version 5.30.1 Konfigurationsklassifizierungen

Konfigurationsklassifizierungen ermöglichen es Ihnen, Anwendungen anzupassen. Diese entsprechen oft einer XML-Konfigurationsdatei für die Anwendung, wie z. B. hive-site.xml. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

emr-5.30.1-Klassifizierungen
Klassifizierungen Description (Beschreibung)

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

emrfs-site

Ändert die EMRFS-Einstellungen.

flink-conf

Ändert die flink-conf.yaml-Einstellungen.

flink-log4j

Ändert die log4j.properties-Einstellungen für Flink.

flink-log4j-yarn-session

Ändert die log4j-yarn-session.properties-Einstellungen für Flink.

flink-log4j-cli

Ändert die log4j-cli.properties-Einstellungen für Flink.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

hbase

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache HBase.

hbase-env

Ändert die Werte in der HBase-Umgebung.

hbase-log4j

Ändert die Werte in der hbase-log4j.properties-Datei in HBase.

hbase-metrics

Ändern Sie die Werte in der hadoop-metrics2-hbase.properties-Datei in HBase.

hbase-policy

Ändert die Werte in der hbase-policy.xml-Datei in HBase.

hbase-site

Ändert die Werte in der hbase-site.xml-Datei in HBase.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

hcatalog-env

Ändert die Werte in der HCatalog-Umgebung.

hcatalog-server-jndi

Ändert die Werte in der jndi.properties-Datei von HCatalog.

hcatalog-server-proto-hive-site

Ändert die Werte in der proto-hive-site.xml-Datei von HCatalog.

hcatalog-webhcat-env

Ändert die Werte in der WebHCat-Umgebung von HCatalog.

hcatalog-webhcat-log4j2

Ändert die Werte in der log4j2.properties-Datei von WebHCat in HCatalog.

hcatalog-webhcat-site

Ändert die Werte in der webhcat-site.xml-Datei von WebHCat in HCatalog.

hive-beeline-log4j2

Ändert die Werte in der beeline-log4j2.properties-Datei in Hive.

hive-parquet-logging

Ändert die Werte in der parquet-logging.properties-Datei in Hive.

hive-env

Ändert die Werte in der Hive-Umgebung.

hive-exec-log4j2

Ändert die Werte in der hive-exec-log4j2.properties-Datei in Hive.

hive-llap-daemon-log4j2

Ändert die Werte in der llap-daemon-log4j2.properties-Datei in Hive.

hive-log4j2

Ändert die Werte in der hive-log4j2.properties-Datei in Hive.

hive-site

Ändert die Werte in der hive-site.xml-Datei in Hive.

hiveserver2-site

Ändert die Werte in der hiveserver2-site.xml-Datei von Server2 in Hive.

hue-ini

Ändert die Werte in der INI-Datei in Hue.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

hudi-env

Ändern der Werte in der Hudi-Umgebung.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

jupyter-hub-conf

Ändert die Werte in der jupyterhub_config.py-Datei in JupyterHubs.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

livy-env

Ändert die Werte in der Livy-Umgebung.

livy-log4j

Ändert die log4j.properties-Einstellungen für Livy.

mapred-env

Ändert die Werte in der MapReduce-Anwendungsumgebung.

mapred-site

Ändert die Werte in der mapred-site.xml-Datei der MapReduce-Anwendung.

oozie-env

Ändert die Werte in der Oozie-Umgebung.

oozie-log4j

Ändert die Werte in der oozie-log4j.properties-Datei in Oozie.

oozie-site

Ändert die Werte in der oozie-site.xml-Datei in Oozie.

phoenix-hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in Phoenix.

phoenix-hbase-site

Ändert die Werte in der hbase-site.xml-Datei in Phoenix.

phoenix-log4j

Ändert die Werte in der log4j.properties-Datei in Phoenix.

phoenix-metrics

Ändert die Werte in der hadoop-metrics2-phoenix.properties-Datei in Phoenix.

pig-env

Ändert die Werte in der Pig-Umgebung.

pig-properties

Ändert die Werte in der pig.properties-Datei in Pig.

pig-log4j

Ändert die Werte in der log4j.properties-Datei in Pig.

presto-log

Ändert die Werte in der log.properties-Datei in Presto.

presto-config

Ändert die Werte in der config.properties-Datei in Presto.

presto-password-authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

presto-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

presto-node

Ändern Sie die Werte in der node.properties-Datei in Presto.

presto-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in Presto.

presto-connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in Presto.

presto-connector-hive

Ändert die Werte in der hive.properties-Datei in Presto.

presto-connector-jmx

Ändert die Werte in der jmx.properties-Datei in Presto.

presto-connector-kafka

Ändert die Werte in der kafka.properties-Datei in Presto.

presto-connector-localfile

Ändert die Werte in der localfile.properties-Datei in Presto.

presto-connector-memory

Ändert die Werte in der memory.properties-Datei in Presto.

presto-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in Presto.

presto-connector-mysql

Ändert die Werte in der mysql.properties-Datei in Presto.

presto-connector-postgresql

Ändert die Werte in der postgresql.properties-Datei in Presto.

presto-connector-raptor

Ändert die Werte in der raptor.properties-Datei in Presto.

presto-connector-redis

Ändert die Werte in der redis.properties-Datei in Presto.

presto-connector-redshift

Ändert die Werte in der redshift.properties-Datei.

presto-connector-tpch

Ändert die Werte in der tpch.properties-Datei in Presto.

presto-connector-tpcds

Ändert die Werte in der tpcds.properties-Datei in Presto.

ranger-kms-dbks-site

Ändert die Werte in der dbks-site.xml-Datei von Ranger KMS.

ranger-kms-site

Ändert die Werte in der ranger-kms-site.xml-Datei von Ranger KMS.

ranger-kms-env

Ändert die Werte in der Ranger KMS-Umgebung.

ranger-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei von Ranger KMS.

ranger-kms-db-ca

Ändert die Werte für die CA-Datei auf S3 für die MySQL SSL-Verbindung mit Ranger KMS.

recordserver-env

Ändert die Werte in der EMR RecordServer-Umgebung.

recordserver-conf

Ändert die Werte in der Datei "erver.properties" von EMR RecordServer.

recordserver-log4j

Ändert die Werte in der Datei "log4j.properties" von EMR RecordServer.

spark

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Spark.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

spark-env

Ändert die Werte in der Spark-Umgebung.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

spark-log4j

Ändert die Werte in der log4j.properties-Datei in Spark.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

sqoop-env

Ändert die Werte in der Sqoop-Umgebung.

sqoop-oraoop-site

Ändert die Werte in der oraoop-site.xml in Sqoop OraOop.

sqoop-site

Ändert die Werte in der sqoop-site.xml in Sqoop.

tez-site

Ändert die Werte in der tez-site.xml-Datei in Tez.

yarn-env

Ändert die Werte in der YARN-Umgebung.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

zeppelin-env

Ändert die Werte in der Zeppelin-Umgebung.

zookeeper-config

Ändert die Werte in der zoo.cfg-Datei in ZooKeeper.

zookeeper-log4j

Ändert die Werte in der log4j.properties-Datei in ZooKeeper.

Amazon EMR Version 5.30.0

Version 5.30.0 Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin und ZooKeeper.

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

Version 5.30.0 Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.30.0. Änderungen beziehen sich auf Version 5.29.0.

Erste Version: 13. Mai 2020

Letzte Aktualisierung: 25. Juni 2020

Upgrades

  • AWS SDK for Java auf Version 1.11.759 aktualisiert

  • Amazon SageMaker Spark SDK auf Version 1.3.0 aktualisiert

  • EMR Record Server auf Version 1.6.0 aktualisiert

  • Flink auf Version 1.10.0 aktualisiert

  • Ganglia auf Version 3.7.2 aktualisiert

  • HBase auf Version 1.4.13 aktualisiert

  • Hudi auf Version 0.5.2-incubating aktualisiert

  • Hue auf Version 4.6.0 aktualisiert

  • JupyterHub auf Version 1.1.0 aktualisiert

  • Livy auf Version 0.7.0-incubating aktualisiert

  • Oozie auf Version 5.2.0 aktualisiert

  • Presto auf Version 0.232 aktualisiert

  • Spark auf Version 2.4.5 aktualisiert

  • Konnektoren und Treiber aktualisiert: Amazon Glue Connector 1.12.0; Amazon Kinesis Connector 3.5.0; EMR DynamoDB Connector 4.14.0

Neue Funktionen

  • EMR-Notebooks – Bei Verwendung mit EMR-Clustern, die mit 5.30.0 erstellt wurden, werden EMR-Notebook-Kernel auf dem Cluster ausgeführt. Dies verbessert die Notebook-Leistung und ermöglicht es Ihnen, Kernel zu installieren und anzupassen. Sie können Python-Bibliotheken auch auf dem Cluster-Master-Knoten installieren. Weitere Informationen finden Sie unter Installieren und Verwenden von Kernels und Bibliotheken im Management Guide für EMR.

  • Verwaltete Skalierung –Mit Amazon EMR ab Version 5.30.0 können Sie die verwaltete EMR-Skalierung aktivieren, um die Anzahl der Instances oder Einheiten in Ihrem Cluster basierend auf der Workload automatisch zu erhöhen oder zu verringern. EMR wertet Cluster-Metriken kontinuierlich aus, um Skalierungsentscheidungen zu treffen, die Ihre Cluster für Kosten und Geschwindigkeit optimieren. Weitere Informationen finden Sie unter Skalieren von Cluster-Ressourcen im Management Guide für Amazon EMR.

  • In Amazon S3 gespeicherte Protokolldateien verschlüsseln – Mit Amazon EMR Version 5.30.0 oder höher können Sie Protokolldateien verschlüsseln, die mit einem kundenverwalteten AWS KMS-Schlüssel in Amazon S3 gespeichert sind. Weitere Informationen finden Sie unter In Amazon S3 gespeicherte Protokolldateien verschlüsseln im Management Guide für Amazon EMR.

  • Unterstützung von Amazon Linux 2 – In EMR Version 5.30.0 und höher verwendet EMR das Betriebssystem Amazon Linux 2. Neue benutzerdefinierte AMIs (Amazon Machine Image) müssen auf dem Amazon Linux 2-AMI basieren. Weitere Informationen finden Sie unter Verwenden eines benutzerdefinierten AMI.

  • Ordnungsgemäßes Presto Auto Scaling – EMR-Cluster mit 5.30.0 können mit einer Auto Scaling-Zeitüberschreitung festgelegt werden, die Presto-Aufgaben Zeit zum Abschluss der Ausführung gibt, bevor ihr Knoten stillgelegt wird. Weitere Informationen finden Sie unter Verwenden von Presto Auto Scaling mit ordnungsgemäßer Stilllegung.

  • Erstellung von Flotten-Instances mit neuer Zuweisungsstrategieoption – Eine neue Zuweisungsstrategie ist in EMR Version 5.12.1 und höher verfügbar. Sie bietet schnellere Clusterbereitstellung, genauere Spot-Zuweisung und weniger Spot-Instance-Unterbrechungen. Aktualisierungen für nicht standardmäßige EMR-Service-Rollen sind erforderlich. Informationen finden Sie unter Konfigurieren von Instance-Flotten.

  • Die Befehle „sudo systemctl stop“ und „sudo systemctl start“ – in EMR-Version 5.30.0 und höher, die das Betriebssystem Amazon Linux 2 nutzen, werden in EMR die Befehle „sudo systemctl stop“ und „sudo systemctl start“ zum Starten neuer Services verwendet. Weitere Informationen finden Sie unter Wie starte ich einen Service in Amazon EMR neu?.

Änderungen, Verbesserungen und behobene Probleme

  • EMR Version 5.30.0 installiert Ganglia standardmäßig nicht. Sie können Ganglia explizit für die Installation auswählen, wenn Sie einen Cluster erstellen.

  • Spark-Leistungsoptimierungen.

  • Presto-Leistungsoptimierungen.

  • Python 3 ist die Standardeinstellung für Amazon EMR Version 5.30.0 und höher.

  • Die standardmäßige verwaltete Sicherheitsgruppe für den Zugriff auf Services in privaten Subnetzen wurde mit neuen Regeln aktualisiert. Wenn Sie benutzerdefinierte Sicherheitsgruppe für den Servicezugriff verwenden, müssen Sie dieselben Regeln wie die standardmäßige verwaltete Sicherheitsgruppe einschließen. Weitere Informationen finden Sie unter Amazon EMR-verwaltete Sicherheitsgruppe für den Servicezugriff (private Subnetze). Wenn Sie eine benutzerdefinierte Servicerolle für Amazon EMR verwenden, müssen Sie die Berechtigung zum ec2:describeSecurityGroups erteilen, damit EMR überprüfen kann, ob die Sicherheitsgruppen korrekt erstellt wurden. Wenn Sie EMR_DefaultRole verwenden, ist diese Berechtigung bereits in der standardmäßigen verwalteten Richtlinie enthalten.

Bekannte Probleme

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    sudo mkdir -p /etc/systemd/system/instance-controller.service.d/ sudo tee /etc/systemd/system/instance-controller.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF sudo systemctl daemon-reload tee /home/hadoop/restart.sh <<EOS #!/bin/bash while true; do NODEPROVISIONSTATE=' sed -n '/localInstance [{]/,/[}]/{ /nodeProvisionCheckinRecord [{]/,/[}]/ { /status: / { p } /[}]/a } /[}]/a }' /emr/instance-controller/lib/info/job-flow-state.txt | awk { print $2 }' if [ "\$NODEPROVISIONSTATE" == "SUCCESSFUL" ]; then sleep 10; echo "Node Provisioning Completed" echo "Restart IC" sudo systemctl restart instance-controller exit fi sleep 10; done EOS sudo bash /home/hadoop/restart-ic.sh & exit 0
  • Verwaltete Skalierung

    Verwaltete Skalierungsoperationen auf 5.30.0- und 5.30.1-Clustern ohne Installation von Presto können Anwendungsfehler verursachen oder dazu führen, dass eine einheitliche Instance-Gruppe oder Instance-Flotte im ARRESTED-Status verbleibt. Dies gilt besonders dann, wenn eine Abwärtsskalierungsoperation schnell von einer Aufwärtsskalierungsoperation gefolgt wird.

    Als Problemumgehung können Sie Presto als Anwendung auswählen, die beim Erstellen eines Clusters installiert werden soll, auch wenn Ihre Aufgabe Presto nicht erfordert.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.30.0 Komponentenversionen

Komponente Version () Description (Beschreibung)
aws-sagemaker-spark-sdk 1.3.0 Amazon SageMaker Spark SDK
emr-ddb 4.14.0 Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies 2.13.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.5.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-notebook-env 1.0.0 Conda env für emr Notebook
emr-s3-dist-cp 2.14.0 Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
emr-s3-select 1.5.0 EMR S3Select-Konnektor
emrfs 2.40.0 Amazon S3-Konnektor für Anwendungen aus dem Hadoop-Ökosystem.
flink-client 1.10.0 Apache Flink-Clientskripts und -Anwendungen für die Befehlszeile.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 2.8.5-amzn-6 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 2.8.5-amzn-6 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 2.8.5-amzn-6 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 2.8.5-amzn-6 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 2.8.5-amzn-6 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 2.8.5-amzn-6 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 2.8.5-amzn-6 Kryptografischer Schlüsselverwaltungsserver auf Basis der KeyProvider-API von Hadoop.
hadoop-mapred 2.8.5-amzn-6 Engine-Bibliotheken zur MapReduce-Ausführung für die Ausführung einer MapReduce-Anwendung.
hadoop-yarn-nodemanager 2.8.5-amzn-6 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 2.8.5-amzn-6 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 2.8.5-amzn-6 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 1.4.13 Service für einen HBase-Cluster, der für die Koordinierung der Regionen und die Ausführung von administrativen Befehlen zuständig ist.
hbase-region-server 1.4.13 Service für die Bereitstellung einer oder mehrerer HBase-Regionen.
hbase-client 1.4.13 HBase-Befehlszeilen-Client.
hbase-rest-server 1.4.13 Service, der einen RESTful-HTTP-Endpunkt für HBase bereitstellt.
hbase-thrift-server 1.4.13 Service, der einen Thrift-Endpunkt für HBase bereitstellt.
hcatalog-client 2.3.6-amzn-2 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 2.3.6-amzn-2 Service, der HCatalog bereitstellt (ein Tabellen- und Speicherverwaltungs-Layer für verteilte Anwendungen).
hcatalog-webhcat-server 2.3.6-amzn-2 HTTP-Endpunkt, der eine REST-Schnittstelle für HCatalog bereitstellt.
hive-client 2.3.6-amzn-2 Hive-Befehlszeilen-Client.
hive-hbase 2.3.6-amzn-2 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-2 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 2.3.6-amzn-2 Service zur Annahme von Hive-Abfragen als Webanfragen.
Hudi 0.5.2-incubating Inkrementelles Verarbeitungs-Framework zur Stromversorgung der Datenpipline bei geringer Latenz und hoher Effizienz.
Hudi-Presto 0.5.2-incubating Bundle-Bibliothek zum Ausführen von Presto mit Hudi.
hue-server 4.6.0 Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 1.1.0 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.7.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mahout-client 0.13.0 Bibliothek für Machine Learning.
mxnet 1.5.1 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.
mariadb-server 5.5.64 MySQL-Datenbankserver.
nvidia-cuda 9.2.88 Nvidia-Treiber und Cuda-Toolkit
oozie-client 5.2.0 Oozie-Befehlszeilen-Client.
oozie-server 5.2.0 Service für die Annahme von Oozie Workflow-Anforderungen.
opencv 3.4.0 Open Source Computer Vision Library.
phoenix-library 4.14.3-HBase-1.4 Die Phoenix-Bibliotheken für den Server und den Client
phoenix-query-server 4.14.3-HBase-1.4 Ein schlanker Server für den Zugriff auf JDBC und Protokollpuffer sowie den Zugriff auf die Avatica-API über das JSON-Format.
presto-coordinator 0.232 Service zur Annahme von Abfragen und die Verwaltung der Abfrageausführung der Presto-Worker.
presto-worker 0.232 Service für das Ausführen von Teilen einer Abfrage.
presto-client 0.232 Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
pig-client 0.17.0 Pig-Befehlszeilen-Client.
\r 3.4.3 The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
ranger-kms-server 1.2.0 Apache Ranger Key Management System
spark-client 2.4.5-amzn-0 Spark-Befehlszeilen-Clients.
spark-history-server 2.4.5-amzn-0 Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn 2.4.5-amzn-0 In-Memory-Ausführungs-Engine für YARN.
spark-yarn-slave 2.4.5-amzn-0 Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
sqoop-client 1.4.7 Apache Sqoop-Befehlszeilen-Client.
tensorflow 1.14.0 TensorFlow-Open-Source-Softwarebibliothek für numerische Berechnungen mit hoher Leistung.
tez-on-yarn 0.9.2 Die Tez-YARN-Anwendung und -Bibliotheken.
webserver 2.4.25+ Apache HTTP-Server.
zeppelin-server 0.8.2 Webbasiertes Notizbuch, das interaktive Datenanalysen ermöglicht.
zookeeper-server 3.4.14 Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client 3.4.14 ZooKeeper-Befehlszeilen-Client.

Version 5.30.0 Konfigurationsklassifizierungen

Konfigurationsklassifizierungen ermöglichen es Ihnen, Anwendungen anzupassen. Diese entsprechen oft einer XML-Konfigurationsdatei für die Anwendung, wie z. B. hive-site.xml. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

emr-5.30.0-Klassifizierungen
Klassifizierungen Beschreibung

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

emrfs-site

Ändert die EMRFS-Einstellungen.

flink-conf

Ändert die flink-conf.yaml-Einstellungen.

flink-log4j

Ändert die log4j.properties-Einstellungen für Flink.

flink-log4j-yarn-session

Ändert die log4j-yarn-session.properties-Einstellungen für Flink.

flink-log4j-cli

Ändert die log4j-cli.properties-Einstellungen für Flink.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

hbase

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache HBase.

hbase-env

Ändert die Werte in der HBase-Umgebung.

hbase-log4j

Ändert die Werte in der hbase-log4j.properties-Datei in HBase.

hbase-metrics

Ändern Sie die Werte in der hadoop-metrics2-hbase.properties-Datei in HBase.

hbase-policy

Ändert die Werte in der hbase-policy.xml-Datei in HBase.

hbase-site

Ändert die Werte in der hbase-site.xml-Datei in HBase.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

hcatalog-env

Ändert die Werte in der HCatalog-Umgebung.

hcatalog-server-jndi

Ändert die Werte in der jndi.properties-Datei von HCatalog.

hcatalog-server-proto-hive-site

Ändert die Werte in der proto-hive-site.xml-Datei von HCatalog.

hcatalog-webhcat-env

Ändert die Werte in der WebHCat-Umgebung von HCatalog.

hcatalog-webhcat-log4j2

Ändert die Werte in der log4j2.properties-Datei von WebHCat in HCatalog.

hcatalog-webhcat-site

Ändert die Werte in der webhcat-site.xml-Datei von WebHCat in HCatalog.

hive-beeline-log4j2

Ändert die Werte in der beeline-log4j2.properties-Datei in Hive.

hive-parquet-logging

Ändert die Werte in der parquet-logging.properties-Datei in Hive.

hive-env

Ändert die Werte in der Hive-Umgebung.

hive-exec-log4j2

Ändert die Werte in der hive-exec-log4j2.properties-Datei in Hive.

hive-llap-daemon-log4j2

Ändert die Werte in der llap-daemon-log4j2.properties-Datei in Hive.

hive-log4j2

Ändert die Werte in der hive-log4j2.properties-Datei in Hive.

hive-site

Ändert die Werte in der hive-site.xml-Datei in Hive.

hiveserver2-site

Ändert die Werte in der hiveserver2-site.xml-Datei von Server2 in Hive.

hue-ini

Ändert die Werte in der INI-Datei in Hue.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

hudi-env

Ändern der Werte in der Hudi-Umgebung.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

jupyter-hub-conf

Ändert die Werte in der jupyterhub_config.py-Datei in JupyterHubs.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

livy-env

Ändert die Werte in der Livy-Umgebung.

livy-log4j

Ändert die log4j.properties-Einstellungen für Livy.

mapred-env

Ändert die Werte in der MapReduce-Anwendungsumgebung.

mapred-site

Ändert die Werte in der mapred-site.xml-Datei der MapReduce-Anwendung.

oozie-env

Ändert die Werte in der Oozie-Umgebung.

oozie-log4j

Ändert die Werte in der oozie-log4j.properties-Datei in Oozie.

oozie-site

Ändert die Werte in der oozie-site.xml-Datei in Oozie.

phoenix-hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in Phoenix.

phoenix-hbase-site

Ändert die Werte in der hbase-site.xml-Datei in Phoenix.

phoenix-log4j

Ändert die Werte in der log4j.properties-Datei in Phoenix.

phoenix-metrics

Ändert die Werte in der hadoop-metrics2-phoenix.properties-Datei in Phoenix.

pig-env

Ändert die Werte in der Pig-Umgebung.

pig-properties

Ändert die Werte in der pig.properties-Datei in Pig.

pig-log4j

Ändert die Werte in der log4j.properties-Datei in Pig.

presto-log

Ändert die Werte in der log.properties-Datei in Presto.

presto-config

Ändert die Werte in der config.properties-Datei in Presto.

presto-password-authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

presto-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

presto-node

Ändern Sie die Werte in der node.properties-Datei in Presto.

presto-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in Presto.

presto-connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in Presto.

presto-connector-hive

Ändert die Werte in der hive.properties-Datei in Presto.

presto-connector-jmx

Ändert die Werte in der jmx.properties-Datei in Presto.

presto-connector-kafka

Ändert die Werte in der kafka.properties-Datei in Presto.

presto-connector-localfile

Ändert die Werte in der localfile.properties-Datei in Presto.

presto-connector-memory

Ändert die Werte in der memory.properties-Datei in Presto.

presto-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in Presto.

presto-connector-mysql

Ändert die Werte in der mysql.properties-Datei in Presto.

presto-connector-postgresql

Ändert die Werte in der postgresql.properties-Datei in Presto.

presto-connector-raptor

Ändert die Werte in der raptor.properties-Datei in Presto.

presto-connector-redis

Ändert die Werte in der redis.properties-Datei in Presto.

presto-connector-redshift

Ändert die Werte in der redshift.properties-Datei.

presto-connector-tpch

Ändert die Werte in der tpch.properties-Datei in Presto.

presto-connector-tpcds

Ändert die Werte in der tpcds.properties-Datei in Presto.

ranger-kms-dbks-site

Ändert die Werte in der dbks-site.xml-Datei von Ranger KMS.

ranger-kms-site

Ändert die Werte in der ranger-kms-site.xml-Datei von Ranger KMS.

ranger-kms-env

Ändert die Werte in der Ranger KMS-Umgebung.

ranger-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei von Ranger KMS.

ranger-kms-db-ca

Ändert die Werte für die CA-Datei auf S3 für die MySQL SSL-Verbindung mit Ranger KMS.

recordserver-env

Ändert die Werte in der EMR RecordServer-Umgebung.

recordserver-conf

Ändert die Werte in der Datei "erver.properties" von EMR RecordServer.

recordserver-log4j

Ändert die Werte in der Datei "log4j.properties" von EMR RecordServer.

spark

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Spark.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

spark-env

Ändert die Werte in der Spark-Umgebung.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

spark-log4j

Ändert die Werte in der log4j.properties-Datei in Spark.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

sqoop-env

Ändert die Werte in der Sqoop-Umgebung.

sqoop-oraoop-site

Ändert die Werte in der oraoop-site.xml in Sqoop OraOop.

sqoop-site

Ändert die Werte in der sqoop-site.xml in Sqoop.

tez-site

Ändert die Werte in der tez-site.xml-Datei in Tez.

yarn-env

Ändert die Werte in der YARN-Umgebung.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

zeppelin-env

Ändert die Werte in der Zeppelin-Umgebung.

zookeeper-config

Ändert die Werte in der zoo.cfg-Datei in ZooKeeper.

zookeeper-log4j

Ändert die Werte in der log4j.properties-Datei in ZooKeeper.

5.29.0

5.29.0 Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin und ZooKeeper.

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

5.29.0 – Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.29.0. Änderungen beziehen sich auf Version 5.28.1.

Erste Version: 17. Januar 2020

Upgrades

  • Upgrade von AWS Java SDK auf Version 1.11.682

  • Upgrade von Hive auf Version 2.3.6

  • Upgrade von Flink auf Version 1.9.1

  • Upgrade von EmrFS auf Version 2.38.0

  • Upgrade von EMR DynamoDB Connector auf Version 4.13.0

Änderungen, Verbesserungen und behobene Probleme

  • Spark

    • Spark-Leistungsoptimierungen.

  • EMRFS

    • Management Guide-Updates zu den emrfs-site.xml-Standardeinstellungen für eine konsistente Darstellung.

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

5.29.0 Komponentenversionen

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und Funktionen installiert. Diese beginnen in der Regel mit emr oder aws. Big-Data-Anwendungspakete in der aktuellsten Amazon EMR-Version sind in der Regel die aktuelle Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente Version Beschreibung
aws-sagemaker-spark-sdk 1.2.6 Amazon SageMaker Spark SDK
emr-ddb 4.13.0 Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies 2.12.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.4.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-s3-dist-cp 2.13.0 Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
emr-s3-select 1.4.0 EMR S3Select-Konnektor
emrfs 2.38.0 Amazon S3-Connector für Anwendungen aus dem Hadoop-Ökosystem.
flink-client 1.9.1 Apache Flink-Clientskripts und -Anwendungen für die Befehlszeile.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 2.8.5-amzn-5 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 2.8.5-amzn-5 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 2.8.5-amzn-5 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 2.8.5-amzn-5 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 2.8.5-amzn-5 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 2.8.5-amzn-5 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 2.8.5-amzn-5 Kryptografischer Schlüsselverwaltungsserver auf Basis der KeyProvider-API von Hadoop.
hadoop-mapred 2.8.5-amzn-5 Engine-Bibliotheken zur MapReduce-Ausführung für die Ausführung einer MapReduce-Anwendung.
hadoop-yarn-nodemanager 2.8.5-amzn-5 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 1.4.10 Service für einen HBase-Cluster, der für die Koordinierung der Regionen und die Ausführung von administrativen Befehlen zuständig ist.
hbase-region-server 1.4.10 Service für die Bereitstellung einer oder mehrerer HBase-Regionen.
hbase-client 1.4.10 HBase-Befehlszeilen-Client.
hbase-rest-server 1.4.10 Service, der einen RESTful-HTTP-Endpunkt für HBase bereitstellt.
hbase-thrift-server 1.4.10 Service, der einen Thrift-Endpunkt für HBase bereitstellt.
hcatalog-client 2.3.6-amzn-1 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 2.3.6-amzn-1 Service, der HCatalog bereitstellt (ein Tabellen- und Speicherverwaltungs-Layer für verteilte Anwendungen).
hcatalog-webhcat-server 2.3.6-amzn-1 HTTP-Endpunkt, der eine REST-Schnittstelle für HCatalog bereitstellt.
hive-client 2.3.6-amzn-1 Hive-Befehlszeilen-Client.
hive-hbase 2.3.6-amzn-1 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-1 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 2.3.6-amzn-1 Service zur Annahme von Hive-Abfragen als Webanfragen.
Hudi 0.5.0-incubating Inkrementelles Verarbeitungs-Framework zur Stromversorgung der Datenpipline bei geringer Latenz und hoher Effizienz.
Hudi-Presto 0.5.0-incubating Bundle-Bibliothek zum Ausführen von Presto mit Hudi.
hue-server 4.4.0 Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 1.0.0 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.6.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mahout-client 0.13.0 Bibliothek für Machine Learning.
mxnet 1.5.1 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.
mysql-server 5.5.54+ MySQL-Datenbankserver.
nvidia-cuda 9.2.88 Nvidia-Treiber und Cuda-Toolkit
oozie-client 5.1.0 Oozie-Befehlszeilen-Client.
oozie-server 5.1.0 Service für die Annahme von Oozie Workflow-Anforderungen.
opencv 3.4.0 Open Source Computer Vision Library.
phoenix-library 4.14.3-HBase-1.4 Die Phoenix-Bibliotheken für den Server und den Client
phoenix-query-server 4.14.3-HBase-1.4 Ein schlanker Server für den Zugriff auf JDBC und Protokollpuffer sowie den Zugriff auf die Avatica-API über das JSON-Format.
presto-coordinator 0.227 Service zur Annahme von Abfragen und die Verwaltung der Abfrageausführung der Presto-Worker.
presto-worker 0.227 Service für das Ausführen von Teilen einer Abfrage.
presto-client 0.227 Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
pig-client 0.17.0 Pig-Befehlszeilen-Client.
r 3.4.1 The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
spark-client 2.4.4 Spark-Befehlszeilen-Clients.
spark-history-server 2.4.4 Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn 2.4.4 In-Memory-Ausführungs-Engine für YARN.
spark-yarn-slave 2.4.4 Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
sqoop-client 1.4.7 Apache Sqoop-Befehlszeilen-Client.
tensorflow 1.14.0 TensorFlow-Open-Source-Softwarebibliothek für numerische Berechnungen mit hoher Leistung.
tez-on-yarn 0.9.2 Die Tez-YARN-Anwendung und -Bibliotheken.
webserver 2.4.25+ Apache HTTP-Server.
zeppelin-server 0.8.2 Webbasiertes Notizbuch, das interaktive Datenanalysen ermöglicht.
zookeeper-server 3.4.14 Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client 3.4.14 ZooKeeper-Befehlszeilen-Client.

5.29.0 Konfigurationsklassifizierungen

Konfigurationsklassifizierungen ermöglichen es Ihnen, Anwendungen anzupassen. Diese entsprechen oft einer XML-Konfigurationsdatei für die Anwendung, wie z. B. hive-site.xml. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

emr-5.29.0-Klassifizierungen
Klassifizierungen Beschreibung

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

emrfs-site

Ändert die EMRFS-Einstellungen.

flink-conf

Ändert die flink-conf.yaml-Einstellungen.

flink-log4j

Ändert die log4j.properties-Einstellungen für Flink.

flink-log4j-yarn-session

Ändert die log4j-yarn-session.properties-Einstellungen für Flink.

flink-log4j-cli

Ändert die log4j-cli.properties-Einstellungen für Flink.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

hbase

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache HBase.

hbase-env

Ändert die Werte in der HBase-Umgebung.

hbase-log4j

Ändert die Werte in der hbase-log4j.properties-Datei in HBase.

hbase-metrics

Ändern Sie die Werte in der hadoop-metrics2-hbase.properties-Datei in HBase.

hbase-policy

Ändert die Werte in der hbase-policy.xml-Datei in HBase.

hbase-site

Ändert die Werte in der hbase-site.xml-Datei in HBase.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

hcatalog-env

Ändert die Werte in der HCatalog-Umgebung.

hcatalog-server-jndi

Ändert die Werte in der jndi.properties-Datei von HCatalog.

hcatalog-server-proto-hive-site

Ändert die Werte in der proto-hive-site.xml-Datei von HCatalog.

hcatalog-webhcat-env

Ändert die Werte in der WebHCat-Umgebung von HCatalog.

hcatalog-webhcat-log4j2

Ändert die Werte in der log4j2.properties-Datei von WebHCat in HCatalog.

hcatalog-webhcat-site

Ändert die Werte in der webhcat-site.xml-Datei von WebHCat in HCatalog.

hive-beeline-log4j2

Ändert die Werte in der beeline-log4j2.properties-Datei in Hive.

hive-parquet-logging

Ändert die Werte in der parquet-logging.properties-Datei in Hive.

hive-env

Ändert die Werte in der Hive-Umgebung.

hive-exec-log4j2

Ändert die Werte in der hive-exec-log4j2.properties-Datei in Hive.

hive-llap-daemon-log4j2

Ändert die Werte in der llap-daemon-log4j2.properties-Datei in Hive.

hive-log4j2

Ändert die Werte in der hive-log4j2.properties-Datei in Hive.

hive-site

Ändert die Werte in der hive-site.xml-Datei in Hive.

hiveserver2-site

Ändert die Werte in der hiveserver2-site.xml-Datei von Server2 in Hive.

hue-ini

Ändert die Werte in der INI-Datei in Hue.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

jupyter-hub-conf

Ändert die Werte in der jupyterhub_config.py-Datei in JupyterHubs.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

livy-env

Ändert die Werte in der Livy-Umgebung.

livy-log4j

Ändert die log4j.properties-Einstellungen für Livy.

mapred-env

Ändert die Werte in der MapReduce-Anwendungsumgebung.

mapred-site

Ändert die Werte in der mapred-site.xml-Datei der MapReduce-Anwendung.

oozie-env

Ändert die Werte in der Oozie-Umgebung.

oozie-log4j

Ändert die Werte in der oozie-log4j.properties-Datei in Oozie.

oozie-site

Ändert die Werte in der oozie-site.xml-Datei in Oozie.

phoenix-hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in Phoenix.

phoenix-hbase-site

Ändert die Werte in der hbase-site.xml-Datei in Phoenix.

phoenix-log4j

Ändert die Werte in der log4j.properties-Datei in Phoenix.

phoenix-metrics

Ändert die Werte in der hadoop-metrics2-phoenix.properties-Datei in Phoenix.

pig-env

Ändert die Werte in der Pig-Umgebung.

pig-properties

Ändert die Werte in der pig.properties-Datei in Pig.

pig-log4j

Ändert die Werte in der log4j.properties-Datei in Pig.

presto-log

Ändert die Werte in der log.properties-Datei in Presto.

presto-config

Ändert die Werte in der config.properties-Datei in Presto.

presto-password-authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

presto-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

presto-node

Ändern Sie die Werte in der node.properties-Datei in Presto.

presto-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in Presto.

presto-connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in Presto.

presto-connector-hive

Ändert die Werte in der hive.properties-Datei in Presto.

presto-connector-jmx

Ändert die Werte in der jmx.properties-Datei in Presto.

presto-connector-kafka

Ändert die Werte in der kafka.properties-Datei in Presto.

presto-connector-localfile

Ändert die Werte in der localfile.properties-Datei in Presto.

presto-connector-memory

Ändert die Werte in der memory.properties-Datei in Presto.

presto-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in Presto.

presto-connector-mysql

Ändert die Werte in der mysql.properties-Datei in Presto.

presto-connector-postgresql

Ändert die Werte in der postgresql.properties-Datei in Presto.

presto-connector-raptor

Ändert die Werte in der raptor.properties-Datei in Presto.

presto-connector-redis

Ändert die Werte in der redis.properties-Datei in Presto.

presto-connector-redshift

Ändert die Werte in der redshift.properties-Datei.

presto-connector-tpch

Ändert die Werte in der tpch.properties-Datei in Presto.

presto-connector-tpcds

Ändert die Werte in der tpcds.properties-Datei in Presto.

ranger-kms-dbks-site

Ändert die Werte in der dbks-site.xml-Datei von Ranger KMS.

ranger-kms-site

Ändert die Werte in der ranger-kms-site.xml-Datei von Ranger KMS.

ranger-kms-env

Ändert die Werte in der Ranger KMS-Umgebung.

ranger-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei von Ranger KMS.

ranger-kms-db-ca

Ändert die Werte für die CA-Datei auf S3 für die MySQL SSL-Verbindung mit Ranger KMS.

recordserver-env

Ändert die Werte in der EMR RecordServer-Umgebung.

recordserver-conf

Ändert die Werte in der Datei "erver.properties" von EMR RecordServer.

recordserver-log4j

Ändert die Werte in der Datei "log4j.properties" von EMR RecordServer.

spark

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Spark.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

spark-env

Ändert die Werte in der Spark-Umgebung.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

spark-log4j

Ändert die Werte in der log4j.properties-Datei in Spark.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

sqoop-env

Ändert die Werte in der Sqoop-Umgebung.

sqoop-oraoop-site

Ändert die Werte in der oraoop-site.xml in Sqoop OraOop.

sqoop-site

Ändert die Werte in der sqoop-site.xml in Sqoop.

tez-site

Ändert die Werte in der tez-site.xml-Datei in Tez.

yarn-env

Ändert die Werte in der YARN-Umgebung.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

zeppelin-env

Ändert die Werte in der Zeppelin-Umgebung.

zookeeper-config

Ändert die Werte in der zoo.cfg-Datei in ZooKeeper.

zookeeper-log4j

Ändert die Werte in der log4j.properties-Datei in ZooKeeper.

5.28.x

In der 5.28-Reihe gibt es mehrere Versionen. Wählen Sie einen der unten angezeigten Links aus, um auf dieser Registerkarte Informationen für eine bestimmte Version anzuzeigen.

5.28.1 (neueste) | 5.28.0

Amazon EMR Version 5.28.1

Version 5.28.1 Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin und ZooKeeper.

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

Version 5.28.1 Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.28.1. Änderungen beziehen sich auf Version 5.28.0.

Erste Version: 10. Januar 2020

Änderungen, Verbesserungen und behobene Probleme

  • Spark

    • Spark-Kompatibilitätsprobleme behoben.

  • CloudWatch-Metriken

    • Die Veröffentlichung von Amazon CloudWatch-Metriken auf einem EMR-Cluster mit mehreren Master-Knoten wurde behoben.

  • Protokollmeldung deaktiviert

    • Die falsche Protokollmeldung "...using old version (<4.5.8) of Apache http client" wurde deaktiviert.

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.28.1 Komponentenversionen

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und Funktionen installiert. Diese beginnen in der Regel mit emr oder aws. Big-Data-Anwendungspakete in der aktuellsten Amazon EMR-Version sind in der Regel die aktuelle Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente Version Beschreibung
aws-sagemaker-spark-sdk 1.2.6 Amazon SageMaker Spark SDK
emr-ddb 4.12.0 Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies 2.11.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.4.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-s3-dist-cp 2.13.0 Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
emr-s3-select 1.3.0 EMR S3Select-Konnektor
emrfs 2.37.0 Amazon S3-Connector für Anwendungen aus dem Hadoop-Ökosystem.
flink-client 1.9.0 Apache Flink-Clientskripts und -Anwendungen für die Befehlszeile.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 2.8.5-amzn-5 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 2.8.5-amzn-5 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 2.8.5-amzn-5 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 2.8.5-amzn-5 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 2.8.5-amzn-5 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 2.8.5-amzn-5 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 2.8.5-amzn-5 Kryptografischer Schlüsselverwaltungsserver auf Basis der KeyProvider-API von Hadoop.
hadoop-mapred 2.8.5-amzn-5 Engine-Bibliotheken zur MapReduce-Ausführung für die Ausführung einer MapReduce-Anwendung.
hadoop-yarn-nodemanager 2.8.5-amzn-5 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 1.4.10 Service für einen HBase-Cluster, der für die Koordinierung der Regionen und die Ausführung von administrativen Befehlen zuständig ist.
hbase-region-server 1.4.10 Service für die Bereitstellung einer oder mehrerer HBase-Regionen.
hbase-client 1.4.10 HBase-Befehlszeilen-Client.
hbase-rest-server 1.4.10 Service, der einen RESTful-HTTP-Endpunkt für HBase bereitstellt.
hbase-thrift-server 1.4.10 Service, der einen Thrift-Endpunkt für HBase bereitstellt.
hcatalog-client 2.3.6-amzn-0 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 2.3.6-amzn-0 Service, der HCatalog bereitstellt (ein Tabellen- und Speicherverwaltungs-Layer für verteilte Anwendungen).
hcatalog-webhcat-server 2.3.6-amzn-0 HTTP-Endpunkt, der eine REST-Schnittstelle für HCatalog bereitstellt.
hive-client 2.3.6-amzn-0 Hive-Befehlszeilen-Client.
hive-hbase 2.3.6-amzn-0 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-0 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 2.3.6-amzn-0 Service zur Annahme von Hive-Abfragen als Webanfragen.
Hudi 0.5.0-incubating Inkrementelles Verarbeitungs-Framework zur Stromversorgung der Datenpipline bei geringer Latenz und hoher Effizienz.
Hudi-Presto 0.5.0-incubating Bundle-Bibliothek zum Ausführen von Presto mit Hudi.
hue-server 4.4.0 Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 1.0.0 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.6.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mahout-client 0.13.0 Bibliothek für Machine Learning.
mxnet 1.5.1 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.
mysql-server 5.5.54+ MySQL-Datenbankserver.
nvidia-cuda 9.2.88 Nvidia-Treiber und Cuda-Toolkit
oozie-client 5.1.0 Oozie-Befehlszeilen-Client.
oozie-server 5.1.0 Service für die Annahme von Oozie Workflow-Anforderungen.
opencv 3.4.0 Open Source Computer Vision Library.
phoenix-library 4.14.3-HBase-1.4 Die Phoenix-Bibliotheken für den Server und den Client
phoenix-query-server 4.14.3-HBase-1.4 Ein schlanker Server für den Zugriff auf JDBC und Protokollpuffer sowie den Zugriff auf die Avatica-API über das JSON-Format.
presto-coordinator 0.227 Service zur Annahme von Abfragen und die Verwaltung der Abfrageausführung der Presto-Worker.
presto-worker 0.227 Service für das Ausführen von Teilen einer Abfrage.
presto-client 0.227 Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
pig-client 0.17.0 Pig-Befehlszeilen-Client.
r 3.4.1 The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
spark-client 2.4.4 Spark-Befehlszeilen-Clients.
spark-history-server 2.4.4 Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn 2.4.4 In-Memory-Ausführungs-Engine für YARN.
spark-yarn-slave 2.4.4 Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
sqoop-client 1.4.7 Apache Sqoop-Befehlszeilen-Client.
tensorflow 1.14.0 TensorFlow-Open-Source-Softwarebibliothek für numerische Berechnungen mit hoher Leistung.
tez-on-yarn 0.9.2 Die Tez-YARN-Anwendung und -Bibliotheken.
webserver 2.4.25+ Apache HTTP-Server.
zeppelin-server 0.8.2 Webbasiertes Notizbuch, das interaktive Datenanalysen ermöglicht.
zookeeper-server 3.4.14 Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client 3.4.14 ZooKeeper-Befehlszeilen-Client.

Version 5.28.1 Konfigurationsklassifizierungen

Konfigurationsklassifizierungen ermöglichen es Ihnen, Anwendungen anzupassen. Diese entsprechen oft einer XML-Konfigurationsdatei für die Anwendung, wie z. B. hive-site.xml. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

emr-5.28.1-Klassifizierungen
Klassifizierungen Beschreibung

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

emrfs-site

Ändert die EMRFS-Einstellungen.

flink-conf

Ändert die flink-conf.yaml-Einstellungen.

flink-log4j

Ändert die log4j.properties-Einstellungen für Flink.

flink-log4j-yarn-session

Ändert die log4j-yarn-session.properties-Einstellungen für Flink.

flink-log4j-cli

Ändert die log4j-cli.properties-Einstellungen für Flink.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

hbase

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache HBase.

hbase-env

Ändert die Werte in der HBase-Umgebung.

hbase-log4j

Ändert die Werte in der hbase-log4j.properties-Datei in HBase.

hbase-metrics

Ändern Sie die Werte in der hadoop-metrics2-hbase.properties-Datei in HBase.

hbase-policy

Ändert die Werte in der hbase-policy.xml-Datei in HBase.

hbase-site

Ändert die Werte in der hbase-site.xml-Datei in HBase.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

hcatalog-env

Ändert die Werte in der HCatalog-Umgebung.

hcatalog-server-jndi

Ändert die Werte in der jndi.properties-Datei von HCatalog.

hcatalog-server-proto-hive-site

Ändert die Werte in der proto-hive-site.xml-Datei von HCatalog.

hcatalog-webhcat-env

Ändert die Werte in der WebHCat-Umgebung von HCatalog.

hcatalog-webhcat-log4j2

Ändert die Werte in der log4j2.properties-Datei von WebHCat in HCatalog.

hcatalog-webhcat-site

Ändert die Werte in der webhcat-site.xml-Datei von WebHCat in HCatalog.

hive-beeline-log4j2

Ändert die Werte in der beeline-log4j2.properties-Datei in Hive.

hive-parquet-logging

Ändert die Werte in der parquet-logging.properties-Datei in Hive.

hive-env

Ändert die Werte in der Hive-Umgebung.

hive-exec-log4j2

Ändert die Werte in der hive-exec-log4j2.properties-Datei in Hive.

hive-llap-daemon-log4j2

Ändert die Werte in der llap-daemon-log4j2.properties-Datei in Hive.

hive-log4j2

Ändert die Werte in der hive-log4j2.properties-Datei in Hive.

hive-site

Ändert die Werte in der hive-site.xml-Datei in Hive.

hiveserver2-site

Ändert die Werte in der hiveserver2-site.xml-Datei von Server2 in Hive.

hue-ini

Ändert die Werte in der INI-Datei in Hue.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

jupyter-hub-conf

Ändert die Werte in der jupyterhub_config.py-Datei in JupyterHubs.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

livy-env

Ändert die Werte in der Livy-Umgebung.

livy-log4j

Ändert die log4j.properties-Einstellungen für Livy.

mapred-env

Ändert die Werte in der MapReduce-Anwendungsumgebung.

mapred-site

Ändert die Werte in der mapred-site.xml-Datei der MapReduce-Anwendung.

oozie-env

Ändert die Werte in der Oozie-Umgebung.

oozie-log4j

Ändert die Werte in der oozie-log4j.properties-Datei in Oozie.

oozie-site

Ändert die Werte in der oozie-site.xml-Datei in Oozie.

phoenix-hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in Phoenix.

phoenix-hbase-site

Ändert die Werte in der hbase-site.xml-Datei in Phoenix.

phoenix-log4j

Ändert die Werte in der log4j.properties-Datei in Phoenix.

phoenix-metrics

Ändert die Werte in der hadoop-metrics2-phoenix.properties-Datei in Phoenix.

pig-env

Ändert die Werte in der Pig-Umgebung.

pig-properties

Ändert die Werte in der pig.properties-Datei in Pig.

pig-log4j

Ändert die Werte in der log4j.properties-Datei in Pig.

presto-log

Ändert die Werte in der log.properties-Datei in Presto.

presto-config

Ändert die Werte in der config.properties-Datei in Presto.

presto-password-authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

presto-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

presto-node

Ändern Sie die Werte in der node.properties-Datei in Presto.

presto-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in Presto.

presto-connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in Presto.

presto-connector-hive

Ändert die Werte in der hive.properties-Datei in Presto.

presto-connector-jmx

Ändert die Werte in der jmx.properties-Datei in Presto.

presto-connector-kafka

Ändert die Werte in der kafka.properties-Datei in Presto.

presto-connector-localfile

Ändert die Werte in der localfile.properties-Datei in Presto.

presto-connector-memory

Ändert die Werte in der memory.properties-Datei in Presto.

presto-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in Presto.

presto-connector-mysql

Ändert die Werte in der mysql.properties-Datei in Presto.

presto-connector-postgresql

Ändert die Werte in der postgresql.properties-Datei in Presto.

presto-connector-raptor

Ändert die Werte in der raptor.properties-Datei in Presto.

presto-connector-redis

Ändert die Werte in der redis.properties-Datei in Presto.

presto-connector-redshift

Ändert die Werte in der redshift.properties-Datei.

presto-connector-tpch

Ändert die Werte in der tpch.properties-Datei in Presto.

presto-connector-tpcds

Ändert die Werte in der tpcds.properties-Datei in Presto.

ranger-kms-dbks-site

Ändert die Werte in der dbks-site.xml-Datei von Ranger KMS.

ranger-kms-site

Ändert die Werte in der ranger-kms-site.xml-Datei von Ranger KMS.

ranger-kms-env

Ändert die Werte in der Ranger KMS-Umgebung.

ranger-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei von Ranger KMS.

ranger-kms-db-ca

Ändert die Werte für die CA-Datei auf S3 für die MySQL SSL-Verbindung mit Ranger KMS.

recordserver-env

Ändert die Werte in der EMR RecordServer-Umgebung.

recordserver-conf

Ändert die Werte in der Datei "erver.properties" von EMR RecordServer.

recordserver-log4j

Ändert die Werte in der Datei "log4j.properties" von EMR RecordServer.

spark

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Spark.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

spark-env

Ändert die Werte in der Spark-Umgebung.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

spark-log4j

Ändert die Werte in der log4j.properties-Datei in Spark.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

sqoop-env

Ändert die Werte in der Sqoop-Umgebung.

sqoop-oraoop-site

Ändert die Werte in der oraoop-site.xml in Sqoop OraOop.

sqoop-site

Ändert die Werte in der sqoop-site.xml in Sqoop.

tez-site

Ändert die Werte in der tez-site.xml-Datei in Tez.

yarn-env

Ändert die Werte in der YARN-Umgebung.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

zeppelin-env

Ändert die Werte in der Zeppelin-Umgebung.

zookeeper-config

Ändert die Werte in der zoo.cfg-Datei in ZooKeeper.

zookeeper-log4j

Ändert die Werte in der log4j.properties-Datei in ZooKeeper.

Amazon EMR Version 5.28.0

Version 5.28.0 Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin und ZooKeeper.

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

Version 5.28.0 Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.28.0. Änderungen beziehen sich auf Version 5.27.0.

Erste Version: 12. November 2019

Upgrades

  • Upgrade von Flink auf Version 1.9.0

  • Upgrade von Hive auf Version 2.3.6

  • Upgrade von MXNet auf Version 1.5.1

  • Upgrade von Phoenix auf Version 4.14.3

  • Upgrade von Presto auf Version 0.227

  • Upgrade von Zeppelin auf Version 0.8.2

Neue Funktionen

  • Apache Hudi steht nun zur Installation unter Amazon EMR zur Verfügung, wenn Sie einen Cluster erstellen. Weitere Informationen finden Sie unter Hudi.

  • (25. November 2019) Sie können jetzt auf Wunsch mehrere Schritte gleichzeitig ausführen, um die Cluster-Nutzung zu verbessern und Kosten zu sparen. Außerdem können Sie sowohl anstehende als auch laufende Schritte stornieren. Weitere Informationen finden Sie unter Arbeiten mit Schritten unter Verwendung der AWS CLI und Konsole.

  • (3. Dezember 2019) Sie können jetzt EMR-Cluster auf AWS Outposts erstellen und ausführen. AWS Outposts ermöglicht native AWS-Services, Infrastruktur und Betriebsmodelle in lokalen Einrichtungen. Sie können in AWS Outposts-Umgebungen die gleichen AWS APIs und Tools sowie die gleiche Infrastruktur wie in der AWS Cloud verwenden. Weitere Informationen finden Sie unter EMR-Cluster auf AWS Outposts.

  • (11. März 2020) Ab Amazon EMR Version 5.28.0 können Sie Amazon EMR-Cluster in einem Lokale AWS-Zonen-Subnetz als logische Erweiterung einer AWS-Region erstellen und ausführen, die Lokale Zonen unterstützt. Ein Lokale Zone ermöglicht Amazon EMR-Funktionen und einer Teilmenge von AWS-Services, wie etwa Datenverarbeitungs- und Speicher-Services, näher an den Benutzern zu operieren, wodurch der Zugriff auf lokal ausgeführte Anwendungen mit sehr geringer Latenz möglich wird. Eine Liste der verfügbaren Lokale Zonen finden Sie unter Lokale AWS-Zonen. Informationen zum Zugriff auf verfügbare Lokale AWS-Zonen finden Sie unter Regionen, Availability Zones und Local Zones.

    Lokale Zonen unterstützen derzeit keine Amazon EMR-Notebooks und keine Verbindungen direkt mit Amazon EMR über den Schnittstellen-VPC-Endpunkt (AWS PrivateLink).

Änderungen, Verbesserungen und behobene Probleme

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.28.0 Komponentenversionen

Komponente Version Beschreibung
aws-sagemaker-spark-sdk 1.2.6 Amazon SageMaker Spark SDK
emr-ddb 4.12.0 Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies 2.11.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.4.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-s3-dist-cp 2.13.0 Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
emr-s3-select 1.3.0 EMR S3Select-Konnektor
emrfs 2.37.0 Amazon S3-Connector für Anwendungen aus dem Hadoop-Ökosystem.
flink-client 1.9.0 Apache Flink-Clientskripts und -Anwendungen für die Befehlszeile.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 2.8.5-amzn-5 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 2.8.5-amzn-5 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 2.8.5-amzn-5 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 2.8.5-amzn-5 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 2.8.5-amzn-5 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 2.8.5-amzn-5 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 2.8.5-amzn-5 Kryptografischer Schlüsselverwaltungsserver auf Basis der KeyProvider-API von Hadoop.
hadoop-mapred 2.8.5-amzn-5 Engine-Bibliotheken zur MapReduce-Ausführung für die Ausführung einer MapReduce-Anwendung.
hadoop-yarn-nodemanager 2.8.5-amzn-5 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 1.4.10 Service für einen HBase-Cluster, der für die Koordinierung der Regionen und die Ausführung von administrativen Befehlen zuständig ist.
hbase-region-server 1.4.10 Service für die Bereitstellung einer oder mehrerer HBase-Regionen.
hbase-client 1.4.10 HBase-Befehlszeilen-Client.
hbase-rest-server 1.4.10 Service, der einen RESTful-HTTP-Endpunkt für HBase bereitstellt.
hbase-thrift-server 1.4.10 Service, der einen Thrift-Endpunkt für HBase bereitstellt.
hcatalog-client 2.3.6-amzn-0 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 2.3.6-amzn-0 Service, der HCatalog bereitstellt (ein Tabellen- und Speicherverwaltungs-Layer für verteilte Anwendungen).
hcatalog-webhcat-server 2.3.6-amzn-0 HTTP-Endpunkt, der eine REST-Schnittstelle für HCatalog bereitstellt.
hive-client 2.3.6-amzn-0 Hive-Befehlszeilen-Client.
hive-hbase 2.3.6-amzn-0 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-0 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 2.3.6-amzn-0 Service zur Annahme von Hive-Abfragen als Webanfragen.
Hudi 0.5.0-incubating Inkrementelles Verarbeitungs-Framework zur Stromversorgung der Datenpipline bei geringer Latenz und hoher Effizienz.
Hudi-Presto 0.5.0-incubating Bundle-Bibliothek zum Ausführen von Presto mit Hudi.
hue-server 4.4.0 Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 1.0.0 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.6.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mahout-client 0.13.0 Bibliothek für Machine Learning.
mxnet 1.5.1 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.
mysql-server 5.5.54+ MySQL-Datenbankserver.
nvidia-cuda 9.2.88 Nvidia-Treiber und Cuda-Toolkit
oozie-client 5.1.0 Oozie-Befehlszeilen-Client.
oozie-server 5.1.0 Service für die Annahme von Oozie Workflow-Anforderungen.
opencv 3.4.0 Open Source Computer Vision Library.
phoenix-library 4.14.3-HBase-1.4 Die Phoenix-Bibliotheken für den Server und den Client
phoenix-query-server 4.14.3-HBase-1.4 Ein schlanker Server für den Zugriff auf JDBC und Protokollpuffer sowie den Zugriff auf die Avatica-API über das JSON-Format.
presto-coordinator 0.227 Service zur Annahme von Abfragen und die Verwaltung der Abfrageausführung der Presto-Worker.
presto-worker 0.227 Service für das Ausführen von Teilen einer Abfrage.
presto-client 0.227 Presto-Befehlszeilenclient, der auf den Standby-Mastern eines HA-Clusters installiert ist, auf denen der Presto-Server nicht gestartet wird.
pig-client 0.17.0 Pig-Befehlszeilen-Client.
r 3.4.1 The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
spark-client 2.4.4 Spark-Befehlszeilen-Clients.
spark-history-server 2.4.4 Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn 2.4.4 In-Memory-Ausführungs-Engine für YARN.
spark-yarn-slave 2.4.4 Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
sqoop-client 1.4.7 Apache Sqoop-Befehlszeilen-Client.
tensorflow 1.14.0 TensorFlow-Open-Source-Softwarebibliothek für numerische Berechnungen mit hoher Leistung.
tez-on-yarn 0.9.2 Die Tez-YARN-Anwendung und -Bibliotheken.
webserver 2.4.25+ Apache HTTP-Server.
zeppelin-server 0.8.2 Webbasiertes Notizbuch, das interaktive Datenanalysen ermöglicht.
zookeeper-server 3.4.14 Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client 3.4.14 ZooKeeper-Befehlszeilen-Client.

Version 5.28.0 Konfigurationsklassifizierungen

Konfigurationsklassifizierungen ermöglichen es Ihnen, Anwendungen anzupassen. Diese entsprechen oft einer XML-Konfigurationsdatei für die Anwendung, wie z. B. hive-site.xml. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

emr-5.28.0-Klassifizierungen
Klassifizierungen Beschreibung

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

emrfs-site

Ändert die EMRFS-Einstellungen.

flink-conf

Ändert die flink-conf.yaml-Einstellungen.

flink-log4j

Ändert die log4j.properties-Einstellungen für Flink.

flink-log4j-yarn-session

Ändert die log4j-yarn-session.properties-Einstellungen für Flink.

flink-log4j-cli

Ändert die log4j-cli.properties-Einstellungen für Flink.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

hbase

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache HBase.

hbase-env

Ändert die Werte in der HBase-Umgebung.

hbase-log4j

Ändert die Werte in der hbase-log4j.properties-Datei in HBase.

hbase-metrics

Ändern Sie die Werte in der hadoop-metrics2-hbase.properties-Datei in HBase.

hbase-policy

Ändert die Werte in der hbase-policy.xml-Datei in HBase.

hbase-site

Ändert die Werte in der hbase-site.xml-Datei in HBase.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

hcatalog-env

Ändert die Werte in der HCatalog-Umgebung.

hcatalog-server-jndi

Ändert die Werte in der jndi.properties-Datei von HCatalog.

hcatalog-server-proto-hive-site

Ändert die Werte in der proto-hive-site.xml-Datei von HCatalog.

hcatalog-webhcat-env

Ändert die Werte in der WebHCat-Umgebung von HCatalog.

hcatalog-webhcat-log4j2

Ändert die Werte in der log4j2.properties-Datei von WebHCat in HCatalog.

hcatalog-webhcat-site

Ändert die Werte in der webhcat-site.xml-Datei von WebHCat in HCatalog.

hive-beeline-log4j2

Ändert die Werte in der beeline-log4j2.properties-Datei in Hive.

hive-parquet-logging

Ändert die Werte in der parquet-logging.properties-Datei in Hive.

hive-env

Ändert die Werte in der Hive-Umgebung.

hive-exec-log4j2

Ändert die Werte in der hive-exec-log4j2.properties-Datei in Hive.

hive-llap-daemon-log4j2

Ändert die Werte in der llap-daemon-log4j2.properties-Datei in Hive.

hive-log4j2

Ändert die Werte in der hive-log4j2.properties-Datei in Hive.

hive-site

Ändert die Werte in der hive-site.xml-Datei in Hive.

hiveserver2-site

Ändert die Werte in der hiveserver2-site.xml-Datei von Server2 in Hive.

hue-ini

Ändert die Werte in der INI-Datei in Hue.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

jupyter-hub-conf

Ändert die Werte in der jupyterhub_config.py-Datei in JupyterHubs.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

livy-env

Ändert die Werte in der Livy-Umgebung.

livy-log4j

Ändert die log4j.properties-Einstellungen für Livy.

mapred-env

Ändert die Werte in der MapReduce-Anwendungsumgebung.

mapred-site

Ändert die Werte in der mapred-site.xml-Datei der MapReduce-Anwendung.

oozie-env

Ändert die Werte in der Oozie-Umgebung.

oozie-log4j

Ändert die Werte in der oozie-log4j.properties-Datei in Oozie.

oozie-site

Ändert die Werte in der oozie-site.xml-Datei in Oozie.

phoenix-hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in Phoenix.

phoenix-hbase-site

Ändert die Werte in der hbase-site.xml-Datei in Phoenix.

phoenix-log4j

Ändert die Werte in der log4j.properties-Datei in Phoenix.

phoenix-metrics

Ändert die Werte in der hadoop-metrics2-phoenix.properties-Datei in Phoenix.

pig-env

Ändert die Werte in der Pig-Umgebung.

pig-properties

Ändert die Werte in der pig.properties-Datei in Pig.

pig-log4j

Ändert die Werte in der log4j.properties-Datei in Pig.

presto-log

Ändert die Werte in der log.properties-Datei in Presto.

presto-config

Ändert die Werte in der config.properties-Datei in Presto.

presto-password-authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

presto-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

presto-node

Ändern Sie die Werte in der node.properties-Datei in Presto.

presto-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in Presto.

presto-connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in Presto.

presto-connector-hive

Ändert die Werte in der hive.properties-Datei in Presto.

presto-connector-jmx

Ändert die Werte in der jmx.properties-Datei in Presto.

presto-connector-kafka

Ändert die Werte in der kafka.properties-Datei in Presto.

presto-connector-localfile

Ändert die Werte in der localfile.properties-Datei in Presto.

presto-connector-memory

Ändert die Werte in der memory.properties-Datei in Presto.

presto-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in Presto.

presto-connector-mysql

Ändert die Werte in der mysql.properties-Datei in Presto.

presto-connector-postgresql

Ändert die Werte in der postgresql.properties-Datei in Presto.

presto-connector-raptor

Ändert die Werte in der raptor.properties-Datei in Presto.

presto-connector-redis

Ändert die Werte in der redis.properties-Datei in Presto.

presto-connector-redshift

Ändert die Werte in der redshift.properties-Datei.

presto-connector-tpch

Ändert die Werte in der tpch.properties-Datei in Presto.

presto-connector-tpcds

Ändert die Werte in der tpcds.properties-Datei in Presto.

ranger-kms-dbks-site

Ändert die Werte in der dbks-site.xml-Datei von Ranger KMS.

ranger-kms-site

Ändert die Werte in der ranger-kms-site.xml-Datei von Ranger KMS.

ranger-kms-env

Ändert die Werte in der Ranger KMS-Umgebung.

ranger-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei von Ranger KMS.

ranger-kms-db-ca

Ändert die Werte für die CA-Datei auf S3 für die MySQL SSL-Verbindung mit Ranger KMS.

recordserver-env

Ändert die Werte in der EMR RecordServer-Umgebung.

recordserver-conf

Ändert die Werte in der Datei "erver.properties" von EMR RecordServer.

recordserver-log4j

Ändert die Werte in der Datei "log4j.properties" von EMR RecordServer.

spark

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Spark.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

spark-env

Ändert die Werte in der Spark-Umgebung.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

spark-log4j

Ändert die Werte in der log4j.properties-Datei in Spark.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

sqoop-env

Ändert die Werte in der Sqoop-Umgebung.

sqoop-oraoop-site

Ändert die Werte in der oraoop-site.xml in Sqoop OraOop.

sqoop-site

Ändert die Werte in der sqoop-site.xml in Sqoop.

tez-site

Ändert die Werte in der tez-site.xml-Datei in Tez.

yarn-env

Ändert die Werte in der YARN-Umgebung.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

zeppelin-env

Ändert die Werte in der Zeppelin-Umgebung.

zookeeper-config

Ändert die Werte in der zoo.cfg-Datei in ZooKeeper.

zookeeper-log4j

Ändert die Werte in der log4j.properties-Datei in ZooKeeper.

5.27.0

5.27.0 Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin und ZooKeeper.

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

5.27.0 Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.27.0. Änderungen beziehen sich auf Version 5.26.0.

Erste Version: 23. September 2019

Upgrades

  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • Tensorflow 1.14.0

  • Konnektoren und Treiber:

    • DynamoDB Connector 4.12.0

Neue Funktionen

  • (24. Okt. 2019) Die folgenden neuen Funktionen in EMR-Notebooks sind in allen Amazon EMR-Versionen verfügbar.

    • Sie können jetzt Git-Repositorys mit Ihren EMR-Notebooks verknüpfen, um Ihre Notebooks in einer versionskontrollierten Umgebung zu speichern. Sie können Code mit Kollegen teilen und vorhandene Jupyter-Notebooks über Remote-Git-Repositorys wiederverwenden. Weitere Informationen finden Sie unter Zuordnen von Git-Repositorys zu Amazon EMR-Notebooks in Management Guide für Amazon EMR.

    • Das nbdime-Dienstprogramm ist jetzt in EMR Notebooks verfügbar, um das Vergleichen und Zusammenführen von Notebooks zu vereinfachen. Â

    • EMR-Notebooks unterstützen jetzt JupyterLab. Bei JupyterLab handelt es sich um eine webbasierte interaktive Entwicklungsumgebung, die vollständig kompatibel mit Jupyter-Notebooks ist. Sie können Ihr Notebook nun wahlweise in JupyterLab oder Jupyter-Notebook-Editor öffnen.

  • (30. Okt. 2019) Ab Amazon EMR Version 5.25.0 können Sie über die Seite Summary (Zusammenfassung) des Clusters oder die Registerkarte Application history (Anwendungsverlauf) in der Konsole eine Verbindung zur Benutzeroberfläche des Spark History Servers herstellen. Anstatt einen Web-Proxy über eine SSH-Verbindung einzurichten, können Sie schnell auf die Spark History Server-Benutzeroberfläche zugreifen, um Anwendungsmetriken anzuzeigen und auf relevante Protokolldateien für aktive und beendete Cluster zuzugreifen. Weitere Informationen finden Sie unter Off-Cluster-Zugriff auf Benutzeroberflächen für persistente Anwendungen im Management Guide für Amazon EMR.

Änderungen, Verbesserungen und behobene Probleme

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

5.27.0 Komponentenversionen

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und Funktionen installiert. Diese beginnen in der Regel mit emr oder aws. Big-Data-Anwendungspakete in der aktuellsten Amazon EMR-Version sind in der Regel die aktuelle Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente Version Beschreibung
aws-sagemaker-spark-sdk 1.2.4 Amazon SageMaker Spark SDK
emr-ddb 4.12.0 Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies 2.11.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.4.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-s3-dist-cp 2.13.0 Verteilte Kopieranwendung, die für Amazon S3 optimiert ist.
emr-s3-select 1.3.0 EMR S3Select-Konnektor
emrfs 2.36.0 Amazon S3-Connector für Anwendungen aus dem Hadoop-Ökosystem.
flink-client 1.8.1 Apache Flink-Clientskripts und -Anwendungen für die Befehlszeile.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 2.8.5-amzn-4 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 2.8.5-amzn-4 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 2.8.5-amzn-4 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 2.8.5-amzn-4 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 2.8.5-amzn-4 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 2.8.5-amzn-4 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 2.8.5-amzn-4 Kryptografischer Schlüsselverwaltungsserver auf Basis der KeyProvider-API von Hadoop.
hadoop-mapred 2.8.5-amzn-4 Engine-Bibliotheken zur MapReduce-Ausführung für die Ausführung einer MapReduce-Anwendung.
hadoop-yarn-nodemanager 2.8.5-amzn-4 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 2.8.5-amzn-4 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 2.8.5-amzn-4 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 1.4.10 Service für einen HBase-Cluster, der für die Koordinierung der Regionen und die Ausführung von administrativen Befehlen zuständig ist.
hbase-region-server 1.4.10 Service für die Bereitstellung einer oder mehrerer HBase-Regionen.
hbase-client 1.4.10 HBase-Befehlszeilen-Client.
hbase-rest-server 1.4.10 Service, der einen RESTful-HTTP-Endpunkt für HBase bereitstellt.
hbase-thrift-server 1.4.10 Service, der einen Thrift-Endpunkt für HBase bereitstellt.
hcatalog-client 2.3.5-amzn-1 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 2.3.5-amzn-1 Service, der HCatalog bereitstellt (ein Tabellen- und Speicherverwaltungs-Layer für verteilte Anwendungen).
hcatalog-webhcat-server 2.3.5-amzn-1 HTTP-Endpunkt, der eine REST-Schnittstelle für HCatalog bereitstellt.
hive-client 2.3.5-amzn-1 Hive-Befehlszeilen-Client.
hive-hbase 2.3.5-amzn-1 Hive-hbase client.
hive-metastore-server 2.3.5-amzn-1 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 2.3.5-amzn-1 Service zur Annahme von Hive-Abfragen als Webanfragen.
hue-server 4.4.0 Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 1.0.0 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.6.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mahout-client 0.13.0 Bibliothek für Machine Learning.
mxnet 1.4.0 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.
mysql-server 5.5.54+ MySQL-Datenbankserver.
nvidia-cuda 9.2.88 Nvidia-Treiber und Cuda-Toolkit
oozie-client 5.1.0 Oozie-Befehlszeilen-Client.
oozie-server 5.1.0 Service für die Annahme von Oozie Workflow-Anforderungen.
opencv 3.4.0 Open Source Computer Vision Library.
phoenix-library 4.14.2-HBase-1.4 Die Phoenix-Bibliotheken für den Server und den Client
phoenix-query-server 4.14.2-HBase-1.4 Ein schlanker Server für den Zugriff auf JDBC und Protokollpuffer sowie den Zugriff auf die Avatica-API über das JSON-Format.
presto-coordinator 0.224 Service zur Annahme von Abfragen und die Verwaltung der Abfrageausführung der Presto-Worker.
presto-worker 0.224 Service für das Ausführen von Teilen einer Abfrage.
pig-client 0.17.0 Pig-Befehlszeilen-Client.
r 3.4.1 The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung)
spark-client 2.4.4 Spark-Befehlszeilen-Clients.
spark-history-server 2.4.4 Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung.
spark-on-yarn 2.4.4 In-Memory-Ausführungs-Engine für YARN.
spark-yarn-slave 2.4.4 Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden.
sqoop-client 1.4.7 Apache Sqoop-Befehlszeilen-Client.
tensorflow 1.14.0 TensorFlow-Open-Source-Softwarebibliothek für numerische Berechnungen mit hoher Leistung.
tez-on-yarn 0.9.2 Die Tez-YARN-Anwendung und -Bibliotheken.
webserver 2.4.25+ Apache HTTP-Server.
zeppelin-server 0.8.1 Webbasiertes Notizbuch, das interaktive Datenanalysen ermöglicht.
zookeeper-server 3.4.14 Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices.
zookeeper-client 3.4.14 ZooKeeper-Befehlszeilen-Client.

5.27.0 Konfigurationsklassifizierungen

Konfigurationsklassifizierungen ermöglichen es Ihnen, Anwendungen anzupassen. Diese entsprechen oft einer XML-Konfigurationsdatei für die Anwendung, wie z. B. hive-site.xml. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

emr-5.27.0 Klassifizierungen
Klassifizierungen Beschreibung

capacity-scheduler

Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop.

container-log4j

Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN.

core-site

Ändert die Werte in der core-site.xml-Datei in Hadoop.

emrfs-site

Ändert die EMRFS-Einstellungen.

flink-conf

Ändert die flink-conf.yaml-Einstellungen.

flink-log4j

Ändert die log4j.properties-Einstellungen für Flink.

flink-log4j-yarn-session

Ändert die log4j-yarn-session.properties-Einstellungen für Flink.

flink-log4j-cli

Ändert die log4j-cli.properties-Einstellungen für Flink.

hadoop-env

Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten.

hadoop-log4j

Ändert die Werte in der log4j.properties-Datei in Hadoop.

hadoop-ssl-server

Ändert die SSL-Server-Konfiguration in Hadoop.

hadoop-ssl-client

Ändert die SSL-Client-Konfiguration in Hadoop.

hbase

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache HBase.

hbase-env

Ändert die Werte in der HBase-Umgebung.

hbase-log4j

Ändert die Werte in der hbase-log4j.properties-Datei in HBase.

hbase-metrics

Ändern Sie die Werte in der hadoop-metrics2-hbase.properties-Datei in HBase.

hbase-policy

Ändert die Werte in der hbase-policy.xml-Datei in HBase.

hbase-site

Ändert die Werte in der hbase-site.xml-Datei in HBase.

hdfs-encryption-zones

Konfiguriert die HDFS-Verschlüsselungszonen.

hdfs-site

Ändert die Werte in der hdfs-site.xml-Datei in HDFS.

hcatalog-env

Ändert die Werte in der HCatalog-Umgebung.

hcatalog-server-jndi

Ändert die Werte in der jndi.properties-Datei von HCatalog.

hcatalog-server-proto-hive-site

Ändert die Werte in der proto-hive-site.xml-Datei von HCatalog.

hcatalog-webhcat-env

Ändert die Werte in der WebHCat-Umgebung von HCatalog.

hcatalog-webhcat-log4j2

Ändert die Werte in der log4j2.properties-Datei von WebHCat in HCatalog.

hcatalog-webhcat-site

Ändert die Werte in der webhcat-site.xml-Datei von WebHCat in HCatalog.

hive-beeline-log4j2

Ändert die Werte in der beeline-log4j2.properties-Datei in Hive.

hive-parquet-logging

Ändert die Werte in der parquet-logging.properties-Datei in Hive.

hive-env

Ändert die Werte in der Hive-Umgebung.

hive-exec-log4j2

Ändert die Werte in der hive-exec-log4j2.properties-Datei in Hive.

hive-llap-daemon-log4j2

Ändert die Werte in der llap-daemon-log4j2.properties-Datei in Hive.

hive-log4j2

Ändert die Werte in der hive-log4j2.properties-Datei in Hive.

hive-site

Ändert die Werte in der hive-site.xml-Datei in Hive.

hiveserver2-site

Ändert die Werte in der hiveserver2-site.xml-Datei von Server2 in Hive.

hue-ini

Ändert die Werte in der INI-Datei in Hue.

httpfs-env

Ändert die Werte in der HTTPFS-Umgebung.

httpfs-site

Ändert die Werte in der httpfs-site.xml-Datei in Hadoop.

hadoop-kms-acls

Ändert die Werte in der kms-acls.xml-Datei in Hadoop.

hadoop-kms-env

Ändert die Werte in der KMS-Umgebung in Hadoop.

hadoop-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei in Hadoop.

hadoop-kms-site

Ändert die Werte in der kms-site.xml-Datei in Hadoop.

jupyter-notebook-conf

Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook.

jupyter-hub-conf

Ändert die Werte in der jupyterhub_config.py-Datei in JupyterHubs.

jupyter-s3-conf

Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks.

jupyter-sparkmagic-conf

Ändert die Werte in der config.json-Datei in Sparkmagic.

livy-conf

Ändert die Werte in der livy.conf-Datei von Livy.

livy-env

Ändert die Werte in der Livy-Umgebung.

livy-log4j

Ändert die log4j.properties-Einstellungen für Livy.

mapred-env

Ändert die Werte in der MapReduce-Anwendungsumgebung.

mapred-site

Ändert die Werte in der mapred-site.xml-Datei der MapReduce-Anwendung.

oozie-env

Ändert die Werte in der Oozie-Umgebung.

oozie-log4j

Ändert die Werte in der oozie-log4j.properties-Datei in Oozie.

oozie-site

Ändert die Werte in der oozie-site.xml-Datei in Oozie.

phoenix-hbase-metrics

Ändert die Werte in der hadoop-metrics2-hbase.properties-Datei in Phoenix.

phoenix-hbase-site

Ändert die Werte in der hbase-site.xml-Datei in Phoenix.

phoenix-log4j

Ändert die Werte in der log4j.properties-Datei in Phoenix.

phoenix-metrics

Ändert die Werte in der hadoop-metrics2-phoenix.properties-Datei in Phoenix.

pig-env

Ändert die Werte in der Pig-Umgebung.

pig-properties

Ändert die Werte in der pig.properties-Datei in Pig.

pig-log4j

Ändert die Werte in der log4j.properties-Datei in Pig.

presto-log

Ändert die Werte in der log.properties-Datei in Presto.

presto-config

Ändert die Werte in der config.properties-Datei in Presto.

presto-password-authenticator

Ändern Sie Werte in der Presto-Datei password-authenticator.properties.

presto-env

Ändern Sie die Werte in der presto-env.sh-Datei in Presto.

presto-node

Ändern Sie die Werte in der node.properties-Datei in Presto.

presto-connector-blackhole

Ändert die Werte in der blackhole.properties-Datei in Presto.

presto-connector-cassandra

Ändert die Werte in der cassandra.properties-Datei in Presto.

presto-connector-hive

Ändert die Werte in der hive.properties-Datei in Presto.

presto-connector-jmx

Ändert die Werte in der jmx.properties-Datei in Presto.

presto-connector-kafka

Ändert die Werte in der kafka.properties-Datei in Presto.

presto-connector-localfile

Ändert die Werte in der localfile.properties-Datei in Presto.

presto-connector-memory

Ändert die Werte in der memory.properties-Datei in Presto.

presto-connector-mongodb

Ändert die Werte in der mongodb.properties-Datei in Presto.

presto-connector-mysql

Ändert die Werte in der mysql.properties-Datei in Presto.

presto-connector-postgresql

Ändert die Werte in der postgresql.properties-Datei in Presto.

presto-connector-raptor

Ändert die Werte in der raptor.properties-Datei in Presto.

presto-connector-redis

Ändert die Werte in der redis.properties-Datei in Presto.

presto-connector-redshift

Ändert die Werte in der redshift.properties-Datei.

presto-connector-tpch

Ändert die Werte in der tpch.properties-Datei in Presto.

presto-connector-tpcds

Ändert die Werte in der tpcds.properties-Datei in Presto.

ranger-kms-dbks-site

Ändert die Werte in der dbks-site.xml-Datei von Ranger KMS.

ranger-kms-site

Ändert die Werte in der ranger-kms-site.xml-Datei von Ranger KMS.

ranger-kms-env

Ändert die Werte in der Ranger KMS-Umgebung.

ranger-kms-log4j

Ändert die Werte in der kms-log4j.properties-Datei von Ranger KMS.

ranger-kms-db-ca

Ändert die Werte für die CA-Datei auf S3 für die MySQL SSL-Verbindung mit Ranger KMS.

recordserver-env

Ändert die Werte in der EMR RecordServer-Umgebung.

recordserver-conf

Ändert die Werte in der Datei "erver.properties" von EMR RecordServer.

recordserver-log4j

Ändert die Werte in der Datei "log4j.properties" von EMR RecordServer.

spark

Hierbei handelt es sich um von Amazon EMR zusammengestellte Einstellungen für Apache Spark.

spark-defaults

Ändert die Werte in der spark-defaults.conf-Datei in Spark.

spark-env

Ändert die Werte in der Spark-Umgebung.

spark-hive-site

Ändert die Werte in der hive-site.xml-Datei in Spark.

spark-log4j

Ändert die Werte in der log4j.properties-Datei in Spark.

spark-metrics

Ändert die Werte in der metrics.properties-Datei in Spark.

sqoop-env

Ändert die Werte in der Sqoop-Umgebung.

sqoop-oraoop-site

Ändert die Werte in der oraoop-site.xml in Sqoop OraOop.

sqoop-site

Ändert die Werte in der sqoop-site.xml in Sqoop.

tez-site

Ändert die Werte in der tez-site.xml-Datei in Tez.

yarn-env

Ändert die Werte in der YARN-Umgebung.

yarn-site

Ändert die Werte in der yarn-site.xml-Datei in YARN.

zeppelin-env

Ändert die Werte in der Zeppelin-Umgebung.

zookeeper-config

Ändert die Werte in der zoo.cfg-Datei in ZooKeeper.

zookeeper-log4j

Ändert die Werte in der log4j.properties-Datei in ZooKeeper.

5.26.0

5.26.0 Anwendungsversionen

Die folgenden Anwendungen werden in dieser Version unterstützt: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin und ZooKeeper.

Das folgende Diagramm zeigt die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen in den vorangegangenen vier Versionen von Amazon EMR.

Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Diagrammen:

5.26.0 Versionshinweise

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.26.0. Änderungen beziehen sich auf Version 5.25.0.

Erste Version: 8. August 2019

Letzte Aktualisierung: 19. August 2019

Upgrades

  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • Konnektoren und Treiber:

    • DynamoDB-Konnektor 4.11.0

    • MariaDB-Konnektor 2.4.2

    • Amazon Redshift-JDBC-Treiber 1.2.32.1056

Neue Funktionen

  • (Beta) Bei Amazon EMR 5.26.0 können Sie einen in Lake Formation integrierten Cluster starten. Diese Integration bietet differenzierten Zugriff auf Spaltenebene auf Datenbanken und Tabellen im AWS Glue-Datenkatalog. Außerdem ermöglicht sie über ein Unternehmens-Identitätssystem eine verbundene einmalige Anmeldung bei EMR Notebooks oder Apache Zeppelin. Weitere Informationen finden Sie unter Integrieren von Amazon EMR mit AWS Lake Formation (Beta).

  • (19 August 2019) Amazon EMR Block Public Access ist jetzt bei allen Amazon EMR-Versionen verfügbar, die Sicherheitsgruppen unterstützen. Das Blockieren des öffentlichen Zugriffs ist eine kontoweite Einstellung, die auf jede AWS-Region angewandt wird. Durch Blockieren des öffentlichen Zugriffs wird das Starten eines Clusters verhindert, wenn eine mit dem Cluster verknüpfte Sicherheitsgruppe über eine Regel verfügt, die eingehenden Datenverkehr von IPv4 0.0.0.0/0 oder IPv6 ::/0 (öffentlicher Zugriff) auf einem Port zulässt, sofern kein Port als Ausnahme festgelegt ist. Port 22 ist standardmäßig eine Ausnahme. Weitere Informationen finden Sie unter Using Amazon EMR Block Public Access im Management Guide für Amazon EMR.

Änderungen, Verbesserungen und behobene Probleme

  • EMR-Notebooks

    • Ab EMR 5.26.0 unterstützt EMR-Notebooks zusätzlich zu Python-Standardbibiliotheken Notebook-bezogene Python-Bibliotheken. Sie können Notebook-bezogene Bibliotheken aus dem Notebook-Editor heraus installieren, ohne einen Cluster neu erstellen oder ein Notebook einem Cluster neu zuweisen zu müssen. Da Notebook-bezogene Bibliotheken in einer virtuellen Python-Umgebung erstellt werden, gelten sie nur für die aktuelle Notebook-Sitzung. Auf diese Weise können Sie Notebook-Abhängigkeiten isolieren. Weitere Informationen finden Sie unter Using Notebook Scoped Libraries im Management Guide für Amazon EMR.

  • EMRFS

    • Durch Einstellen von fs.s3.consistent.metadata.etag.verification.enabled auf true können Sie eine ETag-Verifizierungsfunktion (Beta) aktivieren. Bei dieser Funktion überprüft EMRFS mithilfe von Amazon S3-ETags, ob die neueste verfügbare Version von Objekten gelesen wird. Diese Funktion ist für Read-after-Update-Anwendungsfälle nützlich, bei denen in Amazon S3 überschriebene Dateien den gleichen Namen beibehalten. Diese ETag-Verifizierungsfunktion funktioniert derzeit nicht mit S3 Select. Weitere Informationen finden Sie unter Konfigurieren der konsistenten Ansicht.

  • Spark

    • Die folgenden Optimierungen sind jetzt standardmäßig aktiviert: dynamische Partitionsbereinigung, DISTINCT vor INTERSECT, Verbesserungen an der SQL-Planstatistik-Inferenz für JOIN gefolgt von DISTINCT-Abfragen, Abflachen skalarer Unterabfragen, optimierte Join-Neuanordnung und Bloomfilter für Joins. Weitere Informationen finden Sie unter Optimierung der Spark-Leistung.

    • Die gesamte Stufencodeerstellung für Sortieren, Zusammenführen und Verknüpfen wurde verbessert.

    • Die Wiederverwendung von Abfragefragmenten und Unterabfragen wurde verbessert.

    • Verbesserungen, sodass Executors beim Starten von Spark vorab zugewiesen werden.

    • Bloomfilter für Joins werden nun nicht mehr angewandt, wenn die kleinere Seite des Joins einen Broadcast-Hinweis enthält.

  • Tez

    • Ein Problem mit Tez wurde behoben. Tez UI funktioniert nun auf einem EMR-Cluster mit mehreren Masterknoten.

Bekannte Probleme

  • Die verbesserten Funktionen der gesamten Stufencodeerstellung für Sortieren, Zusammenführen und Verknüpfen erhöhen die Speicherbelastung, wenn sie aktiviert sind. Diese Optimierung bringt Leistungsverbesserungen, führt möglicherweise aber zu Auftragswiederholungen oder Fehlern, wenn der spark.yarn.executor.memoryOverheadFactor nicht für die Bereitstellung von ausreichendem Arbeitsspeicher optimiert ist. Um diese Funktion zu deaktivieren, stellen Sie spark.sql.sortMergeJoinExec.extendedCodegen.enabled auf „false“ ein.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

5.26.0 Komponentenversionen

Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und Funktionen installiert. Diese beginnen in der Regel mit emr oder aws. Big-Data-Anwendungspakete in der aktuellsten Amazon EMR-Version sind in der Regel die aktuelle Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.

Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form CommunityVersion-amzn-EmrVersion. Der EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen myapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.

Komponente Version Beschreibung
aws-sagemaker-spark-sdk 1.2.4 Amazon SageMaker Spark SDK
emr-ddb 4.11.0 Amazon DynamoDB-Konnektor für Anwendungen aus dem Hadoop-Ökosystem.
emr-goodies 2.10.0 Praktische Bibliotheken für das Hadoop-Ökosystem.
emr-kinesis 3.4.0 Amazon Kinesis-Connector für Anwendungen aus dem Hadoop-Ökosystem.
emr-s3-dist-cp 2.12.0 Für Amazon S3 optimierte verteilte Kopieranwendung.
emr-s3-select 1.3.0 EMR S3Select-Konnektor
emrfs 2.35.0 Amazon S3-Konnektor für Anwendungen aus dem Hadoop-Ökosystem.
flink-client 1.8.0 Apache Flink-Clientskripts und -Anwendungen für die Befehlszeile.
ganglia-monitor 3.7.2 Eingebetteter Ganglia-Agent für Anwendungen aus dem Hadoop-Ökosystem zusammen mit dem Ganglia-Überwachungsagent.
ganglia-metadata-collector 3.7.2 Ganglia-Metadaten-Kollektor zum Aggregieren von Metriken aus Ganglia-Überwachungsagenten.
ganglia-web 3.7.1 Webanwendung zum Anzeigen von durch den Ganglia-Metadaten-Kollektor gesammelten Metriken.
hadoop-client 2.8.5-amzn-4 Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn".
hadoop-hdfs-datanode 2.8.5-amzn-4 HDFS-Service auf Knotenebene zum Speichern von Blöcken.
hadoop-hdfs-library 2.8.5-amzn-4 HDFS-Client und -Bibliothek für die Befehlszeile
hadoop-hdfs-namenode 2.8.5-amzn-4 HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten.
hadoop-hdfs-journalnode 2.8.5-amzn-4 HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern.
hadoop-httpfs-server 2.8.5-amzn-4 HTTP-Endpunkt für HDFS-Operationen.
hadoop-kms-server 2.8.5-amzn-4 Kryptografischer Schlüsselverwaltungsserver auf Basis der KeyProvider-API von Hadoop.
hadoop-mapred 2.8.5-amzn-4 Engine-Bibliotheken zur MapReduce-Ausführung für die Ausführung einer MapReduce-Anwendung.
hadoop-yarn-nodemanager 2.8.5-amzn-4 YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten.
hadoop-yarn-resourcemanager 2.8.5-amzn-4 YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen.
hadoop-yarn-timeline-server 2.8.5-amzn-4 Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen.
hbase-hmaster 1.4.10 Service für einen HBase-Cluster, der für die Koordinierung der Regionen und die Ausführung von administrativen Befehlen zuständig ist.
hbase-region-server 1.4.10 Service für die Bereitstellung einer oder mehrerer HBase-Regionen.
hbase-client 1.4.10 HBase-Befehlszeilen-Client.
hbase-rest-server 1.4.10 Service, der einen RESTful-HTTP-Endpunkt für HBase bereitstellt.
hbase-thrift-server 1.4.10 Service, der einen Thrift-Endpunkt für HBase bereitstellt.
hcatalog-client 2.3.5-amzn-0 Der "hcat"-Befehlszeilen-Client-für das Bearbeiten des hcatalog-Servers.
hcatalog-server 2.3.5-amzn-0 Service, der HCatalog bereitstellt (ein Tabellen- und Speicherverwaltungs-Layer für verteilte Anwendungen).
hcatalog-webhcat-server 2.3.5-amzn-0 HTTP-Endpunkt, der eine REST-Schnittstelle für HCatalog bereitstellt.
hive-client 2.3.5-amzn-0 Hive-Befehlszeilen-Client.
hive-hbase 2.3.5-amzn-0 Hive-hbase client.
hive-metastore-server 2.3.5-amzn-0 Service für den Zugriff auf den Hive-Metastore (ein semantisches Repository für die Speicherung von Metadaten für SQL zu Hadoop-Operationen).
hive-server2 2.3.5-amzn-0 Service zur Annahme von Hive-Abfragen als Webanfragen.
hue-server 4.4.0 Webanwendung für die Analyse von Daten mithilfe von Hadoop-Anwendungen.
jupyterhub 0.9.6 Multi-User-Server für Jupyter-Notebooks
Livy-Server 0.6.0-incubating REST-Schnittstelle für die Interaktion mit Apache Spark
nginx 1.12.1 nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server.
mahout-client 0.13.0 Bibliothek für Machine Learning.
mxnet 1.4.0 Eine flexible, skalierbare und effiziente Bibliothek für Deep Learning.