Amazon EMR-Neuigkeitenverlauf - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon EMR-Neuigkeitenverlauf

Versionshinweise für alle Amazon EMR-Versionen sind unten verfügbar. Umfassende Versionsinformationen für jede Version finden Sie unter Amazon EMR 5.x-Versionen und Amazon EMR 4.x-Versionen.

Abonnieren Sie das RSS-Feed für &EMR-Versionshinweise unter https://docs.aws.amazon.com/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss, um benachrichtigt zu werden, wenn eine neue Amazon EMR-Version verfügbar ist.

Version 6.2.0

Die folgenden Versionshinweise enthalten Informationen zu Amazon EMR Version 6.2.0. Änderungen beziehen sich auf Version 6.1.0.

Erste Version: 09. Dezember 2020

Letzte Aktualisierung: 08. Jan. 2021

Unterstützte Anwendungen

  • AWS SDK for Java Version 1.11.828

  • emr-record-server Version 1.7.0

  • Flink Version 1.11.2

  • Ganglia Version 3.7.2

  • Hadoop Version 3.2.1-amzn-1

  • HBase Version 2.2.6

  • HBase-operator-tools 1.0.0

  • HCatalog Version 3.1.2-amzn-0

  • Hive Version 3.1.2-amzn-3

  • Hudi Version 0.6.0-amzn-1

  • Hue Version 4.8.0

  • JupyterHub Version 1.1.0

  • Livy Version 0.7.0

  • MXNet Version 1.7.0

  • Oozie Version 5.2.0

  • Phoenix Version 5.0.0

  • Pig Version 0.17.0

  • Presto Version 0.238.3-amzn-1

  • PrestoSQL Version 343

  • Spark Version 3.0.1

  • Sparks-Rapids 0.2.0

  • TensorFlow Version 2.3.1

  • Zeppelin Version 0.9.0-preview1

  • Zookeeper Version 3.4.14

  • Anschlüsse und Treiber: DynamoDB Connector 4.16.0

Neue Funktionen

Änderungen, Verbesserungen und behobene Probleme

  • Spark: Leistungsverbesserungen in der Spark-Laufzeitumgebung.

Bekannte Probleme

  • Maven-Artefakte von Amazon EMR 6.2.0 werden nicht veröffentlicht. Sie werden mit einer zukünftigen Version von Amazon EMR veröffentlicht.

  • Persistentes HFile-Tracking mit der HBase storefile-Systemtabelle unterstützt die HBase-Regionsreplikationsfunktion nicht. Weitere Informationen zur HBase-Regionsreplikation finden Sie unter Timeline-consistent High Available Reads.

  • Versionsunterschiede bei Amazon EMR 6.x und EMR 5.x Hive Bucketing

    EMR 5.x verwendet OOS Apacke Hive 2, während in EMR 6.x OOS Apache Hive 3 verwendet wird. Der Open Source Hive2 verwendet Bucketing Version 1, während Open Source Hive3 Bucketing Version 2 verwendet. Diese unterschiedliche Bucketing-Version zwischen Hive 2 (EMR 5.x) und Hive 3 (EMR 6.x) bedeutet, dass Hive-Bucketing-Hashing-anders funktioniert. Sehen Sie sich das folgende Beispiel an.

    Die folgende Tabelle ist ein Beispiel, das in EMR 6.x bzw. EMR 5.x erstellt wurde.

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    Einfügen der gleichen Daten sowohl in EMR 6.x als auch in EMR 5.x.

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    Bei Überprüfen des S3-Speicherorts wird ersichtlich, dass der Bucketing-Dateiname anders lautet, da die Hashing-Funktion zwischen EMR 6.x (Hive 3) und EMR 5.x (Hive 2) unterschiedlich ist.

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    Sie können den Versionsunterschied auch anzeigen, indem Sie den folgenden Befehl in der Hive CLI in EMR 6.x ausführen. Beachten Sie, dass es Bucketing-Version 2 zurückgibt.

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...

Version 5.31.0

Die folgenden Versionshinweise enthalten Informationen zu Amazon EMR Version 5.31.0. Änderungen beziehen sich auf Version 5.30.1.

Erste Version: 9. Oktober 2020

Letzte Aktualisierung: 15. Okt. 2020

Upgrades

  • Upgrade von Amazon Glue-Connector auf Version 1.13.0

  • Upgrade von Amazon SageMaker Spark SDK auf Version 1.4.0

  • Upgrade von Amazon Kinesis-Connector auf Version 3.5.9

  • Upgrade von AWS Java SDK auf Version 1.11.852

  • Bigtop-tomcat auf Version 8.5.56 aktualisiert

  • Upgrade von EMR FS auf Version 2.43.0

  • Upgrade des EMR-MetricsAndEventsApiGateway-Clients auf Version 1.4.0

  • Upgrade von EMR S3 Dist CP auf Version 2.15.0

  • Upgrade von EMR S3 Select auf Version 1.6.0

  • Upgrade von Flink auf Version 1.11.0

  • Upgrade von Hadoop auf Version 2.10.0

  • Upgrade von Hive auf Version 2.3.7

  • Upgrade von Hudi auf Version 0.6.0

  • Upgrade von Hue auf Version 4.7.1

  • Upgrade von JupyterHub auf Version 1.1.0

  • Upgrade von Mxnet auf Version 1.6.0

  • Upgrade von OpenCV auf Version 4.3.0

  • Upgrade von Presto auf Version 0.238.3

  • Upgrade von TensorFlow auf Version 2.1.0

Änderungen, Verbesserungen und behobene Probleme

Neue Funktionen

  • Mit Amazon EMR 5.31.0 können Sie einen Cluster starten, der in Lake Formation integriert werden kann. Diese Integration bietet eine differenzierte Datenfilterung auf Spaltenebene für Datenbanken und Tabellen im AWS Glue-Datenkatalog. Außerdem ermöglicht sie über ein Unternehmens-Identitätssystem eine verbundene einmalige Anmeldung bei EMR Notebooks oder Apache Zeppelin. Weitere Informationen finden Sie unter Integrieren von Amazon EMR in AWS Lake Formation im Management Guide für Amazon EMR.

    Amazon EMR mit Lake Formation ist zurzeit in 16 AWS-Regionen verfügbar: USA Ost (Ohio und Northern Virginia), USA West (Nordkalifornien und Oregon), Asien-Pazifik (Mumbai, Seoul, Singapur, Sydney und Tokio), Kanada (Zentral), Europa (Frankfurt, Irland, London, Paris und Stockholm) sowie Südamerika (São Paulo).

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 6.1.0

Die folgenden Versionshinweise enthalten Informationen zu Amazon EMR Version 6.1.0. Änderungen beziehen sich auf Version 6.0.0.

Erstveröffentlichung: 04. September 2020

Letzte Aktualisierung: 15. Okt. 2020

Unterstützte Anwendungen

  • AWS SDK for Java Version 1.11.828

  • Flink-Version 1.11.0

  • Ganglia Version 3.7.2

  • Hadoop Version 3.2.1-amzn-1

  • HBase Version 2.2.5

  • HBase-operator-tools 1.0.0

  • HCatalog Version 3.1.2-amzn-0

  • Hive Version 3.1.2-amzn-1

  • Hudi Version 0.5.2-incubating

  • Hue Version 4.7.1

  • JupyterHub Version 1.1.0

  • Livy Version 0.7.0

  • MXNet Version 1.6.0

  • Oozie Version 5.2.0

  • Phoenix Version 5.0.0

  • Presto Version 0.232

  • PrestoSQL Version 338

  • Spark Version 3.0.0

  • TensorFlow Version 2.1.0

  • Zeppelin Version 0.9.0-preview1

  • Zookeeper Version 3.4.14

  • Anschlüsse und Treiber: DynamoDB Connector 4.14.0

Neue Funktionen

  • ARM-Instance-Typen werden ab Amazon EMR Version 5.30.0 und Amazon EMR Version 6.1.0 unterstützt.

  • M6g-Allzweck-Instance-Typen werden ab Amazon EMR Version 6.1.0 und 5.31.0 unterstützt. Weitere Informationen finden Sie unter Unterstützte Instance-Typen im Management Guide für Amazon EMR.

  • Die EC2-Platzierungsgruppen-Funktion wird ab Amazon EMR-Version 5.23.0 als Option für mehrere Master-Knoten-Cluster unterstützt. Zurzeit werden nur Master-Knotentypen von der Platzierungsgruppen-Funktion unterstützt, und die SPREAD-Strategie wird auf diese Master-Knoten angewendet. Die SPREAD-Strategie platziert eine kleine Gruppe von Instances auf separate zugrunde liegende Hardware, um den Verlust mehrerer Master-Knoten im Falle eines Hardwarefehlers zu schützen. Weitere Informationen finden Sie unter EMR-Integration mit EC2-Platzierungsgruppe im Management Guide für Amazon EMR.

  • Verwaltete Skalierung – Mit Amazon EMR ab Version 6.1.0 können Sie die verwaltete EMR-Skalierung aktivieren, um die Anzahl der Instances oder Einheiten in Ihrem Cluster abhängig vom Workload automatisch zu erhöhen oder zu verringern. EMR wertet Cluster-Metriken kontinuierlich aus, um Skalierungsentscheidungen zu treffen, die Ihre Cluster für Kosten und Geschwindigkeit optimieren. Managed Scaling ist auch für Amazon EMR Version 5.30.0 und höher verfügbar, außer 6.0.0. Weitere Informationen finden Sie unter Skalieren von Cluster-Ressourcen im Management Guide für Amazon EMR.

  • PrestoSQL Version 338 wird mit EMR 6.1.0 unterstützt. Weitere Informationen finden Sie unter Presto.

    • PrestoSQL wird nur unter EMR 6.1.0 und höheren Versionen unterstützt, nicht unter EMR 6.0.0 oder EMR 5.x.

    • Der Anwendungsname Presto wird weiterhin verwendet, um PrestoDB auf Clustern zu installieren. Um PrestoSQL auf Clustern zu installieren, verwenden Sie den Anwendungsnamen PrestoSQL.

    • Sie können PrestoDB oder PrestoSQL installieren. Sie können jedoch nicht beide Anwendungen auf einem einzigen Cluster installieren. Wenn sowohl PrestoDB als auch PrestoSQL beim Erstellen eines Clusters angegeben werden, tritt ein Validierungsfehler auf, und die Anforderung zur Clustererstellung schlägt fehl.

    • PrestoSQL wird sowohl auf Single-Master- als auch Multi-Master-Clustern unterstützt. Auf Multi-Master-Clustern ist ein externer Hive-Metastore erforderlich, um PrestoSQL oder PrestoDB auszuführen. Weitere Informationen finden Sie unter Unterstützte Anwendungen in einem EMR-Cluster mit mehreren Master-Knoten.

  • Unterstützung der automatischen ECR-Authentifizierung auf Apache Hadoop und Apache Spark mit Docker: Spark-Benutzer können Docker-Images aus Docker Hub und Amazon Elastic Container Registry (Amazon ECR) verwenden, um Umgebungs- und Bibliotheksabhängigkeiten zu definieren.

    Konfigurieren Sie Docker und führen Sie Spark-Anwendungen mit Docker unter Amazon EMR 6.x aus.

  • EMR unterstützt Apache Hive ACID-Transaktionen: Amazon EMR 6.1.0 fügt Unterstützung für Hive ACID-Transaktionen hinzu, um den ACID-Eigenschaften einer Datenbank zu entsprechen. Mit dieser Funktion können Sie INSERT-, UPDATE-, DELETE- und MERGE-Operationen in Hive-verwalteten Tabellen mit Daten in Amazon Simple Storage Service (Amazon S3) ausführen. Dies ist eine Schlüsselfunktion für Anwendungsfälle wie Streaming-Aufnahme, Datenumformulierungen, Massenaktualisierungen mit MERGE und sich langsam verändernde Dimensionen. Weitere Informationen einschließlich Konfigurationsbeispielen und Anwendungsfällen finden Sie unter Amazon EMR unterstützt Apache Hive ACID-Transaktionen.

Änderungen, Verbesserungen und behobene Probleme

  • Apache Flink wird unter EMR 6.0.0 nicht unterstützt, unter EMR 6.1.0 mit Flink 1.11.0 jedoch unterstützt. Dies ist die erste Version von Flink, die Hadoop 3 offiziell unterstützt. Weitere Informationen finden Sie unter Apache Flink 1.11.0-Versionsankündigung.

  • Ganglia wurde aus den EMR 6.1.0-Standardpaketen entfernt.

Bekannte Probleme

  • Wenn Sie eine benutzerdefinierte Speicherbereinigungskonfiguration mit spark.driver.extraJavaOptions und spark.executor.extraJavaOptions festlegen, führt dies zu aufgrund einer widersprüchlichen Speicherbereinigungskonfiguration zu einem Fehler beim Starten des Treibers/Executors mit EMR 6.1. Mit EMR Version 6.1.0 sollten Sie stattdessen eine benutzerdefinierte Spark-Speicherbereinigungskonfiguration für Treiber und Executors mit den Eigenschaften spark.driver.defaultJavaOptions und spark.executor.defaultJavaOptions angeben. Weitere Informationen finden Sie unter Apache Spark-Laufzeitumgebung und Konfigurieren der Spark-Speicherbereinigung in Amazon EMR 6.1.0.

  • Wenn Sie Pig mit Oozie verwenden (und innerhalb von Hue, da Hue Oozie-Aktionen zum Ausführen von Pig-Skripts verwendet), wird die Fehlermeldung angezeigt, dass eine native-lzo-Bibliothek nicht geladen werden kann. Diese Fehlermeldung dient Informationszwecken und blockiert die Ausführung von Pig nicht.

  • Hudi-Gleichzeitigkeitsunterstützung: Zurzeit unterstützt Hudi keine gleichzeitigen Schreibvorgänge in einer einzelnen Hudi-Tabelle. Darüber hinaus setzt Hudi alle Änderungen zurück, die von zurzeit ausgeführten Writern durchgeführt werden, bevor ein neuer Writer gestartet werden kann. Gleichzeitige Schreibvorgänge können mit diesem Mechanismus konkurrieren und Race-Bedingungen schaffen, was zu Datenbeschädigungen führen kann. Sie sollten sicherstellen, dass im Rahmen Ihres Datenverarbeitungs-Workflows stets nur ein einziger Hudi-Writer in einer Hudi-Tabelle arbeitet. Hudi unterstützt jedoch mehrere gleichzeitige Reader, die in derselben Hudi-Tabelle arbeiten.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 6.0.0

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 6.0.0.

Erste Version: 10. März 2020

Unterstützte Anwendungen

  • AWS SDK for Java Version 1.11.711

  • Ganglia Version 3.7.2

  • Hadoop Version 3.2.1

  • HBase Version 2.2.3

  • HCatalog Version 3.1.2

  • Hive Version 3.1.2

  • Hudi Version 0.5.0-incubating

  • Hue Version 4.4.0

  • JupyterHub Version 1.0.0

  • Livy Version 0.6.0

  • MXNet Version 1.5.1

  • Oozie Version 5.1.0

  • Phoenix Version 5.0.0

  • Presto Version 0.230

  • Spark Version 2.4.4

  • TensorFlow Version 1.14.0

  • Zeppelin Version 0.9.0-SNAPSHOT

  • Zookeeper Version 3.4.14

  • Anschlüsse und Treiber: DynamoDB Connector 4.14.0

Anmerkung

Flink, Sqoop, Pig und Mahout sind in Amazon EMR Version 6.0.0 nicht verfügbar.

Neue Funktionen

  • YARN Docker Runtime Support - YARN-Anwendungen, wie etwa Spark-Aufgaben, können jetzt im Kontext eines Docker-Containers ausgeführt werden. Dadurch können Sie ganz einfach Abhängigkeiten in einem Docker-Image definieren, ohne dass benutzerdefinierte Bibliotheken auf dem Amazon EMR-Cluster installiert werden müssen. Weitere Informationen finden Sie unter Konfigurieren der Docker-Integration und Ausführen von Spark-Anwendungen mit Docker mit Amazon EMR 6.0.0.

  • Unterstützung für Hive LLAP - Hive unterstützt jetzt den LLAP-Ausführungsmodus für eine verbesserte Abfrageleistung. Weitere Informationen finden Sie unter Verwenden von Hive LLAP.

Änderungen, Verbesserungen und behobene Probleme

  • Amazon Linux

    • Amazon Linux 2 ist das Betriebssystem für die EMR 6.x-Release-Serie.

    • systemd wird für die Serviceverwaltung statt upstart in Amazon Linux 1 verwendet.

  • Java Development Kit (JDK)

    • Coretto JDK 8 ist das Standard-JDK für die EMR 6.x-Release-Serie.

  • Scala

    • Scala 2.12 wird mit Apache Spark und Apache Livy verwendet.

  • Python 3

    • Python 3 ist jetzt die Standardversion von Python in EMR.

  • YARN-Knotenbeschriftungen

    • Beginnend mit der Amazon EMR 6.x-Release-Reihe ist die Funktion YARN-Knotenbeschriftungen standardmäßig deaktiviert. Die Anwendungs-Master-Prozesse können standardmäßig sowohl auf Kern- als auch auf Aufgabenknoten ausgeführt werden. Sie können die Funktion YARN-Knotenbeschriftungen aktivieren, indem Sie folgende Eigenschaften konfigurieren: yarn.node-labels.enabled und yarn.node-labels.am.default-node-label-expression. Weitere Informationen finden Sie unter Grundlegendes zu Master-, Kern- und Aufgabenknoten.

Bekannte Probleme

  • Die interaktive Spark-Shell, einschließlich PySpark, SparkR und Spark-Shell, unterstützt die Verwendung von Docker mit zusätzlichen Bibliotheken nicht.

  • Um Python 3 mit Amazon EMR-Version 6.0.0 zu verwenden, müssen Sie yarn.nodemanager.env-whitelist PATH hinzufügen.

  • Die Live Long and Process (LLAP)-Funktionalität wird nicht unterstützt, wenn Sie den AWS Glue-Datenkatalog als Metastore für Hive verwenden.

  • Wenn Sie Amazon EMR 6.0.0 mit der Spark- und Docker-Integration verwenden, müssen Sie die Instances in Ihrem Cluster mit dem gleichen Instance-Typ und der gleichen Menge an EBS-Volumes konfigurieren, um Fehler beim Senden eines Spark-Auftrags mit Docker-Laufzeit zu vermeiden.

  • In Amazon EMR 6.0.0 ist HBase im Amazon S3-Speichermodus vom HBASE-24286.-Problem betroffen. HBase Master kann nicht initialisiert werden, wenn der Cluster mit vorhandenen S3-Daten erstellt wird.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.30.1

Die folgenden Versionshinweise enthalten Informationen zu Amazon EMR Version 5.30.1. Änderungen beziehen sich auf Version 5.30.0.

Erste Version: 30. Juni 2020

Letzte Aktualisierung: 24. August 2020

Änderungen, Verbesserungen und behobene Probleme

  • Es wurde ein Problem behoben, bei dem der Instance-Controller-Prozess unendlich viele Prozesse hervorgebracht hat.

  • Es wurde ein Problem behoben, bei dem Hue keine Hive-Abfrage ausführen konnte, bei der die Meldung „Datenbank ist gesperrt“ angezeigt wird und die die Ausführung von Abfragen verhindert hat.

  • Ein Spark-Problem wurde behoben, durch das mehr Aufgaben gleichzeitig auf dem EMR-Cluster ausgeführt werden können.

  • Es wurde ein Jupyter-Notizbuch-Problem behoben, das einen „Fehler beim Öffnen von Dateien“ auf dem Jupyter-Server verursachte.

  • Ein Problem mit den Startzeiten des Clusters wurde behoben.

Neue Funktionen

  • Persistente Anwendungsschnittstellen von Tez UI und YARN Timeline Server sind mit Amazon EMR-Versionen 6.x sowie EMR-Version 5.30.1 und höher verfügbar. Mit einem Klick auf den persistenten Anwendungsverlauf können Sie schnell auf den Aufgabenverlauf zugreifen, ohne einen Web-Proxy über eine SSH-Verbindung einzurichten. Protokolle für aktive und beendete Cluster stehen 30 Tage nach Beendigung der Anwendung zur Verfügung. Weitere Informationen finden Sie unter Anzeigen von persistenten Anwendungsbenutzeroberflächen im Management Guide für Amazon EMR.

  • Mit EMR Notebook-Ausführungs-APIs können EMR-Notebooks über ein Skript oder eine Befehlszeile ausgeführt werden. Mit der Möglichkeit, EMR-Notebooks ohne die AWS-Konsole zu starten, zu stoppen, aufzulisten und zu beschreiben, können Sie ein EMR-Notebook programmgesteuert steuern. Mithilfe einer parametrisierten Notebook-Zelle können Sie verschiedene Parameterwerte an ein Notizbuch übergeben, ohne für jeden neuen Satz von Paramterwerten eine Kopie des Notizbuchs erstellen zu müssen. Weitere Informationen finden Sie unter EMR-API-Aktionen. Beispiel-Code finden Sie unter Beispielbefehle zum programmgesteuerten Ausführen von EMR Notebooks.

Bekannte Probleme

  • EMR-Notebooks

    Die Funktion, mit der Sie zusätzliche Python-Bibliotheken und Kernels auf dem Master-Knoten des Clusters installieren können, ist standardmäßig in EMR-Version 5.30.1 deaktiviert. Weitere Informationen zu dieser Funktion finden Sie unter Installieren von Kernels und Python-Bibliotheken auf einem Cluster-Master-Knoten.

    Gehen Sie folgendermaßen vor, um diese Funktion zu aktivieren:

    1. Stellen Sie sicher, dass die der Servicerolle für EMR Notebooks angefügte Berechtigungsrichtlinie die folgende Aktion zulässt:

      elasticmapreduce:ListSteps

      Weitere Informationen finden Sie unter Servicerolle für EMR-Notebooks.

    2. Verwenden Sie die AWS CLI, um einen Schritt auf dem Cluster auszuführen, der EMR-Notebooks einrichtet, wie im folgenden Beispiel gezeigt. Weitere Informationen finden Sie unter Hinzufügen von Schritten zu einem Cluster mithilfe der AWS-CLI.

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • Verwaltete Skalierung

    Verwaltete Skalierungsoperationen auf 5.30.0- und 5.30.1-Clustern ohne Installation von Presto können Anwendungsfehler verursachen oder dazu führen, dass eine einheitliche Instance-Gruppe oder Instance-Flotte im ARRESTED-Status verbleibt. Dies gilt besonders dann, wenn eine Abwärtsskalierungsoperation schnell von einer Aufwärtsskalierungsoperation gefolgt wird.

    Als Problemumgehung können Sie Presto als Anwendung auswählen, die beim Erstellen eines Clusters installiert werden soll, auch wenn Ihre Aufgabe Presto nicht erfordert.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.30.0

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.30.0. Änderungen beziehen sich auf Version 5.29.0.

Erste Version: 13. Mai 2020

Letzte Aktualisierung: 25. Juni 2020

Upgrades

  • AWS SDK for Java auf Version 1.11.759 aktualisiert

  • Amazon SageMaker Spark SDK auf Version 1.3.0 aktualisiert

  • EMR Record Server auf Version 1.6.0 aktualisiert

  • Flink auf Version 1.10.0 aktualisiert

  • Ganglia auf Version 3.7.2 aktualisiert

  • HBase auf Version 1.4.13 aktualisiert

  • Hudi auf Version 0.5.2-incubating aktualisiert

  • Hue auf Version 4.6.0 aktualisiert

  • JupyterHub auf Version 1.1.0 aktualisiert

  • Livy auf Version 0.7.0-incubating aktualisiert

  • Oozie auf Version 5.2.0 aktualisiert

  • Presto auf Version 0.232 aktualisiert

  • Spark auf Version 2.4.5 aktualisiert

  • Konnektoren und Treiber aktualisiert: Amazon Glue Connector 1.12.0; Amazon Kinesis Connector 3.5.0; EMR DynamoDB Connector 4.14.0

Neue Funktionen

  • EMR-Notebooks – Bei Verwendung mit EMR-Clustern, die mit 5.30.0 erstellt wurden, werden EMR-Notebook-Kernel auf dem Cluster ausgeführt. Dies verbessert die Notebook-Leistung und ermöglicht es Ihnen, Kernel zu installieren und anzupassen. Sie können Python-Bibliotheken auch auf dem Cluster-Master-Knoten installieren. Weitere Informationen finden Sie unter Installieren und Verwenden von Kernels und Bibliotheken im Management Guide für EMR.

  • Verwaltete Skalierung –Mit Amazon EMR ab Version 5.30.0 können Sie die verwaltete EMR-Skalierung aktivieren, um die Anzahl der Instances oder Einheiten in Ihrem Cluster basierend auf der Workload automatisch zu erhöhen oder zu verringern. EMR wertet Cluster-Metriken kontinuierlich aus, um Skalierungsentscheidungen zu treffen, die Ihre Cluster für Kosten und Geschwindigkeit optimieren. Weitere Informationen finden Sie unter Skalieren von Cluster-Ressourcen im Management Guide für Amazon EMR.

  • In Amazon S3 gespeicherte Protokolldateien verschlüsseln – Mit Amazon EMR Version 5.30.0 oder höher können Sie Protokolldateien verschlüsseln, die mit einem kundenverwalteten AWS KMS-Schlüssel in Amazon S3 gespeichert sind. Weitere Informationen finden Sie unter In Amazon S3 gespeicherte Protokolldateien verschlüsseln im Management Guide für Amazon EMR.

  • Unterstützung von Amazon Linux 2 – In EMR Version 5.30.0 und höher verwendet EMR das Betriebssystem Amazon Linux 2. Neue benutzerdefinierte AMIs (Amazon Machine Image) müssen auf dem Amazon Linux 2-AMI basieren. Weitere Informationen finden Sie unter Verwenden eines benutzerdefinierten AMI.

  • Ordnungsgemäßes Presto Auto Scaling – EMR-Cluster mit 5.30.0 können mit einer Auto Scaling-Zeitüberschreitung festgelegt werden, die Presto-Aufgaben Zeit zum Abschluss der Ausführung gibt, bevor ihr Knoten stillgelegt wird. Weitere Informationen finden Sie unter Verwenden von Presto Auto Scaling mit ordnungsgemäßer Stilllegung.

  • Erstellung von Flotten-Instances mit neuer Zuweisungsstrategieoption – Eine neue Zuweisungsstrategie ist in EMR Version 5.12.1 und höher verfügbar. Sie bietet schnellere Clusterbereitstellung, genauere Spot-Zuweisung und weniger Spot-Instance-Unterbrechungen. Aktualisierungen für nicht standardmäßige EMR-Service-Rollen sind erforderlich. Informationen finden Sie unter Konfigurieren von Instance-Flotten.

  • Die Befehle „sudo systemctl stop“ und „sudo systemctl start“ – in EMR-Version 5.30.0 und höher, die das Betriebssystem Amazon Linux 2 nutzen, werden in EMR die Befehle „sudo systemctl stop“ und „sudo systemctl start“ zum Starten neuer Services verwendet. Weitere Informationen finden Sie unter Wie starte ich einen Service in Amazon EMR neu?.

Änderungen, Verbesserungen und behobene Probleme

  • EMR Version 5.30.0 installiert Ganglia standardmäßig nicht. Sie können Ganglia explizit für die Installation auswählen, wenn Sie einen Cluster erstellen.

  • Spark-Leistungsoptimierungen.

  • Presto-Leistungsoptimierungen.

  • Python 3 ist die Standardeinstellung für Amazon EMR Version 5.30.0 und höher.

  • Die standardmäßige verwaltete Sicherheitsgruppe für den Zugriff auf Services in privaten Subnetzen wurde mit neuen Regeln aktualisiert. Wenn Sie benutzerdefinierte Sicherheitsgruppe für den Servicezugriff verwenden, müssen Sie dieselben Regeln wie die standardmäßige verwaltete Sicherheitsgruppe einschließen. Weitere Informationen finden Sie unter Amazon EMR-verwaltete Sicherheitsgruppe für den Servicezugriff (private Subnetze). Wenn Sie eine benutzerdefinierte Servicerolle für Amazon EMR verwenden, müssen Sie die Berechtigung zum ec2:describeSecurityGroups erteilen, damit EMR überprüfen kann, ob die Sicherheitsgruppen korrekt erstellt wurden. Wenn Sie EMR_DefaultRole verwenden, ist diese Berechtigung bereits in der standardmäßigen verwalteten Richtlinie enthalten.

Bekannte Probleme

  • Verwaltete Skalierung

    Verwaltete Skalierungsoperationen auf 5.30.0- und 5.30.1-Clustern ohne Installation von Presto können Anwendungsfehler verursachen oder dazu führen, dass eine einheitliche Instance-Gruppe oder Instance-Flotte im ARRESTED-Status verbleibt. Dies gilt besonders dann, wenn eine Abwärtsskalierungsoperation schnell von einer Aufwärtsskalierungsoperation gefolgt wird.

    Als Problemumgehung können Sie Presto als Anwendung auswählen, die beim Erstellen eines Clusters installiert werden soll, auch wenn Ihre Aufgabe Presto nicht erfordert.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.29.0

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.29.0. Änderungen beziehen sich auf Version 5.28.1.

Erste Version: 17. Januar 2020

Upgrades

  • Upgrade von AWS Java SDK auf Version 1.11.682

  • Upgrade von Hive auf Version 2.3.6

  • Upgrade von Flink auf Version 1.9.1

  • Upgrade von EmrFS auf Version 2.38.0

  • Upgrade von EMR DynamoDB Connector auf Version 4.13.0

Änderungen, Verbesserungen und behobene Probleme

  • Spark

    • Spark-Leistungsoptimierungen.

  • EMRFS

    • Management Guide-Updates zu den emrfs-site.xml-Standardeinstellungen für eine konsistente Darstellung.

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.28.1

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.28.1. Änderungen beziehen sich auf Version 5.28.0.

Erste Version: 10. Januar 2020

Änderungen, Verbesserungen und behobene Probleme

  • Spark

    • Spark-Kompatibilitätsprobleme behoben.

  • CloudWatch-Metriken

    • Die Veröffentlichung von Amazon CloudWatch-Metriken auf einem EMR-Cluster mit mehreren Master-Knoten wurde behoben.

  • Protokollmeldung deaktiviert

    • Die falsche Protokollmeldung "...using old version (<4.5.8) of Apache http client" wurde deaktiviert.

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.28.0

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.28.0. Änderungen beziehen sich auf Version 5.27.0.

Erste Version: 12. November 2019

Upgrades

  • Upgrade von Flink auf Version 1.9.0

  • Upgrade von Hive auf Version 2.3.6

  • Upgrade von MXNet auf Version 1.5.1

  • Upgrade von Phoenix auf Version 4.14.3

  • Upgrade von Presto auf Version 0.227

  • Upgrade von Zeppelin auf Version 0.8.2

Neue Funktionen

  • Apache Hudi steht nun zur Installation unter Amazon EMR zur Verfügung, wenn Sie einen Cluster erstellen. Weitere Informationen finden Sie unter Hudi.

  • (25. November 2019) Sie können jetzt auf Wunsch mehrere Schritte gleichzeitig ausführen, um die Cluster-Nutzung zu verbessern und Kosten zu sparen. Außerdem können Sie sowohl anstehende als auch laufende Schritte stornieren. Weitere Informationen finden Sie unter Arbeiten mit Schritten unter Verwendung der AWS CLI und Konsole.

  • (3. Dezember 2019) Sie können jetzt EMR-Cluster auf AWS Outposts erstellen und ausführen. AWS Outposts ermöglicht native AWS-Services, Infrastruktur und Betriebsmodelle in lokalen Einrichtungen. Sie können in AWS Outposts-Umgebungen die gleichen AWS APIs und Tools sowie die gleiche Infrastruktur wie in der AWS Cloud verwenden. Weitere Informationen finden Sie unter EMR-Cluster auf AWS Outposts.

  • (11. März 2020) Ab Amazon EMR Version 5.28.0 können Sie Amazon EMR-Cluster in einem Lokale AWS-Zonen-Subnetz als logische Erweiterung einer AWS-Region erstellen und ausführen, die Lokale Zonen unterstützt. Ein Lokale Zone ermöglicht Amazon EMR-Funktionen und einer Teilmenge von AWS-Services, wie etwa Datenverarbeitungs- und Speicher-Services, näher an den Benutzern zu operieren, wodurch der Zugriff auf lokal ausgeführte Anwendungen mit sehr geringer Latenz möglich wird. Eine Liste der verfügbaren Lokale Zonen finden Sie unter Lokale AWS-Zonen. Informationen zum Zugriff auf verfügbare Lokale AWS-Zonen finden Sie unter Regionen, Availability Zones und Local Zones.

    Lokale Zonen unterstützen derzeit keine Amazon EMR-Notebooks und keine Verbindungen direkt mit Amazon EMR über den Schnittstellen-VPC-Endpunkt (AWS PrivateLink).

Änderungen, Verbesserungen und behobene Probleme

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Veröffentlichung 5.27.0

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.27.0. Änderungen beziehen sich auf Version 5.26.0.

Erste Version: 23. September 2019

Upgrades

  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • Tensorflow 1.14.0

  • Konnektoren und Treiber:

    • DynamoDB Connector 4.12.0

Neue Funktionen

  • (24. Okt. 2019) Die folgenden neuen Funktionen in EMR-Notebooks sind in allen Amazon EMR-Versionen verfügbar.

    • Sie können jetzt Git-Repositorys mit Ihren EMR-Notebooks verknüpfen, um Ihre Notebooks in einer versionskontrollierten Umgebung zu speichern. Sie können Code mit Kollegen teilen und vorhandene Jupyter-Notebooks über Remote-Git-Repositorys wiederverwenden. Weitere Informationen finden Sie unter Zuordnen von Git-Repositorys zu Amazon EMR-Notebooks in Management Guide für Amazon EMR.

    • Das nbdime-Dienstprogramm ist jetzt in EMR Notebooks verfügbar, um das Vergleichen und Zusammenführen von Notebooks zu vereinfachen. Â

    • EMR-Notebooks unterstützen jetzt JupyterLab. Bei JupyterLab handelt es sich um eine webbasierte interaktive Entwicklungsumgebung, die vollständig kompatibel mit Jupyter-Notebooks ist. Sie können Ihr Notebook nun wahlweise in JupyterLab oder Jupyter-Notebook-Editor öffnen.

  • (30. Okt. 2019) Ab Amazon EMR Version 5.25.0 können Sie über die Seite Summary (Zusammenfassung) des Clusters oder die Registerkarte Application history (Anwendungsverlauf) in der Konsole eine Verbindung zur Benutzeroberfläche des Spark History Servers herstellen. Anstatt einen Web-Proxy über eine SSH-Verbindung einzurichten, können Sie schnell auf die Spark History Server-Benutzeroberfläche zugreifen, um Anwendungsmetriken anzuzeigen und auf relevante Protokolldateien für aktive und beendete Cluster zuzugreifen. Weitere Informationen finden Sie unter Off-Cluster-Zugriff auf Benutzeroberflächen für persistente Anwendungen im Management Guide für Amazon EMR.

Änderungen, Verbesserungen und behobene Probleme

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.26.0

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.26.0. Änderungen beziehen sich auf Version 5.25.0.

Erste Version: 8. August 2019

Letzte Aktualisierung: 19. August 2019

Upgrades

  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • Konnektoren und Treiber:

    • DynamoDB-Konnektor 4.11.0

    • MariaDB-Konnektor 2.4.2

    • Amazon Redshift-JDBC-Treiber 1.2.32.1056

Neue Funktionen

  • (Beta) Bei Amazon EMR 5.26.0 können Sie einen in Lake Formation integrierten Cluster starten. Diese Integration bietet differenzierten Zugriff auf Spaltenebene auf Datenbanken und Tabellen im AWS Glue-Datenkatalog. Außerdem ermöglicht sie über ein Unternehmens-Identitätssystem eine verbundene einmalige Anmeldung bei EMR Notebooks oder Apache Zeppelin. Weitere Informationen finden Sie unter Integrieren von Amazon EMR mit AWS Lake Formation (Beta).

  • (19 August 2019) Amazon EMR Block Public Access ist jetzt bei allen Amazon EMR-Versionen verfügbar, die Sicherheitsgruppen unterstützen. Das Blockieren des öffentlichen Zugriffs ist eine kontoweite Einstellung, die auf jede AWS-Region angewandt wird. Durch Blockieren des öffentlichen Zugriffs wird das Starten eines Clusters verhindert, wenn eine mit dem Cluster verknüpfte Sicherheitsgruppe über eine Regel verfügt, die eingehenden Datenverkehr von IPv4 0.0.0.0/0 oder IPv6 ::/0 (öffentlicher Zugriff) auf einem Port zulässt, sofern kein Port als Ausnahme festgelegt ist. Port 22 ist standardmäßig eine Ausnahme. Weitere Informationen finden Sie unter Using Amazon EMR Block Public Access im Management Guide für Amazon EMR.

Änderungen, Verbesserungen und behobene Probleme

  • EMR-Notebooks

    • Ab EMR 5.26.0 unterstützt EMR-Notebooks zusätzlich zu Python-Standardbibiliotheken Notebook-bezogene Python-Bibliotheken. Sie können Notebook-bezogene Bibliotheken aus dem Notebook-Editor heraus installieren, ohne einen Cluster neu erstellen oder ein Notebook einem Cluster neu zuweisen zu müssen. Da Notebook-bezogene Bibliotheken in einer virtuellen Python-Umgebung erstellt werden, gelten sie nur für die aktuelle Notebook-Sitzung. Auf diese Weise können Sie Notebook-Abhängigkeiten isolieren. Weitere Informationen finden Sie unter Using Notebook Scoped Libraries im Management Guide für Amazon EMR.

  • EMRFS

    • Durch Einstellen von fs.s3.consistent.metadata.etag.verification.enabled auf true können Sie eine ETag-Verifizierungsfunktion (Beta) aktivieren. Bei dieser Funktion überprüft EMRFS mithilfe von Amazon S3-ETags, ob die neueste verfügbare Version von Objekten gelesen wird. Diese Funktion ist für Read-after-Update-Anwendungsfälle nützlich, bei denen in Amazon S3 überschriebene Dateien den gleichen Namen beibehalten. Diese ETag-Verifizierungsfunktion funktioniert derzeit nicht mit S3 Select. Weitere Informationen finden Sie unter Konfigurieren der konsistenten Ansicht.

  • Spark

    • Die folgenden Optimierungen sind jetzt standardmäßig aktiviert: dynamische Partitionsbereinigung, DISTINCT vor INTERSECT, Verbesserungen an der SQL-Planstatistik-Inferenz für JOIN gefolgt von DISTINCT-Abfragen, Abflachen skalarer Unterabfragen, optimierte Join-Neuanordnung und Bloomfilter für Joins. Weitere Informationen finden Sie unter Optimierung der Spark-Leistung.

    • Die gesamte Stufencodeerstellung für Sortieren, Zusammenführen und Verknüpfen wurde verbessert.

    • Die Wiederverwendung von Abfragefragmenten und Unterabfragen wurde verbessert.

    • Verbesserungen, sodass Executors beim Starten von Spark vorab zugewiesen werden.

    • Bloomfilter für Joins werden nun nicht mehr angewandt, wenn die kleinere Seite des Joins einen Broadcast-Hinweis enthält.

  • Tez

    • Ein Problem mit Tez wurde behoben. Tez UI funktioniert nun auf einem EMR-Cluster mit mehreren Masterknoten.

Bekannte Probleme

  • Die verbesserten Funktionen der gesamten Stufencodeerstellung für Sortieren, Zusammenführen und Verknüpfen erhöhen die Speicherbelastung, wenn sie aktiviert sind. Diese Optimierung bringt Leistungsverbesserungen, führt möglicherweise aber zu Auftragswiederholungen oder Fehlern, wenn der spark.yarn.executor.memoryOverheadFactor nicht für die Bereitstellung von ausreichendem Arbeitsspeicher optimiert ist. Um diese Funktion zu deaktivieren, stellen Sie spark.sql.sortMergeJoinExec.extendedCodegen.enabled auf „false“ ein.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.25.0

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.25.0. Änderungen beziehen sich auf Version 5.24.1.

Erste Version: 17. Juli 2019

Letzte Aktualisierung: 30. Okt. 2019

Amazon EMR 5.25.0

Upgrades

  • AWS SDK for Java 1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • ZooKeeper 3.4.14

Neue Funktionen

  • (30. Okt. 2019) Beginnend mit Amazon EMR Version 5.25.0 können Sie über die Seite Summary (Zusammenfassung) des Clusters oder die Registerkarte Application history (Anwendungsverlauf) in der Konsole eine Verbindung zur Benutzeroberfläche des Spark History Servers herstellen. Anstatt einen Web-Proxy über eine SSH-Verbindung einzurichten, können Sie schnell auf die Spark History Server-Benutzeroberfläche zugreifen, um Anwendungsmetriken anzuzeigen und auf relevante Protokolldateien für aktive und beendete Cluster zuzugreifen. Weitere Informationen finden Sie unter Off-Cluster-Zugriff auf Benutzeroberflächen für persistente Anwendungen im Management Guide für Amazon EMR.

Änderungen, Verbesserungen und behobene Probleme

  • Spark

    • Verbesserung der Leistung einiger Joins mithilfe von Bloomfiltern zum Vorfiltern der Ausgaben. Die Optimierung ist standardmäßig deaktiviert. Sie können Sie aktivieren, indem Sie für den Parameter spark.sql.bloomFilterJoin.enabled der Spark-Konfiguration true festlegen.

    • Verbesserung der Leistung der Gruppierung nach Zeichenfolgetyp-Spalten.

    • Verbesserung der Standardkonfiguration von Spark Executor-Arbeitsspeicher und -Kernen der R4-Instance-Typen für Cluster ohne HBase.

    • Behebung eines früheren Problems mit der Funktion zur dynamischen Partitionsbereinigung, bei dem sich die bereinigte Tabelle auf der linken Seite des Joins befinden muss.

    • Verbesserung der Optimierung von DISTINCT vor INTERSECT für weitere Fälle mit Aliasnamen.

    • Verbesserung der SQL-Planstatistik-Inferenz für JOIN gefolgt von DISTINCT-Abfragen. Diese Verbesserung ist standardmäßig deaktiviert. Sie können Sie aktivieren, indem Sie für den Parameter spark.sql.statsImprovements.enabled der Spark-Konfiguration true festlegen. Diese Optimierung wird von der Funktion DISTINCT vor INTERSECT benötigt und wird automatisch aktiviert, wenn für spark.sql.optimizer.distinctBeforeIntersect.enabled true festgelegt ist.

    • Optimierung der Join-Reihenfolge basierend auf Tabellengröße und Filtern. Diese Optimierung ist standardmäßig deaktiviert. Sie können Sie aktivieren, indem Sie für den Parameter spark.sql.optimizer.sizeBasedJoinReorder.enabled der Spark-Konfiguration true festlegen.

    Weitere Informationen finden Sie unter Optimierung der Spark-Leistung.

  • EMRFS

    • Die EMRFS-Einstellung, fs.s3.buckets.create.enabled, ist jetzt standardmäßig deaktiviert. Mithilfe von Tests fanden wir heraus, dass eine Deaktivierung dieser Einstellung die Leistung verbessert und die unabsichtliche Erstellung von S3-Buckets verhindert. Wenn Ihre Anwendung sich auf diese Funktionalität stützt, können Sie sie aktivieren, indem Sie für die Eigenschaft fs.s3.buckets.create.enabled in der emrfs-site-Konfigurationsklassifizierung true festlegen. Weitere Informationen finden Sie unter Angeben einer Konfiguration beim Erstellen eines Clusters.

  • Verbesserungen an der Verschlüsselung lokaler Datenträger und der S3-Verschlüsselung in Sicherheitskonfigurationen (05. August 2019)

    • In der Sicherheitskonfiguration wurden Amazon S3-Verschlüsselungseinstellungen von Verschlüsselungseinstellungen für lokale Datenträger getrennt.

    • Ab Version 5.24.0 wurde eine Option zum Aktivieren der EBS-Verschlüsselung hinzugefügt. Bei Auswahl dieser Option wird zusätzlich zu den Speichervolumes auch der Root-Gerät-Datenträger verschlüsselt. Bei bisherigen Versionen musste zum Verschlüsseln des Root-Gerät-Datenträgers eine benutzerdefinierte AMI verwendet werden.

    • Weitere Informationen finden Sie unter Verschlüsselungsoptionen im Management Guide für Amazon EMR.

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.24.1

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.24.1. Änderungen beziehen sich auf Version 5.24.0.

Erste Version: 26. Juni 2019

Änderungen, Verbesserungen und behobene Probleme

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.24.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.24.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.23.0.

Erste Version: 11. Juni 2019

Letzte Aktualisierung: 5. August 2019

Upgrades

  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java 1.11.546

  • Konnektoren und Treiber:

    • DynamoDB-Konnektor 4.9.0

    • MariaDB-Konnektor 2.4.1

    • Amazon Redshift JDBC-Treiber 1.2.27.1051

Änderungen, Verbesserungen und behobene Probleme

  • Spark

    • Optimierung zum dynamischen Beschneiden von Partitionen. Die Optimierung ist standardmäßig deaktiviert. Setzen Sie den Spark-Konfigurationsparameter spark.sql.dynamicPartitionPruning.enabled auf true, um sie zu aktivieren.

    • Verbesserung der Leistung von INTERSECT-Anfragen. Diese Optimierung ist standardmäßig deaktiviert. Setzen Sie den Spark-Konfigurationsparameter spark.sql.optimizer.distinctBeforeIntersect.enabled auf true, um sie zu aktivieren.

    • Optimierung zum Ausgleich skalarer Unterabfragen mit Aggregaten, die dieselbe Beziehung verwenden. Die Optimierung ist standardmäßig deaktiviert. Setzen Sie den Spark-Konfigurationsparameter spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled auf true, um sie zu aktivieren.

    • Verbesserung der gesamten Stufencodeerstellung.

    Weitere Informationen finden Sie unter Optimierung der Spark-Leistung.

  • Verbesserungen an der Verschlüsselung lokaler Datenträger und der S3-Verschlüsselung in Sicherheitskonfigurationen (05. August 2019)

    • In der Sicherheitskonfiguration wurden Amazon S3-Verschlüsselungseinstellungen von Verschlüsselungseinstellungen für lokale Datenträger getrennt.

    • Es wurde eine Option zum Aktivieren der EBS-Verschlüsselung hinzugefügt. Bei Auswahl dieser Option wird zusätzlich zu den Speichervolumes auch der Root-Gerät-Datenträger verschlüsselt. Bei bisherigen Versionen musste zum Verschlüsseln des Root-Gerät-Datenträgers eine benutzerdefinierte AMI verwendet werden.

    • Weitere Informationen finden Sie unter Verschlüsselungsoptionen im Management Guide für Amazon EMR.

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.23.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.23.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.22.0.

Erste Version: 01. April 2019

Letzte Aktualisierung: 30. April 2019

Upgrades

  • AWS SDK for Java 1.11.519

Neue Funktionen

  • (30. April 2019) Ab Amazon EMR 5.23.0 können Sie einen Cluster mit drei Masterknoten starten, um die Hochverfügbarkeit von Anwendungen wie YARN Resource Manager, HDFS Name Node, Spark, Hive und Ganglia zu unterstützen. Der Masterknoten ist mit dieser Funktion keine potenzielle einzelne Fehlerquelle mehr. Bei Ausfall einer der Masterknoten wird automatisch ein Failover von Amazon EMR auf einen Standby-Masterknoten durchgeführt und der ausgefallene Masterknoten durch einen neuen mit der gleichen Konfiguration und den gleichen Bootstrap-Aktionen ersetzt. Weitere Informationen finden Sie unter Planen und Konfigurieren von Masterknoten.

Bekannte Probleme

  • Tez UI (Behoben in Amazon EMR-Version 5.26.0)

    Tez UI funktioniert nicht in einem EMR-Cluster mit mehreren Masterknoten.

  • Hue (Behoben in Amazon EMR-Version 5.24.0)

    • Das auf Amazon EMR ausgeführte Hue unterstützt Solr nicht. Ab Amazon EMR Version 5.20.0 führt ein Problem mit einer fehlerhaften Konfiguration dazu, dass Solr aktiviert und eine ähnlich wie folgt aussehende harmlose Fehlernachricht angezeigt wird:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      So können Sie verhindern, dass die Solr-Fehlernachricht angezeigt wird:

      1. Verbinden Sie sich über SSH mit der Masterknoten-Befehlszeile.

      2. Verwenden Sie einen Texteditor zum Öffnen der Datei hue.ini. Ein Beispiel:

        sudo vim /etc/hue/conf/hue.ini

      3. Suchen Sie nach dem Begriff "appblacklist" und ändern Sie die Zeile wie folgt:

        appblacklist = search
      4. Speichern Sie Ihre Änderungen und starten Sie Hue erneut, wie im folgenden Beispiel dargestellt:

        sudo stop hue; sudo start hue
  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.22.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.22.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.21.0.

Wichtig

Ab Amazon EMR Version 5.22.0, verwendet Amazon EMR AWS Signature Version 4 ausschließlich zur Authentifizierung von Anforderungen an Amazon S3. Frühere Amazon EMR Versionen verwenden in einigen Fällen AWS Signature Version 2, es sei denn, die Versionshinweise besagen, dass ausschließlich Signature Version 4 verwendet wird. Weitere Informationen finden Sie im Abschnitt zur Authentifizierung von Anforderungen (AWS Signature Version 4) und im Abschnitt zur Authentifizierung von Anforderungen (AWS Signature Version 2) im Amazon Simple Storage Service-Entwicklerhandbuch.

Erste Version: 20. März 2019

Upgrades

  • Flink 1.7.1

  • HBase 1.4.9

  • Oozie 5.1.0

  • Phoenix 4.14.1

  • Zeppelin 0.8.1

  • Konnektoren und Treiber:

    • DynamoDB Connector 4.8.0

    • MariaDB Connector 2.2.6

    • Amazon Redshift JDBC-Treiber 1.2.20.1043

Neue Funktionen

  • EBS-Standardkonfiguration für EC2-Instance-Typen mit reinem EBS-Speicher geändert. Wenn Sie unter Verwendung von Amazon EMR Version 5.22.0 und höher einen Cluster erstellen, erhöht sich die EBS-Standardspeichermenge basierend auf der Größe der Instance. Darüber hinaus wurde der größere Speicher auf mehrere Volumes aufgeteilt, um die IOPS-Leistung zu verbessern. Wenn Sie eine andere EBS-Instance-Speicherkonfiguration verwenden möchten, können Sie dies beim Erstellen eines EMR-Clusters oder beim Hinzufügen von Knoten zu einem vorhandenen Cluster angeben. Weitere Informationen zur Speichermenge und zur Anzahl der standardmäßig für jeden Instance-Typ zugewiesenen Volumes finden Sie im Abschnitt über EBS-Standardspeicher für Instances im Management Guide für Amazon EMR.

Änderungen, Verbesserungen und behobene Probleme

  • Spark

    • Neue Konfigurationseigenschaft für Spark on YARN eingeführt, spark.yarn.executor.memoryOverheadFactor. Der Wert dieser Eigenschaft ist ein Skalierungsfaktor, der als Wert für den Speicher-Overhead einen Prozentsatz des Executor-Speichers mit mindestens 384 MB festlegt. Wenn der Speicher-Overhead explizit über spark.yarn.executor.memoryOverhead festgelegt ist, ist diese Eigenschaft nicht wirksam. Der Standardwert ist 0.1875 und steht für 18,75 %. Mit diesem Standardwert für Amazon EMR bleibt in den YARN-Containern mehr Platz für Executor-Speicher-Overhead als bei Verwendung des intern von Spark eingestellten Standardwerts von 10 %. Der Amazon EMR-Standardwert von 18,75 % hat empirisch weniger speicherbezogene Fehler in TPC-DS-Benchmarks gezeigt.

    • SPARK-26316 rückportiert, um die Leistung zu verbessern.

  • In den Amazon EMR-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN-Knotenbeschriftungen in einem HDFS-Verzeichnis gespeichert. In einigen Situationen führt dies zu Verzögerungen beim Start-up des Core-Knotens und verursacht anschließend ein Cluster-Timeout und einen Startfehler. Ab Amazon EMR 5.22.0 wurde dieses Problem behoben. YARN-Knotenbeschriftungen werden auf dem lokalen Datenträger der einzelnen Clusterknoten gespeichert. Dies vermeidet Abhängigkeiten von HDFS.

Bekannte Probleme

  • Hue (Behoben in Amazon EMR-Version 5.24.0)

    • Das auf Amazon EMR ausgeführte Hue unterstützt Solr nicht. Ab Amazon EMR Version 5.20.0 führt ein Problem mit einer fehlerhaften Konfiguration dazu, dass Solr aktiviert und eine ähnlich wie folgt aussehende harmlose Fehlernachricht angezeigt wird:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      So können Sie verhindern, dass die Solr-Fehlernachricht angezeigt wird:

      1. Verbinden Sie sich über SSH mit der Masterknoten-Befehlszeile.

      2. Verwenden Sie einen Texteditor zum Öffnen der Datei hue.ini. Ein Beispiel:

        sudo vim /etc/hue/conf/hue.ini

      3. Suchen Sie nach dem Begriff "appblacklist" und ändern Sie die Zeile wie folgt:

        appblacklist = search
      4. Speichern Sie Ihre Änderungen und starten Sie Hue erneut, wie im folgenden Beispiel dargestellt:

        sudo stop hue; sudo start hue
  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.21.1

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.21.1. Änderungen beziehen sich auf Version 5.21.0.

Erste Version: 18. Juli 2019

Änderungen, Verbesserungen und behobene Probleme

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

Bekannte Probleme

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.21.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.21.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.20.0.

Erste Version: 18. Februar 2019

Letzte Aktualisierung: 3. April 2019

Upgrades

  • Flink 1.7.0

  • Presto 0.215

  • AWS SDK for Java 1.11.479

Neue Funktionen

  • (3. April 2019) Ab Amazon EMR Version 5.21.0 können Sie Cluster-Konfigurationen überschreiben und zusätzliche Konfigurationsklassifikationen für jede Instance-Gruppe in einem ausgeführten Cluster angeben. Dies erfolgt über die Amazon EMR-Konsole, die AWS Command Line Interface-(AWS CLI) oder das AWS SDK. Weitere Information finden Sie unter Angabe einer Konfiguration für eine Instance-Gruppe in einem ausgeführten Cluster.

Änderungen, Verbesserungen und behobene Probleme

Bekannte Probleme

  • Hue (Behoben in Amazon EMR-Version 5.24.0)

    • Das auf Amazon EMR ausgeführte Hue unterstützt Solr nicht. Ab Amazon EMR Version 5.20.0 führt ein Problem mit einer fehlerhaften Konfiguration dazu, dass Solr aktiviert und eine ähnlich wie folgt aussehende harmlose Fehlernachricht angezeigt wird:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      So können Sie verhindern, dass die Solr-Fehlernachricht angezeigt wird:

      1. Verbinden Sie sich über SSH mit der Masterknoten-Befehlszeile.

      2. Verwenden Sie einen Texteditor zum Öffnen der Datei hue.ini. Ein Beispiel:

        sudo vim /etc/hue/conf/hue.ini

      3. Suchen Sie nach dem Begriff "appblacklist" und ändern Sie die Zeile wie folgt:

        appblacklist = search
      4. Speichern Sie Ihre Änderungen und starten Sie Hue erneut, wie im folgenden Beispiel dargestellt:

        sudo stop hue; sudo start hue
  • Tez

    • Dieses Problem wurde in Amazon EMR 5.22.0 behoben.

      Wenn Sie eine Verbindung zur Tez UI unter http://MasterDNS:8080/tez-ui über eine SSH-Verbindung zum Cluster-Masterknoten herstellen, wird der Fehler "Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled" ausgegeben oder für Aufgaben wird unerwartet N/A angezeigt.

      Dies liegt daran, dass die Tez UI Anforderungen an den YARN Timeline Server unter Verwendung von localhost und nicht mit dem Hostnamen des Masterknotens stellt. Zur Umgehung des Problems ist ein Skript verfügbar, das als Bootstrap-Aktion oder -Schritt ausgeführt werden kann. Das Skript aktualisiert den Hostnamen in der Tez-Datei configs.env. Weitere Informationen sowie Angaben zum Speicherort des Skripts finden Sie in den Bootstrap-Anweisungen.

  • In den Amazon EMR-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN-Knotenbeschriftungen in einem HDFS-Verzeichnis gespeichert. In einigen Situationen führt dies zu Verzögerungen beim Start-up des Core-Knotens und verursacht anschließend ein Cluster-Timeout und einen Startfehler. Ab Amazon EMR 5.22.0 wurde dieses Problem behoben. YARN-Knotenbeschriftungen werden auf dem lokalen Datenträger der einzelnen Clusterknoten gespeichert. Dies vermeidet Abhängigkeiten von HDFS.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.20.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.20.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.19.0.

Erste Version: 18. Dezember 2018

Letzte Aktualisierung: 22. Januar 2019

Upgrades

  • Flink 1.6.2

  • HBase 1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet 1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • AWS SDK for Java 1.11.461

Neue Funktionen

  • (22. Januar 2019) Kerberos in Amazon EMR wurde verbessert, um Authentifizierungsprinzipale eines externen KDC zu unterstützen. Dadurch wird die Prinzipalverwaltung zentralisiert, da mehrere Cluster einen einzelnen externen KDC gemeinsam nutzen können. Darüber hinaus kann der externe KDC eine bereichsübergreifende Vertrauensstellung mit einer Active Directory-Domäne haben. Auf diese Weise können alle Cluster Prinzipale von Active Directory authentifizieren. Weitere Informationen finden Sie unter Verwendung der Kerberos-Authentifizierung im Management Guide für Amazon EMR.

Änderungen, Verbesserungen und behobene Probleme

  • Standard Amazon Linux-AMI für Amazon EMR

    • Das Python3-Paket wurde von Python 3.4 auf 3.6 aktualisiert.

  • S3-optimierter EMRFS-Committer

  • Hive

  • Glue mit Spark und Hive

    • In EMR 5.20.0 oder höher wird die parallele Partitionenbereinigung für Spark und Hive automatisch aktiviert, wenn der AWS Glue-Datenkatalog als Metastore verwendet wird. Mit dieser Änderung wird die Planungszeit für Abfragen erheblich reduziert, da zum Abrufen der Partitionen mehrere Abfragen parallel ausgeführt werden. Die Gesamtzahl der Segmente, die gleichzeitig ausgeführt werden können, liegt zwischen 1 und 10. Der Standardwert beträgt 5, was eine empfohlene Einstellung ist. Sie können diesen ändern, indem Sie die Eigenschaft aws.glue.partition.num.segments in der hive-site Konfigurationsklassifizierung angeben. Wenn eine Drosselung erfolgt, können Sie die Funktion deaktivieren, indem Sie den Wert auf 1 ändern. Weitere Informationen finden Sie unter AWS Glue-Segment-Struktur.

Bekannte Probleme

  • Hue (Behoben in Amazon EMR-Version 5.24.0)

    • Das auf Amazon EMR ausgeführte Hue unterstützt Solr nicht. Ab Amazon EMR Version 5.20.0 führt ein Problem mit einer fehlerhaften Konfiguration dazu, dass Solr aktiviert und eine ähnlich wie folgt aussehende harmlose Fehlernachricht angezeigt wird:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      So können Sie verhindern, dass die Solr-Fehlernachricht angezeigt wird:

      1. Verbinden Sie sich über SSH mit der Masterknoten-Befehlszeile.

      2. Verwenden Sie einen Texteditor zum Öffnen der Datei hue.ini. Ein Beispiel:

        sudo vim /etc/hue/conf/hue.ini

      3. Suchen Sie nach dem Begriff "appblacklist" und ändern Sie die Zeile wie folgt:

        appblacklist = search
      4. Speichern Sie Ihre Änderungen und starten Sie Hue erneut, wie im folgenden Beispiel dargestellt:

        sudo stop hue; sudo start hue
  • Tez

    • Dieses Problem wurde in Amazon EMR 5.22.0 behoben.

      Wenn Sie eine Verbindung zur Tez UI unter http://MasterDNS:8080/tez-ui über eine SSH-Verbindung zum Cluster-Masterknoten herstellen, wird der Fehler "Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled" ausgegeben oder für Aufgaben wird unerwartet N/A angezeigt.

      Dies liegt daran, dass die Tez UI Anforderungen an den YARN Timeline Server unter Verwendung von localhost und nicht mit dem Hostnamen des Masterknotens stellt. Zur Umgehung des Problems ist ein Skript verfügbar, das als Bootstrap-Aktion oder -Schritt ausgeführt werden kann. Das Skript aktualisiert den Hostnamen in der Tez-Datei configs.env. Weitere Informationen sowie Angaben zum Speicherort des Skripts finden Sie in den Bootstrap-Anweisungen.

  • In den Amazon EMR-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN-Knotenbeschriftungen in einem HDFS-Verzeichnis gespeichert. In einigen Situationen führt dies zu Verzögerungen beim Start-up des Core-Knotens und verursacht anschließend ein Cluster-Timeout und einen Startfehler. Ab Amazon EMR 5.22.0 wurde dieses Problem behoben. YARN-Knotenbeschriftungen werden auf dem lokalen Datenträger der einzelnen Clusterknoten gespeichert. Dies vermeidet Abhängigkeiten von HDFS.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Anmerkung

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.19.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.19.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.18.0.

Erste Version: 7. November 2018

Letzte Aktualisierung: 19. November 2018

Upgrades

  • Hadoop 2.8.5

  • Flink 1.6.1

  • JupyterHub 0.9.4

  • MXNet 1.3.0

  • Presto 0.212

  • TensorFlow 1.11.0

  • ZooKeeper 3.4.13

  • AWS SDK for Java 1.11.433

Neue Funktionen

  • (19. Nov. 2018) EMR-Notebooks ist eine verwaltete Umgebung, die auf einem Jupyter-Notebook basiert. Sie unterstützt Sparkmagic-Kernels für PySpark, Spark SQL, Spark R und Scala. EMR-Notebooks ist für die Verwendung mit Clustern geeignet, die mit Amazon EMR ab der Release-Version 5.18.0 erstellt wurden. Weitere Informationen finden Sie unter Verwenden von EMR-Notebooks im Management Guide für Amazon EMR.

  • Der S3-optimierte EMRFS-Committer ist beim Schreiben von Parquet-Dateien mit Spark und EMRFS verfügbar. Dieser Committer verbessert die Schreibleistung. Weitere Informationen finden Sie unter Verwenden der EMRFS S3-optimierten Committer-Klasse.

Änderungen, Verbesserungen und behobene Probleme

  • YARN

  • Standard Amazon Linux-AMI für Amazon EMR

    • ruby18, php56 und gcc48 sind nicht mehr standardmäßig installiert. Sie können Sie bei Bedarf mit yum installieren.

    • Das Ruby Gem "aws-java-sdk" ist nicht mehr standardmäßig installiert. Sie können es bei Bedarf mit gem install aws-java-sdk installieren. Spezifische Komponenten lassen sich ebenfalls installieren. Beispiel, gem install aws-java-sdk-s3.

Bekannte Probleme

  • EMR-Notebooks – Wenn mehrere Notebook-Editoren geöffnet sind, kann es in manchen Fällen dazu kommen, dass sich der Notebook-Editor augenscheinlich nicht mehr mit dem Cluster verbinden kann. Wenn dieses Problem auftritt, löschen Sie die Browser-Cookies und öffnen Sie die Notebook-Editoren erneut.

  • CloudWatch ContainerPending-Metrik und Auto Scaling – (behoben in 5.20.0)Amazon EMR gibt für ContainerPending möglicherweise einen negativen Wert aus. Wenn ContainerPending in einer Auto Scaling-Regel verwendet wird, verhält sich Auto Scaling nicht wie erwartet. Vermeiden Sie die Verwendung von ContainerPending mit Auto Scaling.

  • In den Amazon EMR-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN-Knotenbeschriftungen in einem HDFS-Verzeichnis gespeichert. In einigen Situationen führt dies zu Verzögerungen beim Start-up des Core-Knotens und verursacht anschließend ein Cluster-Timeout und einen Startfehler. Ab Amazon EMR 5.22.0 wurde dieses Problem behoben. YARN-Knotenbeschriftungen werden auf dem lokalen Datenträger der einzelnen Clusterknoten gespeichert. Dies vermeidet Abhängigkeiten von HDFS.

Version 5.18.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.18.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.17.0.

Erste Version: 24. Oktober 2018

Upgrades

  • Flink 1.6.0

  • HBase 1.4.7

  • Presto 0.210

  • Spark 2.3.2

  • Zeppelin 0.8.0

Neue Funktionen

  • Ab der Amazon EMR-Version 5.18.0 können Sie das Amazon EMR-Artefakt-Repository verwenden. Damit können Sie Ihren Auftragscode genau für die Versionen der Bibliotheken und Abhängigkeiten programmieren, die bei den spezifischen Amazon EMR-Release-Versionen verfügbar sind. Weitere Informationen finden Sie unter Prüfen von Abhängigkeiten mit dem Amazon EMR-Artefakt-Repository.

Änderungen, Verbesserungen und behobene Probleme

Version 5.17.1

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.17.1. Änderungen beziehen sich auf Version 5.17.0.

Erste Version: 18. Juli 2019

Änderungen, Verbesserungen und behobene Probleme

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

Version 5.17.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.17.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.16.0.

Erste Version: 30. August 2018

Upgrades

  • Flink 1.5.2

  • HBase 1.4.6

  • Presto 0.206

Neue Funktionen

  • Unterstützung für Tensorflow hinzugefügt. Weitere Informationen finden Sie unter TensorFlow.

Änderungen, Verbesserungen und behobene Probleme

Bekannte Probleme

  • Wenn Sie einen Cluster mit Schutz durch Kerberos erstellen, während Livy installiert ist, gibt Livy einen Fehler aus, demzufolge die einfache Authentifizierung nicht aktiviert ist. Ein Neustart des Livy-Servers behebt den Fehler. Zur Umgehung des Fehlers fügen Sie der Clustererstellung einen Schritt hinzu, der auf dem Master-Knoten sudo restart livy-server ausführt.

  • Wenn Sie eine benutzerdefinierte Amazon Linux AMI verwenden, die auf einer Amazon Linux AMI mit einem Erstellungsdatum am 11. August 2018 basiert, startet der Oozie-Server nicht. Wenn Sie Oozie verwenden, erstellen Sie eine benutzerdefinierte AMI verwenden, die auf einer Amazon Linux AMI ID mit einem anderen Erstellungsdatum basiert. Anhand des folgenden AWS CLI-Befehls geben Sie eine Liste von Abbild-IDs für alle HVM Amazon Linux AMIs mit einer Version 2018.03 zurück, die auch das Veröffentlichungsdatum zeigt, damit Sie eine angemessene Amazon Linux AMI als Basis verwenden können. Ersetzen Sie MyRegion durch Ihre Regions-ID, z. B. us-west-2.

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

Version 5.16.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.16.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.15.0.

Erste Version: 19. Juli 2018

Upgrades

  • Hadoop 2.8.4

  • Flink 1.5.0

  • Livy 0.5.0

  • MXNet 1.2.0

  • Phoenix 4.14.0

  • Presto 0.203

  • Spark 2.3.1

  • AWS SDK for Java 1.11.336

  • CUDA 9.2

  • Redshift JDBC-Treiber 1.2.15.1025

Änderungen, Verbesserungen und behobene Probleme

Bekannte Probleme

  • Diese Version unterstützt die Instance-Typen c1.medium und m1.small nicht. Cluster, die einen dieser Instance-Typen verwenden, können nicht gestartet werden. Um dieses Problem zu umgehe, geben Sie einen anderen Instance-Typ an oder verwenden eine andere Version.

  • Wenn Sie einen Cluster mit Schutz durch Kerberos erstellen, während Livy installiert ist, gibt Livy einen Fehler aus, demzufolge die einfache Authentifizierung nicht aktiviert ist. Ein Neustart des Livy-Servers behebt den Fehler. Zur Umgehung des Fehlers fügen Sie der Clustererstellung einen Schritt hinzu, der auf dem Master-Knoten sudo restart livy-server ausführt.

  • After the master node reboots or the instance controller restarts, the CloudWatch metrics will not be collected and the automatic scaling feature will not be available in Amazon EMR version 5.14.0, 5.15.0, or 5.16.0. This issue is fixed in Amazon EMR version 5.17.0.

Version 5.15.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.15.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.14.0.

Erste Version: 21. Juni 2018

Upgrades

  • Upgrade auf HBase 1.4.4

  • Upgrade von Hive auf 2.3.3

  • Upgrade von Hue auf 4.2.0

  • Upgrade auf Oozie 5.0.0

  • Upgrade von Zookeeper auf 3.4.12

  • Upgrade von AWS SDK auf 1.11.333

Änderungen, Verbesserungen und behobene Probleme

  • Hive

  • Hue

    • Update von Hue, um eine ordnungsgemäße Authentifizierung bei Livy durchzuführen, wenn Kerberos aktiviert ist. Livy wird jetzt unterstützt, wenn Kerberos mit Amazon EMR verwendet wird.

  • JupyterHub

    • Update von JupyterHub, sodass Amazon EMR standardmäßig LDAP-Clientbibliotheken installiert.

    • Es wurde ein Fehler im Skript behoben, das selbstsignierte Zertifikate erzeugt. Weitere Informationen über das Problem finden Sie unter Release Notes.

Bekannte Probleme

  • Diese Version unterstützt die Instance-Typen c1.medium und m1.small nicht. Cluster, die einen dieser Instance-Typen verwenden, können nicht gestartet werden. Um dieses Problem zu umgehe, geben Sie einen anderen Instance-Typ an oder verwenden eine andere Version.

  • After the master node reboots or the instance controller restarts, the CloudWatch metrics will not be collected and the automatic scaling feature will not be available in Amazon EMR version 5.14.0, 5.15.0, or 5.16.0. This issue is fixed in Amazon EMR version 5.17.0.

Version 5.14.1

Die folgenden Versionshinweise enthalten Informationen zur Version 5.14.1 von Amazon EMR. Änderungen beziehen sich auf Version 5.14.0.

Erste Version: 17. Oktober 2018

Das Standard-AMI für Amazon EMR wurde aktualisiert, um mögliche Sicherheitsschwachstellen zu beheben.

Version 5.14.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.14.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.13.0.

Erste Version: 4. Juni 2018

Upgrades

  • Upgrade von Apache Flink auf 1.4.2

  • Upgrade von Apache MXnet auf 1.1.0

  • Upgrade von Apache Sqoop auf 1.4.7

Neue Funktionen

  • JupyterHub-Support hinzugefügt. Weitere Informationen finden Sie unter JupyterHub.

Änderungen, Verbesserungen und behobene Probleme

  • EMRFS

    • Die userAgent-Zeichenfolge in Anforderungen an Amazon S3 wurde aktualisiert und enthält jetzt die Benutzer- und Gruppeninformationen des aufrufenden Prinzipals. Sie kann mit AWS CloudTrail-Protokollen zur umfangreicheren Anforderungsverfolgung verwendet werden.

  • HBase

    • HBASE-20447 einbezogen, das ein Problem behebt, welches Cache-Probleme verursachen könnte, insbesondere bei geteilten Regionen.

  • MXnet

    • OpenCV-Bibliotheken hinzugekommen.

  • Spark

    • Wenn Spark mit Parquet-Dateien an einen Amazon S3-Speicherort schreibt, wurde der FileOutputCommitter-Algorithmus aktualisiert und verwendet jetzt Version 2 anstelle von Version 1. Dadurch wird die Anzahl der Umbenennungen reduziert, wodurch die Anwendungsleistung verbessert wird. Diese Änderung betrifft nicht:

      • Andere Anwendungen als Spark.

      • Anwendungen, die in andere Dateisysteme schreiben, wie etwa HDFS (die immer noch Version 1 von FileOutputCommitter verwenden).

      • Anwendungen, die andere Ausgabeformate verwenden, wie etwa TEXT oder CSV, die bereits EMRFS-Direct Write verwenden.

Bekannte Probleme

  • JupyterHub

    • Die Verwendung von Konfigurationsklassifizierungen zur Einrichtung von JupyterHub und einzelnen Jupyter Notebooks beim Erstellen eines Clusters wird nicht unterstützt. Bearbeiten Sie die Datei jupyterhub_config.py und die Dateien jupyter_notebook_config.py für jeden Benutzer manuell. Weitere Informationen finden Sie unter Konfigurieren von JupyterHub.

    • JupyterHub startet nicht auf Clustern innerhalb eines privaten Subnetzes und schlägt mit der Meldung Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' fehlt. Dies wird durch einen Fehler im Skript verursacht, das selbstsignierte Zertifikate generiert. Verwenden Sie die folgende Behelfslösung, um selbstsignierte Zertifikate zu generieren. Alle Befehle werden ausgeführt, während eine Verbindung mit dem Masterknoten besteht.

      1. Kopieren Sie das Skript zur Zertifikatsgenerierung aus dem Container in den Masterknoten:

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. Verwenden Sie einen Texteditor, um Zeile 23 zu ändern und den öffentlichen Hostnamen in den lokalen Hostnamen zu ändern, wie nachfolgend gezeigt:

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. Führen Sie das Skript aus, um selbstsignierte Zertifikate zu generieren:

        sudo bash ./gen_self_signed_cert.sh
      4. Verschieben Sie die vom Skript generierten Zertifikatsdateien in das Verzeichnis /etc/jupyter/conf/:

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      Sie können tail für die Datei jupyter.log ausführen, um sicherzustellen, dass der JupyterHub neu gestartet wurde und den Antwortcode 200 zurückgibt. Ein Beispiel:

      tail -f /var/log/jupyter/jupyter.log

      Damit sollten Sie eine Antwort wie die folgende erhalten:

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
  • After the master node reboots or the instance controller restarts, the CloudWatch metrics will not be collected and the automatic scaling feature will not be available in Amazon EMR version 5.14.0, 5.15.0, or 5.16.0. This issue is fixed in Amazon EMR version 5.17.0.

Version 5.13.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.13.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.12.0.

Upgrades

  • Upgrade auf Spark 2.3.0

  • Upgrade auf HBase 1.4.2

  • Upgrade auf Presto 0.194

  • Upgrade von AWS Java SDK auf 1.11.297

Änderungen, Verbesserungen und behobene Probleme

  • Hive

    • HIVE-15436 wurde rückportiert. Erweiterte Hive-APIs, um ausschließlich Ansichten zurückzugeben.

Bekannte Probleme

  • MXNet verfügt derzeit nicht über OpenCV-Bibliotheken.

Version 5.12.2

Die folgenden Versionshinweise enthalten Informationen zur Version 5.12.2 von Amazon EMR. Änderungen beziehen sich auf Version 5.12.1.

Erste Version: 29. August 2018

Änderungen, Verbesserungen und behobene Probleme

  • Diese Version behebt eine potenzielle Sicherheitsschwachstelle.

Version 5.12.1

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.12.1. Änderungen beziehen sich auf Version 5.12.0.

Erste Version: 29. März 2018

Änderungen, Verbesserungen und behobene Probleme

  • Der Amazon Linux-Kernel des Amazon Linux-Standard-AMI für Amazon EMR wurde aktualisiert, um mögliche Schwachstellen zu beheben.

Version 5.12.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.12.0 von Amazon EMR. Änderungen beziehen sich auf Version 5.11.1.

Upgrades

Änderungen, Verbesserungen und behobene Probleme

  • Hadoop

    • Die Eigenschaft yarn.resourcemanager.decommissioning.timeout wurde zu yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secsgeändert. Mit dieser Eigenschaft können Sie die Cluster-Skalierung anpassen. Weitere Informationen finden Sie unter Cluster-Scale-Down im Management Guide für Amazon EMR.

    • Die Hadoop-CLI hat dem Befehl -d (Kopieren) die Option cp hinzugefügt, die das direkte Kopieren angibt. Sie können so eine .COPYING-Zwischendatei vermeiden, damit das Kopieren von Daten zwischen Amazon S3 schneller erfolgt. Weitere Informationen finden Sie unter HADOOP-12384.

  • Pig

    • Die Konfigurationsklassifizierung pig-env wurde hinzugefügt, die die Konfiguration der Eigenschaften der Pig-Umgebung vereinfacht. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen.

  • Presto

    • Die Konfigurationsklassifizierung presto-connector-redshift wurde hinzugefügt, mit der Sie Werte in der Presto-redshift.properties-Konfigurationsdatei konfigurieren können. Weitere Informationen finden Sie unter Redshift-Connector in der Presto-Dokumentation und unter Konfigurieren von Anwendungen.

    • Die Presto-Unterstützung für EMRFS wurde hinzugefügt und ist nun die Standardkonfiguration. Frühere Amazon EMR-Versionen verwendeten PrestoS3FileSystem, was die einzige Option war. Für weitere Informationen siehe EMRFS- und PrestoS3FileSystem-Konfiguration.

      Anmerkung

      Ein Konfigurationsproblem kann zu Presto-Fehlern führen, wenn zugrunde liegende Daten in Amazon S3 mit Amazon EMR, Version 5.12.0, abgefragt werden. Der Grund hierfür ist, dass Presto keine Konfigurationsklassifizierungswerte von emrfs-site.xml übernimmt. Erstellen Sie als Fehlerumgehung das Unterverzeichnis emrfs unter usr/lib/presto/plugin/hive-hadoop2/, erstellen Sie einen Symlink in usr/lib/presto/plugin/hive-hadoop2/emrfs zur vorhandenen /usr/share/aws/emr/emrfs/conf/emrfs-site.xml-Datei und starten Sie den presto-server-Vorgang (sudo presto-server stop gefolgt von sudo presto-server start) neu.

  • Spark

Bekannte Probleme

  • MXNet enthält keine OpenCV-Bibliotheken.

  • SparkR ist nicht verfügbar für Cluster, die mit einem benutzerdefinierten AMI erstellt wurden, da R nicht standardmäßig auf Clusterknoten installiert ist.

Version 5.11.3

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.11.3. Änderungen beziehen sich auf Version 5.11.2.

Erste Version: 18. Juli 2019

Änderungen, Verbesserungen und behobene Probleme

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

Version 5.11.2

Die folgenden Versionshinweise enthalten Informationen zur Version 5.11.2 von Amazon EMR. Änderungen beziehen sich auf Version 5.11.1.

Erste Version: 29. August 2018

Änderungen, Verbesserungen und behobene Probleme

  • Diese Version behebt eine potenzielle Sicherheitsschwachstelle.

Version 5.11.1

Die folgenden Versionshinweise enthalten Informationen zur Version 5.11.1 von Amazon EMR Änderungen beziehen sich auf Amazon EMR Version 5.11.0.

Erste Version: 22. Januar 2018

Änderungen, Verbesserungen und behobene Probleme

Bekannte Probleme

  • MXNet enthält keine OpenCV-Bibliotheken.

  • Hive 2.3.2 setzt hive.compute.query.using.stats=true standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mit hive.compute.query.using.stats=true verfügen und neue Dateien in die Tabelle LOCATION hochladen, gibt die Abfrage SELECT COUNT(*) in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.

    Um dieses Problem zu umgehen, verwenden Sie den Befehl ANALYZE TABLE, um neue Statistiken zu sammeln, oder legen Sie hive.compute.query.using.stats=false. fest. Weitere Informationen finden Sie unter Statistiken in Hive in der Apache Hive-Dokumentation.

Version 5.11.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.11.0 von Amazon EMR Änderungen beziehen sich auf Amazon EMR Version 5.10.0.

Upgrades

Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen.

  • Hive 2.3.2

  • Spark 2.2.1

  • SDK für Java 1.11.238

Neue Funktionen

  • Spark

    • Die Einstellung spark.decommissioning.timeout.threshold wurde hinzugefügt, was das Verhalten von Spark bei der Außerbetriebnahme bei Verwendung von Spot-Instances verbessert. Weitere Informationen finden Sie unter Verhalten der Außerbetriebnahme von Knoten konfigurieren.

    • Spark wurde um die aws-sagemaker-spark-sdk-Komponente erweitert, die Amazon SageMaker Spark und die zugehörigen Abhängigkeiten für die Spark-Integration in Amazon SageMaker. installiert. Sie können Amazon SageMaker Spark verwenden, um Spark Machine Learning (ML)-Pipelines mit Amazon SageMaker-Stages zu erstellen. Weitere Informationen finden Sie im SageMaker Spark-Readme auf GitHub sowie unter Using Apache Spark with Amazon SageMaker im Amazon SageMaker-Entwicklerhandbuch.

Bekannte Probleme

  • MXNet enthält keine OpenCV-Bibliotheken.

  • Hive 2.3.2 setzt hive.compute.query.using.stats=true standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mit hive.compute.query.using.stats=true verfügen und neue Dateien in die Tabelle LOCATION hochladen, gibt die Abfrage SELECT COUNT(*) in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.

    Um dieses Problem zu umgehen, verwenden Sie den Befehl ANALYZE TABLE, um neue Statistiken zu sammeln, oder legen Sie hive.compute.query.using.stats=false. fest. Weitere Informationen finden Sie unter Statistiken in Hive in der Apache Hive-Dokumentation.

Version 5.10.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.10.0 von Amazon EMR Änderungen beziehen sich auf Amazon EMR Version 5.9.0.

Upgrades

Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen.

  • AWS SDK for Java 1.11.221

  • Hive 2.3.1

  • Presto 0.187

Neue Funktionen

Änderungen, Verbesserungen und behobene Probleme

  • Presto

  • Spark

  • Rückportierung von Hadoop-13270

  • Die Bibliotheken Numpy, Scipy und Matplotlib wurden aus der grundlegenden Amazon EMR-AMI entfernt. Wenn diese Bibliotheken für Ihre Anwendung erforderlich sind, werden sie im folgenden Repository bereitgestellt, sodass Sie sie unter Verwendung einer Bootstrap-Aktion mit auf allen Knoten installieren können.yum install.

  • Die Amazon EMR-Basis-AMI enthält keine Anwendungs-RPM-Paketen mehr, sodass die RPM-Pakete nicht mehr auf Cluster-Knoten vorhanden sind. Benutzerdefinierte AMIs und die Basis-AMI von Amazon EMR verweisen jetzt auf das RPM-Paket-Repository in Amazon S3.

  • Aufgrund der Einführung von der sekundenweisen Abrechnung Amazon EC2 ist die Standardeinstellung für Scale down behavior (Verhalten beim Scale-Down) jetzt Terminate at task completion (Nach Abschluss der Aufgabe beenden) anstelle von Terminate at instance hour (Zu einem Zeitpunkt auf der Instance beenden). Weitere Informationen finden Sie unter Konfigurieren eines Cluster-Scale-Downs.

Bekannte Probleme

  • MXNet enthält keine OpenCV-Bibliotheken.

  • Hive 2.3.1 setzt hive.compute.query.using.stats=true standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mit hive.compute.query.using.stats=true verfügen und neue Dateien in die Tabelle LOCATION hochladen, gibt die Abfrage SELECT COUNT(*) in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.

    Um dieses Problem zu umgehen, verwenden Sie den Befehl ANALYZE TABLE, um neue Statistiken zu sammeln, oder legen Sie hive.compute.query.using.stats=false. fest. Weitere Informationen finden Sie unter Statistiken in Hive in der Apache Hive-Dokumentation.

Version 5.9.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.9.0 von Amazon EMR Änderungen beziehen sich auf Amazon EMR Version 5.8.0.

Veröffentlichungsdatum: 5. Oktober 2017

Letzte Aktualisierung der Funktionen: 12. Oktober 2017

Upgrades

Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen.

  • AWS SDK for Java-Version 1.11.183

  • Flink 1.3.2

  • Hue 4.0.1

  • Pig 0.17.0

  • Presto 0.184

Neue Funktionen

  • Livy-Support hinzugefügt (Version 0.4.0-incubating). Weitere Informationen finden Sie unter Apache Livy.

  • Support für Hue-Notebooks für Spark hinzugefügt.

  • Support für die i3-Serie für Amazon EC2-Instances hinzugefügt (12. Oktober 2017).

Änderungen, Verbesserungen und behobene Probleme

  • Spark

    • Neue Funktionen hinzugefügt, die sicherstellen, dass Spark die Knotenbeendigung infolge einer manuellen Größenänderung oder einer Anforderung einer Auto Scaling-Richtlinie zuverlässiger ausführt. Weitere Informationen finden Sie unter Verhalten der Außerbetriebnahme von Knoten konfigurieren.

    • Anstelle von 3DES wird SSL-Verschlüsselung bei der Übertragung für den Blocktransferdienst verwendet, was die Leistung bei der Verwendung von Amazon EC2-Instance-Typen mit AES-NI verbessert.

    • SPARK-21494. rückportiert.

  • Zeppelin

  • HBase

    • Patch HBASE-18533 hinzugefügt, der zusätzliche Werte für die HBase BucketCache-Konfiguration mithilfe der hbase-site-Konfigurationsklassifizierung ermöglicht.

  • Hue

    • AWS Glue Data Catalog-Support für den Hive-Abfrage-Editor in Hue hinzugefügt.

    • Hauptbenutzer in Hue können standardmäßig alle auf Dateien zugreifen, auf die Amazon EMR-IAM-Rollen zugreifen dürfen. Neu erstellte Benutzer verfügen nicht automatisch über Zugriffsberechtigungen auf den Amazon S3-Filebrowser und für ihre Gruppen müssen die filebrowser.s3_access-Berechtigungen aktiviert sein.

  • Behob einen Fehler, der dazu führte, dass die mit AWS Glue Data Catalog erstellten, zugrunde liegenden JSON-Daten nicht verfügbar waren.

Bekannte Probleme

  • Der Cluster-Start schlägt fehl, wenn alle Anwendungen installiert und die Standardgröße des Amazon EBS-Stamm-Volumes nicht geändert wurde. Um dieses Problem zu umgehen, verwenden Sie in der aws emr create-cluster den Befehl AWS CLI und geben einen größeren Wert für den --ebs-root-volume-size-Parameter an.

  • Hive 2.3.0 setzt hive.compute.query.using.stats=true standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mit hive.compute.query.using.stats=true verfügen und neue Dateien in die Tabelle LOCATION hochladen, gibt die Abfrage SELECT COUNT(*) in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.

    Um dieses Problem zu umgehen, verwenden Sie den Befehl ANALYZE TABLE, um neue Statistiken zu sammeln, oder legen Sie hive.compute.query.using.stats=false. fest. Weitere Informationen finden Sie unter Statistiken in Hive in der Apache Hive-Dokumentation.

Version 5.8.2

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.8.2. Änderungen beziehen sich auf Version 5.8.1.

Erste Version: 29. März 2018

Änderungen, Verbesserungen und behobene Probleme

  • Der Amazon Linux-Kernel des Amazon Linux-Standard-AMI für Amazon EMR wurde aktualisiert, um mögliche Schwachstellen zu beheben.

Version 5.8.1

Die folgenden Versionshinweise enthalten Informationen zur Version 5.8.1 von Amazon EMR Änderungen beziehen sich auf Amazon EMR Version 5.8.0.

Erste Version: 22. Januar 2018

Änderungen, Verbesserungen und behobene Probleme

Version 5.8.0

Die folgenden Versionshinweise enthalten Informationen zur Version 5.8.0 von Amazon EMR Änderungen beziehen sich auf Amazon EMR Version 5.7.0.

Erste Version: 10. August 2017

Letzte Aktualisierung der Funktionen: 25. September 2017

Upgrades

Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen:

  • AWS SDK 1.11.160

  • Flink 1.3.1

  • Hive 2.3.0. Weitere Informationen finden Sie unter Versionshinweise auf der Apache Hive-Website.

  • Spark 2.2.0. Weitere Informationen finden Sie in den Versionshinweisen auf der Apache Spark-Website.

Neue Funktionen

  • Support zur Anzeige des Anwendungsverlaufs hinzugefügt (25. September 2017). Weitere Informationen finden Sie unter Anzeigen des Anwendungsverlaufs im Management Guide für Amazon EMR.

Änderungen, Verbesserungen und behobene Probleme

  • Integration in AWS Glue Data Catalog

  • Den Cluster-Details wurde der Anwendungsverlauf hinzugefügt, sodass Sie Verlaufsdaten für YARN-Anwendungen und zusätzliche Details für Spark-Anwendungen anzeigen können. Weitere Informationen finden Sie unter Anzeigen des Anwendungsverlaufs im Management Guide für Amazon EMR.

  • Oozie

  • Hue

  • HBase

    • Patch zum Verfügbarmachen der Startzeit des HBase-Master-Servers über Java Management Extensions (JMX) mithilfe von hinzugefügt.getMasterInitializedTime.

    • Patch zur Verbesserung der Cluster-Startzeit hinzugefügt.

Bekannte Probleme

  • Der Cluster-Start schlägt fehl, wenn alle Anwendungen installiert und die Standardgröße des Amazon EBS-Stamm-Volumes nicht geändert wurde. Um dieses Problem zu umgehen, verwenden Sie in der aws emr create-cluster den Befehl AWS CLI und geben einen größeren Wert für den --ebs-root-volume-size-Parameter an.

  • Hive 2.3.0 setzt hive.compute.query.using.stats=true standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mit hive.compute.query.using.stats=true verfügen und neue Dateien in die Tabelle LOCATION hochladen, gibt die Abfrage SELECT COUNT(*) in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.

    Um dieses Problem zu umgehen, verwenden Sie den Befehl ANALYZE TABLE, um neue Statistiken zu sammeln, oder legen Sie hive.compute.query.using.stats=false. fest. Weitere Informationen finden Sie unter Statistiken in Hive in der Apache Hive-Dokumentation.

  • Spark — Bei der Verwendung von Spark tritt bei dem apppusher-Daemon bei Spark-Aufträgen mit langer Ausführungsdauer nach einigen Stunden oder Tagen möglicherweise ein Speicherleck-Problem bei dem Datei-Handler auf. Um das Problem zu beheben, stellen Sie eine Verbindung mit dem Master-Knoten her und geben ein.sudo /etc/init.d/apppusher stop. Dies beendet den apppusher-Daemon, den Amazon EMR automatisch neu startet.

  • Application history

    • Es sind keine Verlaufsdaten für beendete Spark-Executors verfügbar.

    • Der Anwendungsverlauf ist nicht für Cluster verfügbar, die eine Sicherheitskonfiguration verwenden, um die Verschlüsselung bei der Übertragung zu aktivieren.

Version 5.7.0

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 5.7.0. Änderungen beziehen sich auf Amazon EMR Version 5.6.0.

Veröffentlichungsdatum: 13. Juli 2017

Upgrades

  • Flink 1.3.0

  • Phoenix 4.11.0

  • Zeppelin 0.7.2

Neue Funktionen

  • Die Möglichkeit zum Angeben eines benutzerdefinierten Amazon Linux AMI beim Erstellen eines Clusters wurde hinzugefügt. Weitere Informationen finden Sie unter Verwenden eines benutzerdefinierten AMI.

Änderungen, Verbesserungen und behobene Probleme

  • HBase

    • Die Möglichkeit zum Konfigurieren von HBase Read Replica-Cluster wurde hinzugefügt. Weitere Informationen finden Sie unter Verwenden eines Read Replica-Clusters

    • Mehrere Fehlerbehebungen und Verbesserungen

  • Presto – neue Konfigurationsfunktion node.properties.

  • YARN – neue Konfigurationsfunktion container-log4j.properties

  • Sqoop – SQOOP-2880 rückportiert und damit einen Parameter eingeführt, mit dem Sie das temporäre Sqoop-Verzeichnis festlegen können.

Version 5.6.0

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 5.6.0. Änderungen beziehen sich auf Amazon EMR Version 5.5.0.

Veröffentlichungsdatum: 5. Juni 2017

Upgrades

  • Flink 1.2.1

  • HBase 1.3.1

  • Mahout 0.13.0. Dies ist die erste Version von Mahout, die Spark 2.x in Amazon EMR Version 5.0 und höher unterstützt.

  • Spark 2.1.1

Änderungen, Verbesserungen und behobene Probleme

  • Presto

    • Die Möglichkeit, SSL-/TLS-geschützte Kommunikation zwischen Presto-Knoten durch Verschlüsselung der Daten während der Übertragung mithilfe einer Sicherheitskonfiguration zu aktivieren, wurde hinzugefügt. Weitere Informationen finden Sie unter Verschlüsselung von Daten während der Übertragung.

    • Presto 7661 wurde rückportiert, wodurch die Option zur Anweisung VERBOSE hinzugefügt wurde, um detailliertere Low-Level-Statistiken zu einem Abfrageplan zu melden.EXPLAIN ANALYZE

Version 5.5.3

Die folgenden Versionshinweise enthalten Informationen zur Version 5.5.3 von Amazon EMR. Änderungen beziehen sich auf Version 5.5.2.

Erste Version: 29. August 2018

Änderungen, Verbesserungen und behobene Probleme

  • Diese Version behebt eine potenzielle Sicherheitsschwachstelle.

Version 5.5.2

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 5.5.2. Änderungen beziehen sich auf Version 5.5.1.

Erste Version: 29. März 2018

Änderungen, Verbesserungen und behobene Probleme

  • Der Amazon Linux-Kernel des Amazon Linux-Standard-AMI für Amazon EMR wurde aktualisiert, um mögliche Schwachstellen zu beheben.

Version 5.5.1

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 5.5.1. Änderungen beziehen sich auf Amazon EMR Version 5.5.0.

Erste Version: 22. Januar 2018

Änderungen, Verbesserungen und behobene Probleme

Version 5.5.0

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 5.5.0. Änderungen beziehen sich auf Amazon EMR Version 5.4.0.

Veröffentlichungsdatum: 26. April 2017

Upgrades

  • Hue 3.12

  • Presto 0.170

  • Zeppelin 0.7.1

  • ZooKeeper 3.4.10

Änderungen, Verbesserungen und behobene Probleme

  • Spark

  • Flink

    • Flink ist nun in Scala 2.11 integriert. Wenn Sie die Scala-API und -Bibliotheken verwenden, empfehlen wir Scala 2.11 für Ihre Projekte.

    • Ein Problem wurde behoben, bei dem die Standardeinstellungen HADOOP_CONF_DIR und YARN_CONF_DIR nicht ordnungsgemäß festgelegt wurden, sodass start-scala-shell.sh nicht funktionierte. Außerdem wurde die Möglichkeit hinzugefügt, diese Werte mit env.hadoop.conf.dir und env.yarn.conf.dir in /etc/flink/conf/flink-conf.yaml oder der Konfigurationsklassifizierung flink-conf festzulegen.

    • Es wurde ein neuer EMR-spezifischer Befehl, flink-scala-shell als Wrapper für start-scala-shell.sh. eingeführt. Wir empfehlen, diese Befehl statt zu verwenden.start-scala-shell. Der neue Befehl vereinfacht die Ausführung. Beispielsweise startet flink-scala-shell -n 2 eine Flink Scala-Shell mit einer Aufgabenparallelität von 2.

    • Es wurde ein neuer EMR-spezifischer Befehl, flink-yarn-session als Wrapper für yarn-session.sh. eingeführt. Wir empfehlen, diese Befehl statt zu verwenden.yarn-session. Der neue Befehl vereinfacht die Ausführung. Beispielsweise startet flink-yarn-session -d -n 2 eine langlebige Flink-Sitzung in einem getrennten Status mit zwei Aufgabenmanagern.

    • Das Problem (FLINK-6125) Commons httpclient is not shaded anymore in Flink 1.2. wurde behoben.

  • Presto

    • Die LDAP-Authentifizierung wird jetzt unterstützt. Zur Verwendung von LDAP mit Presto auf Amazon EMR müssen Sie den HTTPS-Zugriff für den Presto-Koordinator (http-server.https.enabled=true in config.properties).) aktivieren. Weitere Konfigurationsdetails finden Sie unter LDAP-Authentifizierung in der Presto-Dokumentation.

    • Unterstützung für SHOW GRANTS hinzugefügt.

  • Amazon EMR Basis-Linux-AMI

    • Amazon EMR-Release-Versionen basieren jetzt auf Amazon Linux 2017.03. Weitere Informationen finden Sie in den Amazon Linux AMI 2017.03-Versionshinweisen.

    • Python 2.6 wurde aus dem Amazon EMR-Basis-Linux-Image Abbild. Python 2.7 und 3.4 sind standardmäßig installiert. Sie können Python 2.6 bei Bedarf manuell installieren.

Version 5.4.0

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 5.4.0. Änderungen beziehen sich auf Amazon EMR Version 5.3.0.

Veröffentlichungsdatum: 8. März 2017

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Flink 1.2.0

  • Upgrade auf Hbase 1.3.0

  • Upgrade auf Phoenix 4.9.0

    Anmerkung

    Wenn Sie von einer früheren Version von Amazon EMR auf Amazon EMR Version 5.4.0 oder höher upgraden und die sekundäre Indizierung verwenden, aktualisieren Sie lokale Indizes wie in der Apache Phoenix-Dokumentation beschrieben. Amazon EMR entfernt die erforderlichen Konfigurationen aus der hbase-site-Klassifizierung, aber Indizes müssen neu gefüllt werden. Online- und Offline-Upgrades von Indizes werden unterstützt. Online-Upgrades sind die Standardeinstellung. Dies bedeutet, dass Indizes neu gefüllt werden, während die Initialisierung von Phoenix-Clients Version 4.8.0 oder höher ausgeführt wird. Um Offline-Upgrades festzulegen, geben Sie für die phoenix.client.localIndexUpgrade-Konfiguration in der phoenix-site-Klassifizierung "false" und dann SSH für den Master-Knoten an, um psql [zookeeper] -1. auszuführen.

  • Upgrade auf Presto 0.166

  • Upgrade auf Zeppelin 0.7.0

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an Amazon EMR-Versionen mit der Versionsbezeichnung emr-5.4.0 vorgenommen:

Version 5.3.1

Die folgenden Versionshinweise enthalten Informationen zu Amazon EMR Version 5.3.1. Änderungen beziehen sich auf Amazon EMR Version 5.3.0.

Versionsdatum: 7. Februar 2017

Kleinere Änderungen zur Rückportierung von Zeppelin-Patches und Aktualisierung des Standard-AMI für Amazon EMR.

Version 5.3.0

Die folgenden Versionshinweise enthalten Informationen zu Amazon EMR Version 5.3.0. Änderungen beziehen sich auf Amazon EMR Version 5.2.1.

Veröffentlichungsdatum: 26. Januar 2017

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Hive 2.1.1

  • Upgrade auf Hue 3.11.0

  • Upgrade auf Spark 2.1.0

  • Upgrade auf Oozie 4.3.0

  • Upgrade auf Flink 1.1.4

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an Amazon EMR-Versionen mit der Versionsbezeichnung emr-5.3.0 vorgenommen:

  • Ein Patch für Hue wurde hinzugefügt, mit dem Sie die Einstellung interpreters_shown_on_wheel verwenden können, um zu konfigurieren, was Interpreter in der Notebook-Auswahl als Erstes anzeigen, unabhängig von ihrer Reihenfolge in der Datei hue.ini

  • Die Konfigurationsklassifizierung hive-parquet-logging wurde hinzugefügt, mit der Sie Werte in der Hive-Datei parquet-logging.properties konfigurieren können.

Version 5.2.2

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 5.2.2. Änderungen beziehen sich auf Amazon EMR Version 5.2.1.

Veröffentlichungsdatum: 2. Mai 2017

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Rückportierung von SPARK-194459, die ein Problem behebt, bei dem das Lesen aus einer ORC-Tabelle mit char/varchar-Spalten fehlschlagen kann.

Version 5.2.1

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 5.2.1. Änderungen beziehen sich auf Amazon EMR Version 5.2.0.

Veröffentlichungsdatum: 29. Dezember 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Presto 0.157.1. Weitere Informationen finden Sie unter Presto-Versionshinweise in der Presto-Dokumentation.

  • Upgrade auf ZooKeeper 3.4.9. Weitere Informationen finden Sie unter ZooKeeper Release Notes in der Apache ZooKeeper-Dokumentation.

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an Amazon EMR-Versionen mit der Versionsbezeichnung emr-5.2.1 vorgenommen:

  • Unterstützung hinzugefügt für den Amazon EC2-Instance-Typ m4.16xlarge in Amazon EMR Version 4.8.3 und höher, ausgenommen 5.0.0, 5.0.3 und 5.2.0.

  • Amazon EMR-Release-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

  • Der Speicherort von Flink- und YARN-Konfigurationspfaden wird nun standardmäßig in /etc/default/flink festgelegt. Sie brauchen die Umgebungsvariablen FLINK_CONF_DIR und HADOOP_CONF_DIR bei der Ausführung des Treiberskripts flink oder yarn-session.sh zum Starten von Flink-Aufträgen nicht festlegen.

  • Die FlinkKinesisConsumer-Klasse wird jetzt unterstützt.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem in Hadoop behoben, bei dem der ReplicationMonitor-Thread aufgrund einer Race Condition (Wettlaufsituation) zwischen Replikation und Löschung derselben Datei in einem großen Cluster lange stockte.

  • Es wurde ein Problem behoben, bei dem ControlledJob # toString mit einem Nullzeiger-Ausnahmefehler (NPE) fehlschlug, wenn der Auftragsstatus nicht erfolgreich aktualisiert wurde.

Version 5.2.0

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 5.2.0. Änderungen beziehen sich auf Amazon EMR Version 5.1.0.

Veröffentlichungsdatum: 21. November 2016

Änderungen und Verbesserungen

Die folgenden Änderungen und Verbesserungen sind in dieser Version verfügbar:

  • Der Amazon S3-Speichermodus für HBase wurde hinzugefügt.

  • Jetzt können Sie einen Amazon S3-Speicherort für das HBase-Stammverzeichnis angeben. Weitere Informationen finden Sie unter HBase auf Amazon S3.

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Spark 2.0.2

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem mit der Beschränkung von /mnt auf 2 TB auf ausschließlichen EBS-Instance-Typen behoben.

  • Es wurde ein Problem mit Instance-Controller und Logpusher-Protokollen behoben, die an die entsprechenden OUT-Dateien anstelle ihrer üblichen log4j-konfigurierten LOG-Dateien, die stündlich rotieren, ausgegeben wurden. Da die OUT-Dateien nicht rotieren, ist letztendlich die /emr-Partition belegt. Dieses Problem wirkt sich nur auf Hardware Virtual Machine (HVM)-Instance-Typen aus.

Version 5.1.0

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 5.1.0. Änderungen beziehen sich auf Amazon EMR Version 5.0.0.

Veröffentlichungsdatum: 03. November 2016

Änderungen und Verbesserungen

Die folgenden Änderungen und Verbesserungen sind in dieser Version verfügbar:

  • Flink 1.1.3 wird jetzt unterstützt.

  • Presto wurde als Option im Notizbuchabschnitt von Hue hinzugefügt.

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Hbase 1.2.3

  • Upgrade auf Zeppelin 0.6.2

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Ein Problem mit Tez-Abfragen in Amazon S3, bei dem ORC-Dateien nicht so gute Leistung zeigten, wie in früheren Amazon EMR 4.x-Versionen, wurde behoben.

Version 5.0.3

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 5.0.3. Änderungen beziehen sich auf Amazon EMR Version 5.0.0.

Veröffentlichungsdatum: 24. Oktober 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Hadoop 2.7.3

  • Es wurde ein Upgrade auf Presto 0.152.3 durchgeführt, das Support für die Presto-Webschnittstelle umfasst. Sie können auf die Presto-Webschnittstelle des Presto-Koordinators über Port 8889 zugreifen. Weitere Informationen zur Presto-Webschnittstelle finden Sie unter Webschnittstelle in der Presto-Dokumentation.

  • Upgrade auf Spark 2.0.1

  • Amazon EMR-Release-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Version 5.0.0

Veröffentlichungsdatum: 27. Juli 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Hive 2.1

  • Upgrade auf Presto 0.150

  • Upgrade auf Spark 2.0

  • Upgrade auf Hue 3.10.0

  • Upgrade auf Pig 0.16.0

  • Upgrade auf Tez 0.8.4

  • Upgrade auf Zeppelin 0.6.1

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an Amazon EMR-Versionen mit der Versionsbezeichnung emr-5.0.0 oder höher vorgenommen:

  • Amazon EMR unterstützt die neuesten Open-Source-Versionen von Hive (Version 2.1) und Pig (Version 0.16.0). Wenn Sie Hive oder Pig in der Vergangenheit in Amazon EMR verwendet haben, kann sich dies auf einige Anwendungsfälle auswirken. Weitere Informationen finden Sie unter Hive und Pig.

  • Die Standard-Ausführungs-Engine für Hive und Pig ist jetzt Tez. Um dies zu ändern, bearbeiten Sie die entsprechenden Werte in den Konfigurationsklassifizierungen hive-site bzw. pig-properties

  • Eine verbesserte Schritt-Debugging-Funktion wurde hinzugefügt. Mit dieser Funktion können Sie die Ursache von Schrittfehlern sehen, wenn der Service die Ursache ermitteln kann. Weitere Informationen finden Sie unter Verbessertes Schritt-Debuggen im Management Guide für Amazon EMR.

  • Anwendungen, die zuvor mit "-Sandbox" endeten, tragen diesen Suffix nicht mehr. Dies kann Ihre Automatisierung, zum Beispiel, wenn Sie Skripts zum Starten von Clustern mit diesen Anwendungen verwenden, unterbrechen. In der folgenden Tabelle sind die Namen von Anwendungen in Amazon EMR 4.7.2 im Vergleich zu Amazon EMR 5.0.0. 5.0.0 aufgelistet.

    Änderungen der Anwendungsnamen
    Amazon EMR 4.7.2 Amazon EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper-Sandbox ZooKeeper
  • Spark ist jetzt für Scala 2.11 kompiliert.

  • Java 8 ist jetzt die Standard-JVM. Alle Anwendungen werden mit der Java 8-Laufzeit ausgeführt. Es sind keine Änderungen am Byte-Codeziel der Anwendungen vorgenommen worden. Die meisten Anwendungen zielen weiterhin auf Java 7 ab.

  • Zeppelin enthält jetzt Authentifizierungsfunktionen. Weitere Informationen finden Sie unter Zeppelin.

  • Es werden jetzt Sicherheitskonfigurationen unterstützt, mit deren Hilfe Sie die Verschlüsselungsoptionen einfacher erstellen und anwenden können. Weitere Informationen finden Sie unter Datenverschlüsselung.

Version 4.9.5

Die folgenden Versionshinweise enthalten Informationen zur Version 4.9.5 von Amazon EMR. Änderungen beziehen sich auf Version 4.9.4.

Erste Version: 29. August 2018

Änderungen, Verbesserungen und behobene Probleme

  • HBase

    • Diese Version behebt eine potenzielle Sicherheitsschwachstelle.

Version 4.9.4

Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 4.9.4. Änderungen beziehen sich auf Version 4.9.3.

Erste Version: 29. März 2018

Änderungen, Verbesserungen und behobene Probleme

  • Der Amazon Linux-Kernel des Amazon Linux-Standard-AMI für Amazon EMR wurde aktualisiert, um mögliche Schwachstellen zu beheben.

Version 4.9.3

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 4.9.3. Änderungen beziehen sich auf Amazon EMR Version 4.9.2.

Erste Version: 22. Januar 2018

Änderungen, Verbesserungen und behobene Probleme

Version 4.9.2

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 4.9.2. Änderungen beziehen sich auf Amazon EMR Version 4.9.1.

Veröffentlichungsdatum: 13. Juli 2017

Kleinere Änderungen, Fehlerbehebungen und Verbesserungen wurden in dieser Version vorgenommen.

Version 4.9.1

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 4.9.1. Änderungen beziehen sich auf Amazon EMR Version 4.8.4.

Veröffentlichungsdatum: 10. April 2017

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Rückportierungen von HIVE-9976 und HIVE-10106

  • Es wurde ein Problem in YARN behoben, bei dem eine große Anzahl von Knoten (mehr als 2.000) und Container (mehr als 5.000) einen Fehler wegen zu geringem Speicherplatz verursachte, z. B.: "Exception in thread 'main' java.lang.OutOfMemoryError".

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an Amazon EMR-Versionen mit der Versionsbezeichnung emr-4.9.1 vorgenommen:

Version 4.8.4

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 4.8.4. Änderungen beziehen sich auf Amazon EMR Version 4.8.3.

Veröffentlichungsdatum: 7. Februar 2017

Kleinere Änderungen, Fehlerbehebungen und Verbesserungen wurden in dieser Version vorgenommen.

Version 4.8.3

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 4.8.3. Änderungen beziehen sich auf Amazon EMR Version 4.8.2.

Veröffentlichungsdatum: 29. Dezember 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Presto 0.157.1. Weitere Informationen finden Sie unter Presto-Versionshinweise in der Presto-Dokumentation.

  • Upgrade auf Spark 1.6.3. Weitere Informationen finden Sie in den Spark-Versionshinweisen in der Apache Spark-Dokumentation.

  • Upgrade auf ZooKeeper 3.4.9. Weitere Informationen finden Sie unter ZooKeeper Release Notes in der Apache ZooKeeper-Dokumentation.

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an Amazon EMR-Versionen mit der Versionsbezeichnung emr-4.8.3 vorgenommen:

  • Unterstützung hinzugefügt für den Amazon EC2-Instance-Typ m4.16xlarge in Amazon EMR Version 4.8.3 und höher, ausgenommen 5.0.0, 5.0.3 und 5.2.0.

  • Amazon EMR-Release-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem in Hadoop behoben, bei dem der ReplicationMonitor-Thread aufgrund einer Race Condition (Wettlaufsituation) zwischen Replikation und Löschung derselben Datei in einem großen Cluster lange stockte.

  • Es wurde ein Problem behoben, bei dem ControlledJob # toString mit einem Nullzeiger-Ausnahmefehler (NPE) fehlschlug, wenn der Auftragsstatus nicht erfolgreich aktualisiert wurde.

Version 4.8.2

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR Version 4.8.2. Änderungen beziehen sich auf Amazon EMR Version 4.8.0.

Veröffentlichungsdatum: 24. Oktober 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Hadoop 2.7.3

  • Es wurde ein Upgrade auf Presto 0.152.3 durchgeführt, das Support für die Presto-Webschnittstelle umfasst. Sie können auf die Presto-Webschnittstelle des Presto-Koordinators über Port 8889 zugreifen. Weitere Informationen zur Presto-Webschnittstelle finden Sie unter Webschnittstelle in der Presto-Dokumentation.

  • Amazon EMR-Release-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Version 4.8.0

Veröffentlichungsdatum: 7. September 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Hbase 1.2.2

  • Upgrade auf Presto-Sandbox 0.151

  • Upgrade auf Tez 0.8.4

  • Upgrade auf Zeppelin-Sandbox 0.6.1

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an Amazon EMR-Versionen mit der Versionsbezeichnung emr-4.8.0 vorgenommen:

  • Es wurde ein Problem in YARN behoben, bei dem der ApplicationMaster versucht, Container zu bereinigen, die nicht mehr vorhanden sind, da ihre Instances beendet wurden.

  • Die hive-server2-URL für Hive2-Aktionen in den Oozie-Beispielen wurde korrigiert.

  • Zusätzliche Presto-Kataloge werden jetzt unterstützt.

  • Patches wurden rückportiert: HIVE-8948, HIVE-12679, HIVE-13405, PHOENIX-3116, HADOOP-12689

  • Es werden jetzt Sicherheitskonfigurationen unterstützt, mit deren Hilfe Sie die Verschlüsselungsoptionen einfacher erstellen und anwenden können. Weitere Informationen finden Sie unter Datenverschlüsselung.

Version 4.7.2

Die folgenden Versionshinweise enthalten Informationen über Amazon EMR 4.7.2.

Veröffentlichungsdatum: 15. Juli 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • Upgrade auf Mahout 0.12.2

  • Upgrade auf Presto 0.148

  • Upgrade auf Spark 1.6.2

  • Sie können nun einen AWSCredentialsProvider mit einem URI als Parameter für die Verwendung mit EMRFS erstellen. Weitere Informationen finden Sie unter Erstellen eines AWSCredentialsProvider für EMRFS.

  • EMRFS ermöglicht Benutzern nun die Konfiguration eines benutzerdefinierten DynamoDB-Endpunkts für die Metadaten ihrer konsistenten Ansicht mit der Eigenschaft fs.s3.consistent.dynamodb.endpoint in emrfs-site.xml.

  • Es wurde ein Skript in /usr/bin mit dem Namen spark-example hinzugefügt, das /usr/lib/spark/spark/bin/run-example umschließt, sodass Sie Beispiele direkt ausführen können. Um beispielsweise das SparkPi-Beispiel auszuführen, das im Umfang der Spark-Verteilung enthalten ist, können Sie spark-example SparkPi 100 über die Befehlszeile oder mit command-runner.jar als Schritt in der API ausführen.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben, bei dem Oozie die Datei spark-assembly.jar nicht am richtigen Speicherort ablegte, wenn Spark auch installiert war. Dies führte dazu, dass Spark-Anwendungen nicht mit Oozie gestartet werden konnten.

  • Es wurde ein Problem mit Spark Log4j-basierter Protokollierung in YARN-Containern behoben.

Version 4.7.1

Veröffentlichungsdatum: 10. Juni 2016

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben, das die Startzeit von Clustern verlängerte, die in einer VPC mit privaten Subnetzen gestartet wurden. Der Fehler wirkte sich nur auf Cluster aus, die mit Amazon EMR Version 4.7.0 gestartet wurden.

  • Es wurde ein Problem behoben, bei dem das Auflisten von Dateien in Amazon EMR für Cluster, die mit Amazon EMR Version 4.7.0 gestartet wurden, nicht ordnungsgemäß durchgeführt wurde.

Version 4.7.0

Wichtig

Amazon EMR 4.7.0 ist veraltet. Verwenden Sie stattdessen Amazon EMR 4.7.1 oder höher.

Veröffentlichungsdatum: 2. Juni 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • Apache Phoenix 4.7.0 wurde hinzugefügt.

  • Apache Tez 0.8.3 wurde hinzugefügt.

  • Upgrade auf Hbase 1.2.1

  • Upgrade auf Mahout 0.12.0

  • Upgrade auf Presto 0.147

  • Upgrade von AWS SDK for Java auf 1.10.75

  • Das letzte Flag wurde von der Eigenschaft mapreduce.cluster.local.dir in mapred-site.xml entfernt, damit Benutzer Pig im lokalen Modus ausführen können.

Amazon Redshift JDBC-Treiber verfügbar auf dem Cluster

Amazon Redshift JDBC-Treiber sind jetzt unter /usr/share/aws/redshift/jdbc enthalten. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar ist der JDBC 4.1-kompatible Amazon Redshift-Treiber und /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar ist der JDBC-4.0 4.1-kompatible Amazon Redshift-Treiber. Weitere Informationen finden Sie unter Konfigurieren einer JDBC-Verbindung im Amazon Redshift Cluster Management Guide.

Java 8

Außer für Presto ist OpenJDK 1.7 das Standard-JDK, das für alle Anwendungen verwendet wird. Es ist jedoch sowohl OpenJDK 1.7 als auch 1.8 installiert. Informationen zum Festlegen von JAVA_HOME für Anwendungen finden Sie unter Konfigurieren von Anwendungen zur Verwendung von Java 8.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Kernel-Problem behoben, das sich signifikant auf die Leistung für durchsatzoptimierte HDD (st1)-EBS-Volumes für Amazon EMR in emr-4.6.0 auswirkte.

  • Es wurde ein Problem behoben, bei dem ein Cluster fehlschlug, wenn eine HDFS-Verschlüsselungszone angegeben wurde, ohne Hadoop als Anwendung auszuwählen.

  • Die HDFS-Standardschreibrichtlinie wurde von RoundRobin in AvailableSpaceVolumeChoosingPolicy. geändert. Einige Volumes wurden mit der RoundRobin-Konfiguration nicht ordnungsgemäß genutzt, was zu fehlgeschlagenen Core-Knoten und einem unzuverlässigen HDFS führte.

  • Es wurde ein Problem mit der EMRFS-Befehlszeilenschnittstelle behoben, das zu einer Ausnahme beim Erstellen der standardmäßigen DynamoDB-Metadatentabelle für konsistente Ansichten führte.

  • Es wird ein Deadlock-Problem in EMRFS behoben, das bei mehrteiligen Umbenennungs- und Kopieroperationen auftreten konnte.

  • Es wurde ein Problem mit EMRFS behoben, das dazu führte, dass die CopyPart-Größe standardmäßig 5 MB betrug. Der Standard ist jetzt ordnungsgemäß auf 128 MB eingestellt.

  • Es wurde ein Problem mit der Zeppelin-Startkonfiguration behoben, das möglicherweise das Anhalten des Service verhinderte.

  • Es wurde ein Problem mit Spark und Zeppelin behoben, das Sie daran hindert, das s3a://-URI-Schema zu verwenden, da /usr/lib/hadoop/hadoop-aws.jar nicht ordnungsgemäß in den jeweiligen Klassenpfad geladen wurde.

  • HUE-2484. wurde rückportiert.

  • Es wurde ein Commit von Hue 3.9.0 (kein JIRA vorhanden) rückportiert, um ein Problem mit dem HBase-Browserbeispiel zu beheben.

  • HIVE-9073. wurde rückportiert.

Version 4.6.0

Veröffentlichungsdatum: 21. April 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

Problem mit den durchsatzoptimierten HDD (st1)-EBS-Volume-Typen

Ein Problem im Linux-Kernel Versionen 4.2 und höher wirkte sich signifikant auf die Leistung der durchsatzoptimierten HDD (st1)-EBS-Volumes für EMR aus. Diese Version (emr-4.6.0) verwendet die Kernel-Version 4.4.5 und ist daher betroffen. Es wird empfohlen, emr-4.6.0 nicht zu verwenden, wenn Sie st1-EBS-Volumens einsetzen möchten. Sie können Amazon EMR-Versionen emr-4.5.0 oder früher mit st1 ohne Auswirkungen verwenden. Außerdem stellen wir die Problembehebung mit späteren Versionen zur Verfügung.

Python-Standardeinstellungen

Python 3.4 ist jetzt standardmäßig installiert, Python 2.7 bleibt jedoch der Systemstandard. Sie können Python 3.4 als Systemstandard mithilfe einer Bootstrap-Aktion konfigurieren. Sie können auch die Konfigurations-API verwenden, um festzulegen, dass PYSPARK_PYTHON nach /usr/bin/python3.4 in der Klassifizierung spark-env exportiert, um sich auf die von PySpark verwendete Python-Version auszuwirken.

Java 8

Außer für Presto ist OpenJDK 1.7 das Standard-JDK, das für alle Anwendungen verwendet wird. Es ist jedoch sowohl OpenJDK 1.7 als auch 1.8 installiert. Informationen zum Festlegen von JAVA_HOME für Anwendungen finden Sie unter Konfigurieren von Anwendungen zur Verwendung von Java 8.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben, bei dem die Anwendungsbereitstellung manchmal wegen eines generierten Passwort nach dem Zufallsprinzip ausfiel.

  • Bisher war mysqld auf allen Knoten installiert. Jetzt ist es nur auf der Master-Instance installiert und nur dann, wenn die gewählte Anwendung mysql-server als Komponente enthält. Derzeit enthalten die folgenden Anwendungen die Komponente mysql-server: HCatalog, Hive, Hue, Presto-Sandbox und Sqoop-Sandbox.

  • Der Wert yarn.scheduler.maximum-allocation-vcores wurde von der Standardeinstellung 32 auf 80 geändert. Dadurch wurde in emr-4.4.0 eingeführtes Problem behoben, das hauptsächlich mit Spark auftritt bei der Verwendung der Option maximizeResourceAllocation in einem Cluster, dessen Core-Instance-Typ zu den wenigen großen Instance-Typen gehört, deren YARN vcores höher als 32 festgelegt sind. Und zwar waren c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge oder m4.10xlarge von dem Problem betroffen.

  • s3-dist verwendet jetzt für alle Amazon S3-Nominierungen EMRFS und keine Stufen eines temporären HDFS-Verzeichnisses mehr.

  • Es wurde ein Problem mit der Ausnahmebehandlung für die clientseitigen Verschlüsselung mehrteiliger Uploads behoben.

  • Es wurde eine Option hinzugefügt, mit der Benutzer die Amazon S3-Speicherklasse ändern können. Standardmäßig ist diese Einstellung STANDARD. Die Konfigurationsklassifizierungseinstellung emrfs-site ist fs.s3.storageClass und die möglichen Werte sind STANDARD, STANDARD_IA und REDUCED_REDUNDANCY. Weitere Informationen zu Speicherklassen finden Sie unter Speicherklassen im Entwicklerhandbuch für Amazon Simple Storage Service.

Version 4.5.0

Veröffentlichungsdatum: 4. April 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • Upgrade auf Spark 1.6.1

  • Upgrade auf Hadoop 2.7.2

  • Upgrade auf Presto 0.140

  • AWS KMS-Unterstützung für serverseitige Amazon S3-Verschlüsselung hinzugefügt.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben, bei dem MySQL- und Apache-Server nicht gestartet wurden, nachdem ein Knoten neu gestartet wurde.

  • Es wurde ein Problem behoben, bei dem IMPORT nicht ordnungsgemäß mit nicht partitionierte Tabellen in funktionierte.Amazon S3

  • Es wurde ein Problem mit Presto behoben, bei dem das Staging-Verzeichnis beim Schreiben in Hive-Tabellen /mnt/tmp anstatt /tmp lauten muss.

Version 4.4.0

Veröffentlichungsdatum: 14. März 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • HCatalog 1.0.0 wurde hinzugefügt.

  • Sqoop-Sandbox 1.4.6 wurde hinzugefügt.

  • Upgrade auf Presto 0.136

  • Upgrade auf Zeppelin 0.5.6

  • Upgrade auf Mahout 0.11.1

  • dynamicResourceAllocation wurde standardmäßig aktiviert.

  • Es wurde eine Tabelle mit allen Konfigurationsklassifizierungen für die Version hinzugefügt. Weitere Informationen finden Sie in der Konfigurationsklassifizierungstabelle unter Konfigurieren von Anwendungen.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben, bei dem die Einstellung maximizeResourceAllocation nicht ausreichend Speicher für YARN ApplicationMaster-Daemons reservierte.

  • Es wurde ein Problem mit einer benutzerdefinierten DNS behoben. Wenn Einträge in resolve.conf den angegebenen, benutzerdefinierten Einträge vorangestellt werden, können die benutzerdefinierten Einträge nicht aufgelöst werden. Dieses Verhalten wirkte sich auf Cluster in einer VPC aus, wo der Standard-VPC-Nameserver als oberster Eintrag in eingefügt wird.resolve.conf.

  • Es wurde ein Problem behoben, bei dem die Python-Standardversion auf Version 2.7 geändert wurde und boto für diese Version nicht installiert war.

  • Es wurde ein Problem behoben, bei dem YARN-Container und Spark-Anwendungen eine eindeutige Ganglia Round Robin-Datenbankdatei (rrd) generierte, wodurch der erste, der Instance angefügte Datenträger vollständig belegt wurde. Aufgrund dieser Fehlerbehebung wurden YARN-Metriken auf Containerebene und Spark-Metriken auf Anwendungsebene deaktiviert.

  • Es wurde ein Problem im Protokoll-Pusher behoben, bei dem alle leeren Protokollordner gelöscht wurden. Das Ergebnis war, dass die Hive-CLI keine Protokolle erstellen konnte, da der Protokoll-Pusher den leeren user-Ordner unter /var/log/hive. entfernte.

  • Es wurde ein Problem mit Hive-Importen behoben, da sich auf die Partitionierung auswirkte und beim Import zu einem Fehler führte.

  • Es wurde ein Problem behoben, bei dem EMRFS und s3-dist-cp Bucket-Namen, die Punkte enthielten, nicht ordnungsgemäß verarbeiteten.

  • Es wurde ein Verhalten in EMRFS geändert, damit in Versioning-fähigen Buckets die Markierungsdatei _$folder$ nicht kontinuierlich erstellt wird. Dies kann zu einer verbesserten Leistung für Versioning-fähige Buckets beitragen.

  • Es wurde das Verhalten in EMRFS geändert, sodass Anweisungsdateien nur in Fällen verwendet werden, in denen die clientseitige Verschlüsselung aktiviert ist. Wenn Sie Anweisungsdateien bei Verwendung der clientseitigen Verschlüsselung löschen möchten, können Sie die emrfs-site.xml-Eigenschaft, fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled, auf "true" festlegen.

  • Die YARN-Protokollaggregation wurde geändert, sodass Protokolle am Aggregationsziel zwei Tage lang verwahrt werden. Das Standard-Ziel ist der HDFS-Speicher Ihres Clusters. Wenn Sie diese Dauer ändern möchten, ändern Sie den Wert yarn.log-aggregation.retain-seconds mit der Konfigurationsklassifizierung yarn-site beim Erstellen Ihres Clusters. Wie immer können Sie Ihre Anwendungsprotokolle beim Erstellen Ihres Clusters mit dem Parameter Amazon S3 in log-uri speichern.

Angewendete Patches

Die folgenden Patches aus Open-Source-Projekten sind in dieser Version enthalten:

Version 4.3.0

Veröffentlichungsdatum: 19. Januar 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • Upgrade auf Hadoop 2.7.1

  • Upgrade auf Spark 1.6.0

  • Upgrade auf Ganglia 3.7.2

  • Upgrade auf Presto 0.130

Amazon EMR hat einige Änderungen an der Einstellung spark.dynamicAllocation.enabled vorgenommen, wenn sie auf „true“ gesetzt wurde. Standardmäßig lautet der Wert „false“. Wenn die Einstellung auf "true" festgelegt ist, wirkt sich dies auf von der Einstellung maximizeResourceAllocation vorgenommene Standardeinstellungen aus:

  • Wenn spark.dynamicAllocation.enabled auf "true" eingestellt ist, wird spark.executor.instances nicht von maximizeResourceAllocation. festgelegt.

  • Die Einstellung spark.driver.memory wird nun basierend auf den Instance-Typen im Cluster auf ähnliche Weise konfiguriert, wie spark.executors.memory festgelegt wird. Da die Spark-Treiberanwendung jedoch entweder in der Master-Instance oder in einer der Core-Instances ausgeführt werden kann (z. B. im YARN-Client- bzw. -Cluster-Modus), wird die Einstellung spark.driver.memory auf der Grundlage des kleineren Instance-Typs in diesen beiden Instance-Gruppen festgelegt.

  • Die Einstellung spark.default.parallelism wird jetzt auf die doppelte Anzahl von CPU-Kernen für YARN Container festgelegt. In früheren Versionen war dies die Hälfte des Werts.

  • Die Berechnungen für den Arbeitsspeicher-Overhead, der für Spark YARN-Prozesse reserviert wurde, wurde präziser angepasst. Dies führt zu einer kleinen Erhöhung des gesamten, verfügbaren Speichers für Spark (d. h. spark.executor.memory).

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Die YARN-Protokollaggregation ist jetzt standardmäßig aktiviert.

  • Es wurde ein Problem behoben, bei dem Protokolle nicht per Push auf den Amazon S3-Protokoll-Bucket eines Clusters übertragen wurden, wenn die YARN-Protokollaggregation aktiviert war.

  • Die Größe von YARN-Containern haben jetzt ein neues Minimum von 32 für alle Knotentypen.

  • Es wurde ein Problem mit Ganglia behoben, dass zu übermäßigen Festplatten-E/A-Vorgängen auf dem Master-Knoten in großen Clustern führte.

  • Es wurde ein Problem behoben, das verhinderte, das Anwendungsprotokolle per Push-Verfahren an Amazon S3 übertragen wurden, wenn ein Cluster heruntergefahren wird.

  • Es wurde ein Problem in der EMRFS-CLI behoben, das dazu führte, dass einige Befehle fehlschlugen.

  • Es wurde ein Problem mit Zeppelin behoben, das verhinderte, dass Abhängigkeiten in den zugrunde liegenden SparkContext geladen wurden.

  • Es wurde ein Problem behoben, das aus einer Größenanpassung resultierte bei dem Versuch, Instances hinzuzufügen.

  • Es wurde ein Problem in Hive behoben, bei dem CREATE TABLE AS SELECT übermäßige Listenaufrufe an erstellt.Amazon S3.

  • Es wurde ein Problem behoben, bei dem große Cluster nicht ordnungsgemäß bereitgestellt wurden wenn Hue, Oozie und Ganglia installiert sind.

  • Es wurde ein Problem in s3-dist-cp behoben, bei dem ein Beendigungscode gleich Null zurückgegeben wurde, wenn ein Fehler auftrat.

Angewendete Patches

Die folgenden Patches aus Open-Source-Projekten sind in dieser Version enthalten:

Version 4.2.0

Veröffentlichungsdatum: 18. November 2015

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • Ganglia-Support wurde hinzugefügt.

  • Upgrade auf Spark 1.5.2

  • Upgrade auf Presto 0.125

  • Upgrade auf Oozie 4.2.0

  • Upgrade auf Zeppelin 0.5.5

  • Upgrade von AWS SDK for Java auf 1.10.27

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem mit der EMRFS-Befehlszeilenschnittstelle behoben, bei dem der standardmäßige Metadatentabellenname nicht verwendet wurde.

  • Es wurde ein Problem behoben, das bei der Verwendung von ORC-gestützten Tabellen in auftrat.Amazon S3.

  • Es wurde ein Problem behoben, das bei einem Python-Versionskonflikt in der Spark-Konfiguration auftrat.

  • Es wurde ein Problem behoben, bei dem ein YARN-Knotenstatus aufgrund von DNS-Problemen für Cluster in einer VPC keine Daten sendete.

  • Es wurde ein Problem behoben, die auftraten, wenn YARN Knoten stilllegte. Das führt dazu, dass Anwendungen hängen blieben oder keine neuen Anwendungen geplant werden konnten.

  • Es wurde ein Problem behoben, das auftrat, wenn Cluster mit dem Status TIMED_OUT_STARTING beendet wurden.

  • Es wurde ein Problem behoben, das auftrat, wenn die EMRFS Scala-Abhängigkeit in andere Builds einbezogen wurde. Die Scala-Abhängigkeit wurde entfernt.