EMRAmazon-Archiv mit Versionshinweisen - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

EMRAmazon-Archiv mit Versionshinweisen

Versionshinweise für alle EMR Amazon-Versionen sind unten verfügbar. Umfassende Versionsinformationen für jede Version finden Sie unter Release-Versionen von Amazon EMR 6.x, Amazon EMR 5.x-Release-Versionen und Amazon EMR 4.x-Release-Versionen.

Um Updates zu erhalten, wenn eine neue EMR Amazon-Version verfügbar ist, abonnieren Sie den RSSFeed für EMR Amazon-Versionshinweise.

Version 6.14.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.14.0. Änderungen beziehen sich auf Version 6.13.0. Informationen zum Zeitplan für die Veröffentlichung finden Sie unter 6.14.0 Änderungsprotokoll.

Neue Features
  • Amazon EMR 6.14.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-2, Flink 1.17.1, Iceberg 1.3.1, and Trino 422.

  • Amazon EMR Managed Scaling ist jetzt in der Region ap-southeast-3 Asien-Pazifik (Jakarta) für Cluster verfügbar, die Sie mit Amazon EMR 6.14.0 und höher erstellen.

Änderungen, Verbesserungen und behobene Probleme
  • Die Version 6.14.0 optimiert die Protokollverwaltung, wenn Amazon auf Amazon EMR läuft. EC2 Infolgedessen können Sie eine leichte Senkung der Speicherkosten für Ihre Cluster-Protokolle feststellen.

  • Die Version 6.14.0 verbessert den Skalierungs-Workflow, um verschiedene Core-Instances zu berücksichtigen, deren Größe für ihre EBS Amazon-Volumes erheblich variiert. Diese Verbesserung gilt nur für Core-Knoten; Herunterskalierungs-Operationen für Aufgabenknoten sind davon nicht betroffen.

  • Die Version 6.14.0 verbessert die Art und Weise, wie Amazon mit Open-Source-Anwendungen wie EMR interagiert. Apache Hadoop YARN ResourceManager and HDFS NameNode Diese Verbesserung reduziert das Risiko von Betriebsverzögerungen bei der Cluster-Skalierung und verringert Startup-Fehler, die aufgrund von Verbindungsproblemen mit den Open-Source-Anwendungen auftreten.

  • Die Version 6.14.0 optimiert die Anwendungsinstallation beim Clusterstart. Dies verbessert die Cluster-Startzeiten für bestimmte Kombinationen von EMR Amazon-Anwendungen.

  • Die Version 6.14.0 behebt ein Problem, bei dem Cluster-Scale-Down-Operationen zum Stillstand kommen können, wenn ein Cluster, der in einer VPC mit einer benutzerdefinierten Domain ausgeführt wird, auf einen Core- oder Task-Node-Neustart stößt.

  • Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als Standard-Amazon EMRAMI. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.

    OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen
    2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary)
    2.0.20240223.0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240131.0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240124.0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240109.0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20231218.0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231206.0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231116.0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231101.0 4,14.327 17. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20230906.0 4,14.322 11. September 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)

Version 6.13.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.13.0. Änderungen beziehen sich auf Version 6.12.0. Informationen zum Zeitplan für die Veröffentlichung finden Sie unter 6.13.0 Änderungsprotokoll.

Neue Features
  • Amazon EMR 6.13.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-1, CUDA Toolkit 11.8.0, and JupyterHub 1.5.0.

Änderungen, Verbesserungen und behobene Probleme
  • Die Version 6.13.0 verbessert den Amazon EMR Log Management Daemon, um sicherzustellen, dass alle Protokolle in regelmäßigen Abständen auf Amazon S3 hochgeladen werden, wenn ein Befehl zur Clusterbeendigung ausgegeben wird. Dies ermöglicht schnellere Clusterbeendigungen.

  • Die Version 6.13.0 erweitert die EMR Amazon-Protokollverwaltungsfunktionen, um einen konsistenten und zeitnahen Upload aller Protokolldateien auf Amazon S3 sicherzustellen. Davon profitieren vor allem Cluster mit langer LaufzeitEMR.

  • Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als Standard-Amazon EMRAMI. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.

    OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen
    2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary)
    2.0.20240223.0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240131.0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240124.0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240109.0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20231218.0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231206.0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231116.0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231101.0 4,14.327 16. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231020.1 4,14.326 7. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231012.1 4,14.326 26. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20230926.0 4,14.322 19. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20230906.0 4,14.322 04. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)

Version 6.12.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.12.0. Änderungen beziehen sich auf Version 6.11.0. Informationen zum Zeitplan für die Veröffentlichung finden Sie unter 6.12.0 Änderungsprotokoll.

Neue Features
  • Amazon EMR 6.12.0 supports Apache Spark 3.4.0, Apache Spark RAPIDS 23.06.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.1-amzn-0, Apache Iceberg 1.3.0-amzn-0, Trino 414, and PrestoDB 0.281.

  • Amazon EMR veröffentlicht 6.12.0 und höher und unterstützt die LDAP Integration mit Apache Livy, Apache Hive bis HiveServer 2 (HS2), Trino, Presto und Hue. Sie können Apache Spark und Apache Hadoop auch auf einem EMR Cluster installieren, der 6.12.0 oder höher verwendet, und sie für die Verwendung konfigurieren. LDAP Weitere Informationen finden Sie unter Verwenden von Active Directory oder LDAP Servern für die Authentifizierung bei Amazon EMR.

Änderungen, Verbesserungen und behobene Probleme
  • EMRAmazon-Versionen 6.12.0 und höher bieten Java 11-Laufzeitunterstützung für Flink. Weitere Informationen finden Sie unter Flink für die Ausführung mit Java 11 konfigurieren.

  • Die Version 6.12.0 fügt dem Cluster-Skalierungs-Workflow für EMR Cluster, auf denen Presto oder Trino ausgeführt werden, einen neuen Wiederholungsmechanismus hinzu. Diese Verbesserung verringert das Risiko, dass die Clustergrößenänderung aufgrund eines einzigen fehlgeschlagenen Größenänderungsvorgangs auf unbestimmte Zeit zum Stillstand kommt. Sie verbessert auch die Clusterauslastung, da Ihr Cluster schneller hoch- und herunterskaliert wird.

  • Die Version 6.12.0 behebt ein Problem, bei dem Cluster-Herunterskalierungs-Operationen zum Stillstand kommen können, wenn ein Core-Knoten, der einer ordnungsgemäßen Außerbetriebnahme unterzogen wird, aus irgendeinem Grund nicht mehr funktionsfähig ist, bevor er vollständig außer Betrieb genommen wird.

  • Die Version 6.12.0 verbessert die Cluster-Scale-Down-Logik, sodass Ihr Cluster nicht versucht, die Kernknoten unter den für den Cluster eingestellten Replikationsfaktor herunterzuskalieren. HDFS Dies entspricht Ihren Anforderungen an die Datenredundanz und verringert die Wahrscheinlichkeit, dass ein Skalierungsvorgang zum Stillstand kommt.

  • Die Version 6.12.0 verbessert die Leistung und Effizienz des Health Monitoring Service für Amazon, EMR indem die Geschwindigkeit erhöht wird, mit der Statusänderungen für Instances protokolliert werden. Diese Verbesserung verringert das Risiko einer Leistungseinbuße bei Cluster-Knoten, auf denen mehrere benutzerdefinierte Client-Tools oder Drittanbieteranwendungen ausgeführt werden.

  • Die Version 6.12.0 verbessert die Leistung des On-Cluster-Log-Management-Daemons für Amazon. EMR Daher ist die Wahrscheinlichkeit eines Leistungseinbruchs bei EMR Clustern, die Schritte mit hoher Parallelität ausführen, geringer.

  • Mit der EMR Amazon-Version 6.12.0 wurde der Log-Management-Daemon aktualisiert, um alle Protokolle, die aktiv verwendet werden, mit offenen Datei-Handles auf dem lokalen Instance-Speicher und die zugehörigen Prozesse zu identifizieren. Dieses Upgrade stellt sicher, dass Amazon die Dateien EMR ordnungsgemäß löscht und Speicherplatz zurückgewinnt, nachdem die Protokolle auf Amazon S3 archiviert wurden.

  • Die Version 6.12.0 beinhaltet eine Erweiterung des Protokollverwaltungs-Daemons, die leere, unbenutzte Schrittverzeichnisse im lokalen Cluster-Dateisystem löscht. Eine zu große Anzahl leerer Verzeichnisse kann die Leistung der EMR Amazon-Daemons beeinträchtigen und zu einer Überauslastung der Festplatte führen.

  • Die Version 6.12.0 ermöglicht die Protokollrotation für Timeline Server-Protokolle. YARN Dadurch werden Szenarien mit übermäßiger Festplattenauslastung minimiert, insbesondere bei Clustern mit langer Laufzeit.

  • Die Standardgröße des Root-Volumes wurde in Amazon EMR 6.10.0 und höher auf 15 GB erhöht. Frühere Versionen haben eine Standardgröße für das Root-Volume von 10 GB.

  • Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als Standard-Amazon EMRAMI. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.

    OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen
    2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary)
    2.0.20240223.0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240131.0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240124.0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240109.0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20231218.0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231206.0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231116.0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231101.0 4,14.327 16. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231020.1 4,14.326 7. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231012.1 4,14.326 26. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20230926.0 4,14.322 19. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20230906.0 4,14.322 04. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230822.0 4,14.322 30. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230719.0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230628.0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada (Zentral)

Version 6.11.1

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.11.1. Änderungen beziehen sich auf Version 6.11.0. Informationen zum Zeitplan für die Veröffentlichung finden Sie unter 6.11.1 Änderungsprotokoll.

Änderungen, Verbesserungen und behobene Probleme
  • Aufgrund von Sperrkonflikten kann ein Knoten in einen Deadlock geraten, wenn er gleichzeitig mit dem Versuch, ihn außer Betrieb zu nehmen, hinzugefügt oder entfernt wird. Infolgedessen reagiert der Hadoop Resource Manager (YARN) nicht mehr und wirkt sich auf alle eingehenden und aktuell laufenden Container aus.

  • Diese Version enthält eine Änderung, die es Hochverfügbarkeitsclustern ermöglicht, nach einem Neustart den Status „Fehler“ wiederherzustellen.

  • Diese Version enthält Sicherheitskorrekturen für Hue und. HBase

  • Diese Version behebt ein Problem, bei dem Cluster, die Workloads auf Spark mit Amazon ausführen, EMR möglicherweise unbemerkt falsche Ergebnisse mitcontains, startsWithendsWith, und erhalten. like Dieses Problem tritt auf, wenn Sie die Ausdrücke für partitionierte Felder verwenden, die Metadaten im Amazon EMR Hive3 Metastore Server () haben. HMS

  • Diese Version behebt ein Problem mit der Drosselung auf der Glue-Seite, wenn keine benutzerdefinierten Funktionen () vorhanden sind. UDF

  • Diese Version behebt ein Problem, bei dem Containerprotokolle vom Node Log Aggregation Service gelöscht werden, bevor Log Pusher sie im Falle einer Außerbetriebnahme an S3 weiterleiten kann. YARN

  • Diese Version behebt ein Problem mit FairShare Scheduler-Metriken, wenn Node Label für Hadoop aktiviert ist.

  • Diese Version behebt ein Problem, das die Leistung von Spark beeinträchtigte, wenn Sie einen true-Standardwert für die spark.yarn.heterogeneousExecutors.enabled-Konfiguration in spark-defaults.conf festlegen.

  • Diese Version behebt ein Problem, bei dem Reduce Task die Shuffle-Daten nicht lesen konnte. Das Problem führte zu Hive-Abfragefehlern mit einem Speicherfehler.

  • Diese Version erweitert den Cluster-Skalierungs-Workflow für EMR Cluster, auf denen Presto oder Trino ausgeführt wird, um einen neuen Wiederholungsmechanismus. Diese Verbesserung verringert das Risiko, dass die Clustergrößenänderung aufgrund eines einzigen fehlgeschlagenen Größenänderungsvorgangs auf unbestimmte Zeit zum Stillstand kommt. Sie verbessert auch die Clusterauslastung, da Ihr Cluster schneller hoch- und herunterskaliert wird.

  • Diese Version verbessert die Cluster-Scale-Down-Logik, sodass Ihr Cluster nicht versucht, die Kernknoten unter die für den Cluster eingestellte Replikationsfaktor-Einstellung herunterzuskalieren. HDFS Dies entspricht Ihren Anforderungen an die Datenredundanz und verringert die Wahrscheinlichkeit, dass ein Skalierungsvorgang zum Stillstand kommt.

  • Der Protokoll-Management-Daemon wurde aktualisiert, um alle Protokolle, die aktiv verwendet werden, mit offenen Datei-Handles auf dem lokalen Instance-Speicher und die zugehörigen Prozesse zu identifizieren. Dieses Upgrade stellt sicher, dass Amazon die Dateien EMR ordnungsgemäß löscht und Speicherplatz zurückgewinnt, nachdem die Protokolle auf Amazon S3 archiviert wurden.

  • Diese Version beinhaltet eine Erweiterung des Protokollverwaltungs-Daemons, die leere, unbenutzte Schrittverzeichnisse im lokalen Cluster-Dateisystem löscht. Eine zu große Anzahl leerer Verzeichnisse kann die Leistung der EMR Amazon-Daemons beeinträchtigen und zu einer Überauslastung der Festplatte führen.

  • Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als Standard-Amazon EMRAMI. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.

    OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen
    2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary)
    2.0.20240223.0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240131.0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240124.0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20240109.0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary)
    2.0.20231218.0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231206.0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231116.0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231101.0 4,14.327 16. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231020.1 4,14.326 7. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231012.1 4,14.326 26. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20230926.0 4,14.322 19. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20230906.0 4,14.322 04. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230822.0 4,14.322 30. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral)

Version 6.11.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.11.0. Änderungen beziehen sich auf Version 6.10.0. Informationen zum Zeitplan der Veröffentlichung finden Sie im Änderungsprotokoll.

Neue Features
  • Amazon EMR 6.11.0 unterstützt Apache Spark 3.3.2-amzn-0, Apache Spark RAPIDS 23.02.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.0-amzn-0, Apache Iceberg 1.2.0-amzn-0, Trino 410-amzn-0 und PrestoDB 0.279-amzn-0.

Änderungen, Verbesserungen und behobene Probleme
  • Mit Amazon EMR 6.11.0 wurde der DynamoDB-Connector auf Version 5.0.0 aktualisiert. Version 5.0.0 verwendet. AWS SDK for Java 2.x In früheren Versionen wurde AWS SDK for Java 1.x verwendet. Aufgrund dieses Upgrades empfehlen wir Ihnen dringend, Ihren Code zu testen, bevor Sie den DynamoDB-Connector mit Amazon EMR 6.11 verwenden.

  • Wenn der DynamoDB-Connector für Amazon EMR 6.11.0 den DynamoDB-Service aufruft, verwendet er den Region-Wert, den Sie für die Eigenschaft angeben. dynamodb.endpoint Wir empfehlen, dass Sie auch dynamodb.region konfigurieren, wenn Sie dynamodb.endpoint verwenden, und dass beide Eigenschaften auf dieselbe AWS-Region abzielen. Wenn Sie verwenden dynamodb.endpoint und nicht konfigurierendynamodb.region, gibt der DynamoDB-Connector für Amazon EMR 6.11.0 eine ungültige Region-Ausnahme zurück und versucht, Ihre AWS-Region Informationen aus dem EC2 Amazon-Instance-Metadatenservice () abzugleichen. IMDS Wenn der Connector die Region nicht abrufen kannIMDS, verwendet er standardmäßig USA Ost (Nord-Virginia) (). us-east-1 Der folgende Fehler ist ein Beispiel für die ungültige Region-Ausnahme, die möglicherweise angezeigt wird, wenn Sie die dynamodb.region Eigenschaft nicht richtig konfigurieren: error software.amazon.awssdk.services.dynamodb.model.DynamoDbException: Credential should be scoped to a valid region. Weitere Informationen zu den Klassen, die vom AWS SDK for Java Upgrade auf 2.x betroffen sind, finden Sie im Commit Upgrade AWS SDK for Java from 1.x auf 2.x (#175) im GitHub Repository für den EMR Amazon-DynamoDB-Connector.

  • Diese Version behebt ein Problem, bei dem Spaltendaten zu NULL werden, wenn Sie Delta Lake zum Speichern von Delta-Tabellendaten in Amazon S3 nach dem Spaltenumbenennungsvorgang verwenden. Weitere Informationen zu diesem experimentellen Feature in Delta Lake finden Sie unter Vorgang zum Umbenennen von Spalten im Delta-Lake-Benutzerhandbuch.

  • Die Version 6.11.0 behebt ein Problem, das auftreten kann, wenn Sie einen Edge-Knoten erstellen, indem Sie einen der Primärknoten aus einem Cluster mit mehreren Primärknoten replizieren. Der replizierte Edge-Knoten kann zu Verzögerungen bei Scale-Down-Vorgängen oder zu einer hohen Arbeitsspeicherauslastung auf den Primärknoten führen. Weitere Informationen zum Erstellen eines Edge-Knotens für die Kommunikation mit Ihrem EMR Cluster finden Sie im Repo unter Edge Node Creator. aws-samples GitHub

  • Die Version 6.11.0 verbessert den Automatisierungsprozess, den Amazon EMR verwendet, um EBS Amazon-Volumes nach einem Neustart erneut in eine Instance einzubinden.

  • Die Version 6.11.0 behebt ein Problem, das zu zeitweiligen Lücken in den Hadoop-Metriken führte, die Amazon auf Amazon EMR veröffentlicht. CloudWatch

  • Die Version 6.11.0 behebt ein Problem mit EMR Clustern, bei dem eine Aktualisierung der YARN Konfigurationsdatei, die die Ausschlussliste der Knoten für den Cluster enthält, aufgrund einer übermäßigen Festplattenauslastung unterbrochen wird. Das unvollständige Update behindert zukünftige Cluster-Herunterskalierungs-Vorgänge. Diese Version stellt sicher, dass Ihr Cluster fehlerfrei bleibt und dass die Skalierungsvorgänge wie erwartet funktionieren.

  • Die Standardgröße des Root-Volumes wurde in Amazon EMR 6.10.0 und höher auf 15 GB erhöht. Frühere Versionen haben eine Standardgröße für das Root-Volume von 10 GB.

  • Mit Hadoop 3.3.3 wurde eine Änderung in YARN (YARN-9608) eingeführt, die dafür sorgt, dass Knoten, auf denen Container ausgeführt wurden, so lange außer Betrieb genommen werden, bis die Anwendung abgeschlossen ist. Diese Änderung stellt sicher, dass lokale Daten wie Shuffle-Daten nicht verloren gehen und Sie den Auftrag nicht erneut ausführen müssen. Dieser Ansatz kann auch zu einer Unterauslastung von Ressourcen in Clustern mit oder ohne aktivierter verwalteter Skalierung führen.

    In den EMR Amazon-Versionen 6.11.0 und höher sowie 6.8.1, 6.9.1 und 6.10.1 yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications ist der Wert von auf false in yarn-site.xml gesetzt, um dieses Problem zu beheben.

    Der Fix behebt zwar die Probleme, die durch YARN -9608 eingeführt wurden, kann jedoch dazu führen, dass Hive-Jobs aufgrund von Shuffle-Datenverlusten auf Clustern, für die verwaltete Skalierung aktiviert ist, fehlschlagen. Wir haben dieses Risiko in dieser Version verringert, indem wir auch yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-shuffle-data für Hive-Workloads eingerichtet haben. Diese Konfiguration ist nur mit EMR Amazon-Versionen 6.11.0 und höher verfügbar.

  • Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als Standard-Amazon EMRAMI. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.

    Anmerkung

    Diese Version erhält keine automatischen AMI Updates mehr, da ihr eine weitere Patch-Version folgte. Die Patch-Version wird durch die Zahl nach dem zweiten Dezimalpunkt (6.8.1) gekennzeichnet. Um zu sehen, ob Sie die neueste Patch-Version verwenden, überprüfen Sie die verfügbaren Versionen im Versionshandbuch oder überprüfen Sie das EMRAmazon-Release-Drop-down-Menü, wenn Sie einen Cluster in der Konsole erstellen, oder verwenden Sie die list-release-labelsCLIAktion ListReleaseLabelsAPIoder. Um über neue Versionen informiert zu werden, abonnieren Sie den RSS Feed unter Was ist neu? Seite.

    OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen
    2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary)
    2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), Israel (Tel Aviv)
    2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230719.0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230628.0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE)
    2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE)
    2.0.20230504,1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada (Zentral)

Version 6.10.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.10.0. Änderungen beziehen sich auf Version 6.9.0. Informationen zum Zeitplan der Veröffentlichung finden Sie im Änderungsprotokoll.

Neue Features
  • Amazon EMR 6.10.0 unterstützt Apache Spark 3.3.1, Apache Spark RAPIDS 22.12.0, CUDA 11.8.0, Apache Hudi 0.12.2-amzn-0, Apache Iceberg 1.1.0-amzn-0, Trino 403 und PrestoDB 0.278.1.

  • Amazon EMR 6.10.0 enthält einen nativen Trino-Hudi-Konnektor, der Lesezugriff auf Daten in Hudi-Tabellen ermöglicht. Sie können den Konnektor mit trino-cli --catalog hudi aktivieren und den Konnektor für Ihre Anforderungen mit trino-connector-hudi konfigurieren. EMRDurch die native Integration mit Amazon müssen Sie Hudi-Tabellen nicht mehr abfragen. trino-connector-hive Eine Liste der unterstützten Konfigurationen mit dem neuen Konnektor finden Sie auf der Hudi-Konnektor-Seite der Trino-Dokumentation.

  • EMRAmazon-Versionen 6.10.0 und höher unterstützen die Apache Zeppelin-Integration mit Apache Flink. Weitere Informationen finden Sie unter Arbeiten mit Flink-Aufträgen von Zeppelin in Amazon EMR.

Bekannte Probleme
  • Hadoop 3.3.3 führte eine Änderung in YARN (YARN-9608) ein, die dafür sorgt, dass Knoten, auf denen Container liefen, außer Betrieb genommen werden, bis die Anwendung abgeschlossen ist. Diese Änderung stellt sicher, dass lokale Daten wie Shuffle-Daten nicht verloren gehen und Sie den Auftrag nicht erneut ausführen müssen. Dieser Ansatz kann auch zu einer Unterauslastung von Ressourcen in Clustern mit oder ohne aktivierter verwalteter Skalierung führen.

    Um dieses Problem in Amazon EMR 6.10.0 zu umgehen, können Sie den Wert yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications auf false in yarn-site.xml setzen. In den EMR Amazon-Versionen 6.11.0 und höher sowie 6.8.1, 6.9.1 und 6.10.1 ist die Konfiguration false standardmäßig auf eingestellt, um dieses Problem zu beheben.

Änderungen, Verbesserungen und behobene Probleme
  • Amazon EMR 6.10.0 entfernt die Abhängigkeit von der Amazon Redshift Redshift-Integration minimal-json.jar für Apache Spark und fügt automatisch die erforderlichen Spark-Redshift-bezogenen JAR-Dateien zum Executor-Klassenpfad für Spark hinzu:, und. spark-redshift.jar spark-avro.jar RedshiftJDBC.jar

  • Die Version 6.10.0 verbessert den On-Cluster-Log-Management-Daemon zur Überwachung zusätzlicher Protokollordner in Ihrem Cluster. EMR Durch diese Verbesserung werden Szenarien mit übermäßiger Festplattenauslastung minimiert.

  • Die Version 6.10.0 startet den Protokoll-Management-Daemon auf dem Cluster automatisch neu, wenn er beendet wird. Durch diese Verbesserung wird das Risiko verringert, dass Knoten aufgrund übermäßiger Festplattenauslastung als fehlerhaft erscheinen.

  • Amazon EMR 6.10.0 unterstützt regionale Endpunkte für die EMRFS Benutzerzuweisung.

  • Die Standardgröße des Root-Volumes wurde in Amazon EMR 6.10.0 und höher auf 15 GB erhöht. Frühere Versionen haben eine Standardgröße für das Root-Volume von 10 GB.

  • Die Version 6.10.0 behebt ein Problem, das dazu führte, dass Spark-Jobs zum Stillstand kamen, wenn sich alle verbleibenden Spark-Executoren auf einem außer Betrieb genommenen Host mit dem Resource Manager befanden. YARN

  • Bei Amazon EMR 6.6.0 bis 6.9.x haben INSERT Abfragen mit dynamischer Partition und einer ORDER BY- oder SORT BY-Klausel immer zwei Reducer. Dieses Problem wird durch die OSS Änderung HIVE-20703 verursacht, die die Optimierung dynamischer Sortierpartitionen einer kostenbasierten Entscheidung unterstellt. Wenn Ihr Workload keine Sortierung dynamischer Partitionen erfordert, empfehlen wir Ihnen, die hive.optimize.sort.dynamic.partition.threshold-Eigenschaft auf -1 zu setzen, um das neue Feature zu deaktivieren und die korrekt berechnete Anzahl von Reduzierern zu erhalten. Dieses Problem wurde in OSS Hive als Teil von HIVE-22269 und in Amazon 6.10.0 behoben. EMR

  • Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als Standard-Amazon EMRAMI. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.

    Anmerkung

    Diese Version erhält keine automatischen AMI Updates mehr, da ihr eine weitere Patch-Version folgte. Die Patch-Version wird durch die Zahl nach dem zweiten Dezimalpunkt (6.8.1) gekennzeichnet. Um zu sehen, ob Sie die neueste Patch-Version verwenden, überprüfen Sie die verfügbaren Versionen im Versionshandbuch oder überprüfen Sie das EMRAmazon-Release-Drop-down-Menü, wenn Sie einen Cluster in der Konsole erstellen, oder verwenden Sie die list-release-labelsCLIAktion ListReleaseLabelsAPIoder. Um über neue Versionen informiert zu werden, abonnieren Sie den RSS Feed unter Was ist neu? Seite.

    OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen
    2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary)
    2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), Israel (Tel Aviv)
    2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230719.0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230628.0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE)
    2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE)
    2.0.20230504,1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE)
    2.0.20230418,0 4,14.311 3. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE)
    2.0.20230404,1 4,14.311 18. April 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Seoul), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE)
    2.0.20230404,0 4,14.311 10. April 2023 USA Ost (Nord-Virginia), Europa (Paris)
    2.0.20230320.0 4,14.309 30. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Seoul), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE)
    2.0.20230207,0 4,14.304 22. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Seoul), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE)

Version 6.9.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.9.0. Die Änderungen beziehen sich auf EMR Amazon-Version 6.8.0. Informationen zum Zeitplan der Veröffentlichung finden Sie im Änderungsprotokoll.

Neue Features
  • EMRAmazon-Version 6.9.0 unterstützt Apache Spark RAPIDS 22.08.0, Apache Hudi 0.12.1, Apache Iceberg 0.14.1, Trino 398 und Tez 0.10.2.

  • EMRAmazon-Version 6.9.0 enthält eine neue Open-Source-Anwendung, Delta Lake 2.1.0.

  • Die Amazon Redshift Redshift-Integration für Apache Spark ist in EMR Amazon-Versionen 6.9.0 und höher enthalten. Die native Integration war bisher ein Open-Source-Tool und ist ein Spark-Konnektor, mit dem Sie Apache-Spark-Anwendungen erstellen können, die Daten in Amazon Redshift und Amazon Redshift Serverless lesen und in diese schreiben. Weitere Informationen finden Sie unter Verwenden der Amazon Redshift Redshift-Integration für Apache Spark mit Amazon EMR .

  • Die EMR Amazon-Version 6.9.0 bietet Unterstützung für die Archivierung von Protokollen in Amazon S3 während der Cluster-Scale-Down. Bisher konnten Sie Protokolldateien nur während der Clusterbeendigung in Amazon S3 archivieren. Die neue Funktion stellt sicher, dass auf dem Cluster generierte Protokolldateien auch nach dem Beenden des Knotens auf Amazon S3 bestehen bleiben. Weitere Informationen finden Sie unter Konfigurieren der Cluster-Protokollierung und des Debuggings.

  • Um Abfragen mit langer Laufzeit zu unterstützen, verfügt Trino jetzt über einen fehlertoleranten Ausführungsmechanismus. Die fehlertolerante Ausführung minimiert Abfragefehler, indem fehlgeschlagene Abfragen oder deren Komponentenaufgaben wiederholt werden. Weitere Informationen finden Sie unter Fehlertolerante Ausführung in Trino.

  • Sie können Apache Flink on Amazon EMR für die Vereinheitlichung BATCH und STREAM Verarbeitung von Apache Hive-Tabellen oder Metadaten beliebiger Flink-Tabellenquellen wie Iceberg, Kinesis oder Kafka verwenden. Sie können den AWS Glue-Datenkatalog als Metastore für Flink angeben, indem Sie Amazon AWS Management Console, AWS CLI, oder verwenden. EMR API Weitere Informationen finden Sie unter Konfiguration von Flink in Amazon EMR.

  • Sie können jetzt AWS Identity and Access Management (IAM) Runtime-Rollen und AWS Lake Formation basierte Zugriffskontrolle für Apache Spark-, Apache Hive- und Presto-Abfragen auf Amazon EMR auf EC2 Clustern mit Amazon SageMaker Studio angeben. Weitere Informationen finden Sie unter EMR Schritte zur Konfiguration von Runtime-Rollen für Amazon.

Bekannte Probleme
  • Für die EMR Amazon-Version 6.9.0 funktioniert Trino nicht auf Clustern, die für Apache Ranger aktiviert sind. Wenn Sie Trino mit Ranger verwenden müssen, wenden Sie sich an AWS Support.

  • Wenn Sie die Amazon-Redshift-Integration für Apache Spark verwenden und eine Zeit, timetz, timestamp oder timestamptz mit Mikrosekundengenauigkeit im Parquet-Format haben, rundet der Konnektor die Zeitwerte auf den nächstliegenden Millisekundenwert. Um das Problem zu umgehen, verwenden Sie den unload_s3_format-Formatparameter-Text-Unload.

  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

  • Verbindungen zu EMR Amazon-Clustern von Amazon SageMaker Studio aus können zeitweise fehlschlagen und der Antwortcode 403 Forbidden wird angezeigt. Dieser Fehler tritt auf, wenn die Einrichtung der IAM Rolle im Cluster länger als 60 Sekunden dauert. Um das Problem zu umgehen, können Sie einen EMR Amazon-Patch installieren, um Wiederholungsversuche zu ermöglichen und das Timeout auf mindestens 300 Sekunden zu erhöhen. Verwenden Sie die folgenden Schritte, um die Bootstrap-Aktion anzuwenden, wenn Sie Ihren Cluster starten.

    1. Laden Sie das Bootstrap-Skript und die RPM Dateien vom folgenden Amazon S3 URIs herunter.

      s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/replace-rpms.sh s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/emr-secret-agent-1.18.0-SNAPSHOT20221121212949.noarch.rpm
    2. Laden Sie die Dateien aus dem vorherigen Schritt in einen Amazon-S3-Bucket hoch, dessen Eigentümer Sie sind. Der Bucket muss sich in dem Bereich befinden AWS-Region , in dem Sie den Cluster starten möchten.

    3. Schließen Sie beim Starten Ihres EMR Clusters die folgende Bootstrap-Aktion ein. Ersetzen bootstrap_URI and RPM_URI mit dem entsprechenden URIs von Amazon S3.

      --bootstrap-actions "Path=bootstrap_URI,Args=[RPM_URI]"
  • In den EMR Amazon-Versionen 5.36.0 und 6.6.0 bis 6.9.0 kann es bei RecordServer Servicekomponenten aufgrund einer falschen Konfiguration des Dateinamenmusters in den Log4j2-Eigenschaften zu einem Verlust von Protokolldaten kommen. SecretAgent Die falsche Konfiguration führt dazu, dass die Komponenten nur eine Protokolldatei pro Tag generieren. Wenn die Rotationsstrategie angewendet wird, überschreibt sie die vorhandene Datei, anstatt wie erwartet eine neue Protokolldatei zu generieren. Um das Problem zu umgehen, verwenden Sie eine Bootstrap-Aktion, um jede Stunde Protokolldateien zu generieren, und fügen Sie eine automatisch inkrementierte Ganzzahl an den Dateinamen an, um die Rotation zu handhaben.

    Verwenden Sie für Amazon-Versionen EMR 6.6.0 bis 6.9.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Verwenden Sie für Amazon EMR 5.36.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
  • Apache Flink bietet native S3 FileSystem - und FileSystem Hadoop-Konnektoren, mit denen Anwendungen Daten erstellen FileSink und in Amazon S3 schreiben können. Dies FileSink schlägt mit einer der folgenden zwei Ausnahmen fehl.

    java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS
    Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryPolicies.retryOtherThanRemoteAndSaslException(Lorg/apache/hadoop/io/retry/RetryPolicy;Ljava/util/Map;)Lorg/apache/hadoop/io/retry/RetryPolicy; at org.apache.hadoop.yarn.client.RMProxy.createRetryPolicy(RMProxy.java:302) ~[hadoop-yarn-common-3.3.3-amzn-0.jar:?]

    Als Workaround können Sie einen EMR Amazon-Patch installieren, der das oben genannte Problem in Flink behebt. Führen Sie die folgenden Schritte aus, um die Bootstrap-Aktion beim Start Ihres Clusters anzuwenden.

    1. Laden Sie das flink-rpm in Ihren Amazon-S3-Bucket herunter. Ihr RPM Weg ist. s3://DOC-EXAMPLE-BUCKET/rpms/flink/

    2. Laden Sie das Bootstrap-Skript und die RPM Dateien wie folgt URI von Amazon S3 herunter. regionNameErsetzen Sie es durch den AWS-Region Ort, an dem Sie den Cluster starten möchten.

      s3://emr-data-access-control-regionName/customer-bootstrap-actions/gcsc/replace-rpms.sh
    3. Hadoop 3.3.3 führte eine Änderung in YARN (YARN-9608) ein, die dafür sorgt, dass Knoten, auf denen Container liefen, außer Betrieb genommen werden, bis die Anwendung abgeschlossen ist. Diese Änderung stellt sicher, dass lokale Daten wie Shuffle-Daten nicht verloren gehen und Sie den Auftrag nicht erneut ausführen müssen. In Amazon EMR 6.8.0 und 6.9.0 kann dieser Ansatz auch zu einer Unterauslastung von Ressourcen auf Clustern mit oder ohne aktivierte verwaltete Skalierung führen.

      Mit Amazon EMR 6.10.0 gibt es eine Lösung für dieses Problem, indem Sie den Wert yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications auf false in setzen. yarn-site.xml In den EMR Amazon-Versionen 6.11.0 und höher sowie 6.8.1, 6.9.1 und 6.10.1 ist die Konfiguration false standardmäßig auf eingestellt, um dieses Problem zu beheben.

Änderungen, Verbesserungen und behobene Probleme
  • Für EMR Amazon-Version 6.9.0 und höher verwenden alle von Amazon installierten Komponenten, EMR die Log4j-Bibliotheken verwenden, Log4j Version 2.17.1 oder höher.

  • Wenn Sie den DynamoDB-Connector mit den EMR Versionen 6.6.0, 6.7.0 und 6.8.0 von Spark auf Amazon verwenden, geben alle Lesevorgänge aus Ihrer Tabelle ein leeres Ergebnis zurück, obwohl der Eingabe-Split auf nicht leere Daten verweist. EMRAmazon-Version 6.9.0 behebt dieses Problem.

  • Amazon EMR 6.9.0 bietet eingeschränkte Unterstützung für die auf Lake Formation basierende Zugriffskontrolle mit Apache Hudi beim Lesen von Daten mit Spark. SQL Die Unterstützung bezieht sich auf SELECT Abfragen mit Spark SQL und ist auf die Zugriffskontrolle auf Spaltenebene beschränkt. Weitere Informationen finden Sie unter Hudi und Lake Formation.

  • Wenn Sie Amazon EMR 6.9.0 verwenden, um einen Hadoop-Cluster mit aktivierten Node Labels zu erstellen, geben die YARNMetriken aggregierte Informationen für alle Partitionen statt der Standardpartition API zurück. Weitere Informationen finden Sie unter -11414. YARN

  • Mit der EMR Amazon-Version 6.9.0 haben wir Trino auf Version 398 aktualisiert, die Java 17 verwendet. Die vorherige unterstützte Version von Trino für Amazon EMR 6.8.0 war Trino 388, das auf Java 11 lief. Weitere Informationen zu dieser Änderung finden Sie unter Trino-Updates für Java 17 im Trino-Blog.

  • Diese Version behebt ein Problem mit der Nichtübereinstimmung der Timing-Sequenz zwischen Apache BigTop und EMR Amazon bei der EC2 Cluster-Startsequenz. Diese Nichtübereinstimmung der Timing-Sequenz tritt auf, wenn ein System versucht, zwei oder mehr Operationen gleichzeitig auszuführen, anstatt sie in der richtigen Reihenfolge auszuführen. Infolgedessen kam es bei bestimmten Clusterkonfigurationen zu Timeouts beim Instance-Start und zu langsameren Cluster-Startup-Zeiten.

  • Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als Standard-Amazon EMRAMI. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.

    Anmerkung

    Diese Version erhält keine automatischen AMI Updates mehr, da ihr eine weitere Patch-Version folgte. Die Patch-Version wird durch die Zahl nach dem zweiten Dezimalpunkt (6.8.1) gekennzeichnet. Um zu sehen, ob Sie die neueste Patch-Version verwenden, überprüfen Sie die verfügbaren Versionen im Versionshandbuch oder überprüfen Sie das EMRAmazon-Release-Drop-down-Menü, wenn Sie einen Cluster in der Konsole erstellen, oder verwenden Sie die list-release-labelsCLIAktion ListReleaseLabelsAPIoder. Um über neue Versionen informiert zu werden, abonnieren Sie den RSS Feed unter Was ist neu? Seite.

    OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen
    2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary)
    2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), Israel (Tel Aviv)
    2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230719.0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
    2.0.20230628.0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230504.1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230418,0 4,14.311 3. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230404.1 4,14.311 18. April 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230404.0 4,14.311 10. April 2023 USA Ost (Nord-Virginia), Europa (Paris)
    2.0.20230320.0 4,14.309 30. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230307,0 4,14.305 15. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230207,0 4,14.304 22. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20221210.1 4.14.301 12. Januar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20221103.3 4,14.296 5. Dezember 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)

Version 6.8.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.8.0. Änderungen beziehen sich auf Version 6.7.0.

Neue Features
  • Die Amazon EMR Steps-Funktion unterstützt jetzt Apache Livy-Endpunkte und JDBC ODBC /-Clients. Weitere Informationen finden Sie unter EMR Schritte zur Konfiguration von Runtime-Rollen für Amazon.

  • EMRAmazon-Version 6.8.0 wird mit Apache HBase Version 2.4.12 geliefert. Mit dieser HBase Version können Sie Ihre Tabellen sowohl archivieren als auch löschen. HBase Der Amazon-S3-Archivierungsprozess benennt alle Tabellendateien in das Archivverzeichnis um. Dies kann ein kostspieliger und langwieriger Prozess sein. Jetzt können Sie den Archivierungsvorgang überspringen und große Tabellen schnell löschen und löschen. Weitere Informationen finden Sie unter Verwenden der HBase Shell.

Bekannte Probleme
  • Hadoop 3.3.3 führte eine Änderung in YARN (YARN-9608) ein, die dafür sorgt, dass Knoten, auf denen Container liefen, außer Betrieb genommen werden, bis die Anwendung abgeschlossen ist. Diese Änderung stellt sicher, dass lokale Daten wie Shuffle-Daten nicht verloren gehen und Sie den Auftrag nicht erneut ausführen müssen. In Amazon EMR 6.8.0 und 6.9.0 kann dieser Ansatz auch zu einer Unterauslastung von Ressourcen auf Clustern mit oder ohne aktivierte verwaltete Skalierung führen.

    Mit Amazon EMR 6.10.0 gibt es eine Lösung für dieses Problem, indem Sie den Wert yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications auf false in setzen. yarn-site.xml In den EMR Amazon-Versionen 6.11.0 und höher sowie 6.8.1, 6.9.1 und 6.10.1 ist die Konfiguration false standardmäßig auf eingestellt, um dieses Problem zu beheben.

Änderungen, Verbesserungen und behobene Probleme
  • Als Amazon EMR Version 6.5.0, 6.6.0 oder 6.7.0 Apache Phoenix-Tabellen über die Apache Spark-Shell las, produzierte Amazon EMR eine. NoSuchMethodError EMRAmazon-Version 6.8.0 behebt dieses Problem.

  • Die EMR Amazon-Version 6.8.0 enthält Apache Hudi 0.11.1. Amazon EMR 6.8.0-Cluster sind jedoch auch mit der Open-Source-Version von Hudi 0.12.0 kompatibel. hudi-spark3.3-bundle_2.12

  • EMRAmazon-Version 6.8.0 wird mit Apache Spark 3.3.0 geliefert. Diese Spark-Version verwendet Apache Log4j 2 und die log4j2.properties-Datei zur Konfiguration von Log4j in Spark-Prozessen. Wenn Sie Spark im Cluster verwenden oder EMR Cluster mit benutzerdefinierten Konfigurationsparametern erstellen und ein Upgrade auf EMR Amazon-Version 6.8.0 durchführen möchten, müssen Sie auf die neue spark-log4j2 Konfigurationsklassifizierung und das neue Schlüsselformat für Apache Log4j 2 migrieren. Weitere Informationen finden Sie unter Migration von Apache Log4j 1.x zu Log4j 2.x.

  • Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als Standard-Amazon EMRAMI. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.

    Anmerkung

    Diese Version erhält keine automatischen AMI Updates mehr, da ihr eine weitere Patch-Version folgte. Die Patch-Version wird durch die Zahl nach dem zweiten Dezimalpunkt (6.8.1) gekennzeichnet. Um zu sehen, ob Sie die neueste Patch-Version verwenden, überprüfen Sie die verfügbaren Versionen im Versionshandbuch oder überprüfen Sie das EMRAmazon-Release-Drop-down-Menü, wenn Sie einen Cluster in der Konsole erstellen, oder verwenden Sie die list-release-labelsCLIAktion ListReleaseLabelsAPIoder. Um über neue Versionen informiert zu werden, abonnieren Sie den RSS Feed unter Was ist neu? Seite.

    OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen
    2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv)
    2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral)
    2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral),
    2.0.20230719,0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral)
    2.0.20230628.0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230504.1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230418,0 4,14.311 3. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230404.1 4,14.311 18. April 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230404.0 4,14.311 10. April 2023 USA Ost (Nord-Virginia), Europa (Paris)
    2.0.20230320.0 4,14.309 30. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230307,0 4,14.305 15. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230207,0 4,14.304 22. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230119.1 4,14.301 3. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20221210.1 4.14.301 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20221103.3 4,14.296 5. Dezember 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20221004,0 4,14.294 02. November 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20220912.1 4,14.291 6. September 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
Bekannte Probleme
  • Wenn Sie den DynamoDB-Connector mit den EMR Versionen 6.6.0, 6.7.0 und 6.8.0 von Spark auf Amazon verwenden, geben alle Lesevorgänge aus Ihrer Tabelle ein leeres Ergebnis zurück, obwohl der Eingabe-Split auf nicht leere Daten verweist. Das liegt daran, dass Spark 3.2.0 standardmäßig spark.hadoopRDD.ignoreEmptySplits auf true einstellt. Um das Problem zu umgehen, setzen Sie explizit spark.hadoopRDD.ignoreEmptySplits auf false. EMRAmazon-Version 6.9.0 behebt dieses Problem.

  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

  • In den EMR Amazon-Versionen 5.36.0 und 6.6.0 bis 6.9.0 kann es bei RecordServer Servicekomponenten aufgrund einer falschen Konfiguration des Dateinamenmusters in den Log4j2-Eigenschaften zu einem Verlust von Protokolldaten kommen. SecretAgent Die falsche Konfiguration führt dazu, dass die Komponenten nur eine Protokolldatei pro Tag generieren. Wenn die Rotationsstrategie angewendet wird, überschreibt sie die vorhandene Datei, anstatt wie erwartet eine neue Protokolldatei zu generieren. Um das Problem zu umgehen, verwenden Sie eine Bootstrap-Aktion, um jede Stunde Protokolldateien zu generieren, und fügen Sie eine automatisch inkrementierte Ganzzahl an den Dateinamen an, um die Rotation zu handhaben.

    Verwenden Sie für Amazon-Versionen EMR 6.6.0 bis 6.9.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Verwenden Sie für Amazon EMR 5.36.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

Informationen zum Zeitplan der Veröffentlichung finden Sie im Änderungsprotokoll.

Version 6.7.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.7.0. Änderungen beziehen sich auf Version 6.6.0.

Erste Version: 15. Juli 2022

Neue Features
  • Amazon unterstützt EMR jetzt Apache Spark 3.2.1, Apache Hive 3.1.3, HUDI 0.11, PrestoDB 0.272 und Trino 0.378.

  • Unterstützt IAM Role- und Lake Formation Formation-basierte Zugriffskontrollen mit EMR Schritten (Spark, Hive) für Amazon EMR auf Clustern. EC2

  • Unterstützt Apache-Spark-Datendefinitionsanweisungen auf Apache-Ranger-fähigen Clustern. Dies beinhaltet jetzt die Unterstützung für Trino-Anwendungen, die Apache-Hive-Metadaten auf Apache-Ranger-fähigen Clustern lesen und schreiben. Weitere Informationen finden Sie unter Aktivieren von Federated Governance mit Trino und Apache Ranger auf Amazon. EMR

  • Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als Standard-Amazon EMRAMI. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.

    OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen
    2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich)
    2.0.20240223.0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20240131,0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia)
    2.0.20240124,0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia)
    2.0.20240109,0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia)
    2.0.20231218,0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia)
    2.0.20231206,0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231116,0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231101,0 4,14.327 16. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231020,1 4,14.326 7. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231012,1 4,14.326 26. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20230926,0 4,14.322 19. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20230906,0 4,14.322 04. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral)
    2.0.20230822.0 4,14.322 30. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral)
    2.0.20230808,0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral)
    2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral)
    2.0.20230719,0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada (Zentral)
    2.0.20230628,0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230504.1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230418,0 4,14.311 3. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230404.1 4,14.311 18. April 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230404.0 4,14.311 10. April 2023 USA Ost (Nord-Virginia), Europa (Paris)
    2.0.20230320.0 4,14.309 30. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230307,0 4,14.305 15. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230207,0 4,14.304 22. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230119.1 4,14.301 3. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20221210.1 4.14.301 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20221103.3 4,14.296 5. Dezember 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20221004,0 4,14.294 02. November 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20220912.1 4,14.291 7. Oktober 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20220719.0 4,14.287 10. August 2022 us‑west‑1, eu‑west‑3, eu‑north‑1, ap‑south‑1, me‑south‑1
    2.0.20220606.1 4,14.281 15. Juli 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
Bekannte Probleme
  • Wenn EMR Amazon-Version 6.5.0, 6.6.0 oder 6.7.0 Apache Phoenix-Tabellen über die Apache Spark-Shell liest, NoSuchMethodError tritt ein, weil Amazon ein falsches EMR verwendet. Hbase.compat.version EMRAmazon-Version 6.8.0 behebt dieses Problem.

  • Wenn Sie den DynamoDB-Connector mit den EMR Versionen 6.6.0, 6.7.0 und 6.8.0 von Spark auf Amazon verwenden, geben alle Lesevorgänge aus Ihrer Tabelle ein leeres Ergebnis zurück, obwohl der Eingabe-Split auf nicht leere Daten verweist. Das liegt daran, dass Spark 3.2.0 standardmäßig spark.hadoopRDD.ignoreEmptySplits auf true einstellt. Um das Problem zu umgehen, setzen Sie explizit spark.hadoopRDD.ignoreEmptySplits auf false. EMRAmazon-Version 6.9.0 behebt dieses Problem.

  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

  • In den EMR Amazon-Versionen 5.36.0 und 6.6.0 bis 6.9.0 kann es bei RecordServer Servicekomponenten aufgrund einer falschen Konfiguration des Dateinamenmusters in den Log4j2-Eigenschaften zu einem Verlust von Protokolldaten kommen. SecretAgent Die falsche Konfiguration führt dazu, dass die Komponenten nur eine Protokolldatei pro Tag generieren. Wenn die Rotationsstrategie angewendet wird, überschreibt sie die vorhandene Datei, anstatt wie erwartet eine neue Protokolldatei zu generieren. Um das Problem zu umgehen, verwenden Sie eine Bootstrap-Aktion, um jede Stunde Protokolldateien zu generieren, und fügen Sie eine automatisch inkrementierte Ganzzahl an den Dateinamen an, um die Rotation zu handhaben.

    Verwenden Sie für Amazon-Versionen EMR 6.6.0 bis 6.9.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Verwenden Sie für Amazon EMR 5.36.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
  • Das wird bei Clustern, die auf Amazon EMR 6.7 oder niedriger ausgeführt werden, GetClusterSessionCredentials API nicht unterstützt.

Version 6.6.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.6.0. Änderungen beziehen sich auf Version 6.5.0.

Erste Version: 09. Mai 2022

Letzte Aktualisierung der Dokumentation: 15. Juni 2022

Neue Features
  • Amazon EMR 6.6 unterstützt jetzt Apache Spark 3.2, Apache Spark RAPIDS 22.02, CUDA 11, Apache Hudi 0.10.1, Apache Iceberg 0.13, Trino 0.367 und PrestoDB 0.267.

  • Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als Standard-Amazon EMRAMI. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.

    OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen
    2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia)
    2.0.20240223,0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20240131,0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia)
    2.0.20240124,0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia)
    2.0.20240109,0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia)
    2.0.20231218,0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia)
    2.0.20231206,0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231116,0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231101,0 4,14.327 16. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231020,1 4,14.326 7. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20231012,1 4,14.326 26. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20230926,0 4,14.322 19. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia)
    2.0.20230906,0 4,14.322 04. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral)
    2.0.20230822.0 4,14.322 30. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral)
    2.0.20230808,0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral)
    2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral)
    2.0.20230719,0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada (Zentral)
    2.0.20230628,0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230504.1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230418,0 4,14.311 3. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230404.1 4,14.311 18. April 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230404.0 4,14.311 10. April 2023 USA Ost (Nord-Virginia), Europa (Paris)
    2.0.20230320.0 4,14.309 30. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230307,0 4,14.305 15. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230207,0 4,14.304 22. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20230119.1 4,14.301 3. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20221210.1 4.14.301 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20221103.3 4,14.296 5. Dezember 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20221004,0 4,14.294 02. November 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20220912.1 4,14.291 7. Oktober 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20220805.0 4,14.287 30. August 2022 us‑west‑1
    2.0.20220719.0 4,14.287 10. August 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20220426,0 4,14.281 10. Juni 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
    2.0.20220406.1 4,14.275 2. Mai 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
  • Mit Amazon EMR 6.6 und höher werden Anwendungen, die Log4j 1.x und Log4j 2.x verwenden, auf Log4j 1.2.17 (oder höher) bzw. Log4j 2.17.1 (oder höher) aktualisiert, sodass die zur Behebung der Probleme bereitgestellten Bootstrap-Aktionen nicht erforderlich sind. CVE

  • [Verwaltete Skalierung] Verwaltete Skalierungsoptimierung mit Spark-Shuffle-Daten — Für EMR Amazon-Versionen 5.34.0 und höher sowie EMR Versionen 6.4.0 und höher ist Managed Scaling jetzt Spark Shuffle-Datenerkennung (Daten, die Spark partitionsübergreifend verteilt, um bestimmte Operationen auszuführen). Weitere Informationen zu Shuffle-Vorgängen finden Sie unter Using EMR Managed Scaling in Amazon EMR im Amazon EMR Management Guide und im Spark Programming Guide.

  • Ab Amazon EMR 5.32.0 und 6.5.0 ist die dynamische Executor-Sizierung für Apache Spark standardmäßig aktiviert. Sie können dieses Feature ein- oder ausschalten, indem Sie den Konfigurationsparameter spark.yarn.heterogeneousExecutors.enabled verwenden.

Änderungen, Verbesserungen und behobene Probleme
  • Amazon EMR reduziert die Cluster-Startzeit für Cluster, die die EMR AMI Standardoption verwenden und nur gängige Anwendungen wie Apache Hadoop, Apache Spark und Apache Hive installieren, um durchschnittlich bis zu 80 Sekunden.

Bekannte Probleme
  • Wenn EMR Amazon-Version 6.5.0, 6.6.0 oder 6.7.0 Apache Phoenix-Tabellen über die Apache Spark-Shell liest, NoSuchMethodError tritt ein, weil Amazon ein falsches EMR verwendet. Hbase.compat.version EMRAmazon-Version 6.8.0 behebt dieses Problem.

  • Wenn Sie den DynamoDB-Connector mit den EMR Versionen 6.6.0, 6.7.0 und 6.8.0 von Spark auf Amazon verwenden, geben alle Lesevorgänge aus Ihrer Tabelle ein leeres Ergebnis zurück, obwohl der Eingabe-Split auf nicht leere Daten verweist. Das liegt daran, dass Spark 3.2.0 standardmäßig spark.hadoopRDD.ignoreEmptySplits auf true einstellt. Um das Problem zu umgehen, setzen Sie explizit spark.hadoopRDD.ignoreEmptySplits auf false. EMRAmazon-Version 6.9.0 behebt dieses Problem.

  • Auf Trino-Clustern mit langer Laufzeit aktiviert Amazon EMR 6.6.0 die Garbage-Collection-Logging-Parameter in der Trino jvm.config, um bessere Einblicke in die Garbage-Collection-Logs zu erhalten. Durch diese Änderung werden viele Garbage-Collection-Protokolle an die Datei launcher.log (/var/log/trino/launcher.log) angehängt. Wenn Sie Trino-Cluster in Amazon EMR 6.6.0 ausführen, kann es vorkommen, dass Knoten aufgrund der angehängten Protokolle nicht mehr genügend Festplattenspeicher haben, nachdem der Cluster einige Tage lang ausgeführt wurde.

    Um dieses Problem zu umgehen, führen Sie das folgende Skript als Bootstrap-Aktion aus, um die Garbage-Collection-Logging-Parameter in jvm.config zu deaktivieren, während Sie den Cluster für Amazon 6.6.0 erstellen oder klonen. EMR

    #!/bin/bash set -ex PRESTO_PUPPET_DIR='/var/aws/emr/bigtop-deploy/puppet/modules/trino' sudo bash -c "sed -i '/-Xlog/d' ${PRESTO_PUPPET_DIR}/templates/jvm.config"
  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

  • In den EMR Amazon-Versionen 5.36.0 und 6.6.0 bis 6.9.0 kann es bei RecordServer Servicekomponenten aufgrund einer falschen Konfiguration des Dateinamenmusters in den Log4j2-Eigenschaften zu einem Verlust von Protokolldaten kommen. SecretAgent Die falsche Konfiguration führt dazu, dass die Komponenten nur eine Protokolldatei pro Tag generieren. Wenn die Rotationsstrategie angewendet wird, überschreibt sie die vorhandene Datei, anstatt wie erwartet eine neue Protokolldatei zu generieren. Um das Problem zu umgehen, verwenden Sie eine Bootstrap-Aktion, um jede Stunde Protokolldateien zu generieren, und fügen Sie eine automatisch inkrementierte Ganzzahl an den Dateinamen an, um die Rotation zu handhaben.

    Verwenden Sie für Amazon-Versionen EMR 6.6.0 bis 6.9.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Verwenden Sie für Amazon EMR 5.36.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

Version 5.35.0

Dies ist der EMR Versionshinweis zu Amazon-Version 5.35.0.

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.35.0. Änderungen beziehen sich auf Version 5.34.0.

Erste Version: 30. März 2022

Neue Features
  • Amazon-Anwendungen der EMR Version 5.35, die Log4j 1.x und Log4j 2.x verwenden, werden auf Log4j 1.2.17 (oder höher) bzw. Log4j 2.17.1 (oder höher) aktualisiert und erfordern keine Bootstrap-Aktionen zur Behebung der Probleme in früheren Versionen. CVE Siehe Ansatz zur Minderung CVE -2021-44228.

Änderungen, Verbesserungen und behobene Probleme

Änderungen bei Flink
Änderungstyp Beschreibung
Upgrades
  • Aktualisieren Sie die Flink-Version auf 1.14.2.

  • log4j wurde auf 2.17.1 aktualisiert.

Hadoop-Änderungen
Änderungstyp Beschreibung
Open-Source-Backports für Hadoop seit 5.34.0 EMR
  • YARN-10438: Behandle Null in C # () containerId lientRMService getContainerReport

  • YARN-7266: Threads für den Timeline-Server-Event-Handler sind gesperrt

  • YARN-10438: ATS 1.5 kann nicht gestartet werden, wenn RollingLevelDb Dateien beschädigt sind oder fehlen

  • HADOOP-13500: Synchronisieren der Iteration des Objekts mit den Konfigurationseigenschaften

  • YARN-10651: Ist mit in abgestürzt. CapacityScheduler NPE AbstractYarnScheduler updateNodeResource()

  • HDFS-12221: Ersetzen Sie Xerces in XmlEditsVisitor

  • HDFS-16410: Unsicheres Xml-Parsen beim OfflineEditsXmlLoader

Hadoop-Änderungen und Korrekturen
  • Tomcat wird in verwendet und HttpFS wurde auf KMS 8.5.75 aktualisiert

  • In FileSystemOptimizedCommitter V2 wurde die Erfolgsmarkierung in den commitJob Ausgabepfad geschrieben, der bei der Erstellung des Committers definiert wurde. Da Ausgabepfade commitJob und Ausgabepfade auf Aufgabenebene unterschiedlich sein können, wurde der Pfad korrigiert, sodass er den in den Manifestdateien definierten Pfad verwendet. Bei Hive-Jobs führt dies dazu, dass die Erfolgsmarkierung korrekt geschrieben wird, wenn Operationen wie dynamische Partition oder UNION ALL ausgeführt werden.

Änderungen bei Hive
Änderungstyp Beschreibung
Hive wurde auf die Open-Source-Version 2.3.9 aktualisiert, einschließlich dieser Korrekturen JIRA
  • HIVE-17155: findConfFile () in HiveConf .java hat einige Probleme mit dem Conf-Pfad

  • HIVE-24797: Deaktiviert die Validierung von Standardwerten beim Parsen von Avro-Schemas

  • HIVE-21563: Verbessern Sie die Leistung von Table#, indem Sie Once deaktivieren getEmptyTable registerAllFunctions

  • HIVE-18147: Tests können mit java.net fehlschlagen. BindException: Adresse wird bereits verwendet

  • HIVE-24608: Wechselt im Client für Hive 2.3.x zurück zu get_table HMS

  • HIVE-21200: Vektorisierung — Die Datumsspalte wirft java.lang aus. UnsupportedOperationException für Parkett

  • HIVE-19228: Entfernen Sie die Verwendung von commons-httpclient 3.x

Hive Open-Source-Backports seit 5.34.0 EMR
  • HIVE-19990: Eine Abfrage mit einem Intervallliteral in der Join-Bedingung schlägt fehl

  • HIVE-25824: Aktualisieren Sie Branch-2.3 auf log4j 2.17.0

  • TEZ-4062: Die Planung spekulativer Versuche sollte abgebrochen werden, wenn die Aufgabe abgeschlossen ist

  • TEZ-4108: Während eines spekulativen Ausführungsrennens NullPointerException

  • TEZ-3918: Die Einstellung tez.task.log.level funktioniert nicht

Hive-Upgrades und -Korrekturen
  • Aktualisieren Sie die Log4j-Version auf 2.17.1

  • Aktualisieren ORC Sie die Version auf 1.4.3

  • Der Deadlock aufgrund eines fehlerhaften Thread-Ins wurde behoben ShuffleScheduler

Neue Features
  • Feature zum Drucken von Hive-Abfragen in AM-Protokollen hinzugefügt. Diese ist standardmäßig deaktiviert. Flag/Konf:. tez.am.emr.print.hive.query.in.log Status (Standard):FALSE.

Oozie-Änderungen
Änderungstyp Beschreibung
Oozie Open-Source-Backports seit 5.34.0 EMR
  • OOZIE-3652: Der Oozie-Launcher sollte die Verzeichnisliste erneut versuchen, wenn dies der Fall ist NoSuchFileException

Pig-Änderungen
Änderungstyp Beschreibung
Upgrades
  • log4j wurde auf 1.2.17 aktualisiert.

Bekannte Probleme
  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

Version 5.34.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.34.0. Änderungen beziehen sich auf Version 5.33.1.

Erste Version: 20. Januar 2022

Aktualisiertes Veröffentlichungsdatum: 21. März 2022

Neue Features
  • [Verwaltete Skalierung] Verwaltete Skalierungsoptimierung mit Spark-Shuffle-Daten — Für EMR Amazon-Versionen 5.34.0 und höher sowie EMR Versionen 6.4.0 und höher ist Managed Scaling jetzt Spark Shuffle-Datenerkennung (Daten, die Spark partitionsübergreifend verteilt, um bestimmte Operationen auszuführen). Weitere Informationen zu Shuffle-Vorgängen finden Sie unter Using EMR Managed Scaling in Amazon EMR im Amazon EMR Management Guide und im Spark Programming Guide.

  • [Hudi] Verbesserungen zur Vereinfachung der Hudi-Konfiguration. Optimistische Parallelitätssteuerung standardmäßig deaktiviert.

Änderungen, Verbesserungen und behobene Probleme
  • Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.

  • Bisher führte ein manueller Neustart des Resource Managers auf einem Multi-Master-Cluster dazu, dass EMR Amazon-On-Cluster-Daemons wie Zookeeper alle zuvor außer Betrieb genommenen oder verloren gegangenen Knoten in der Zookeeper-Znode-Datei neu luden. Dies führte dazu, dass die Standardgrenzwerte in bestimmten Situationen überschritten wurden. Amazon entfernt EMR jetzt die außer Betrieb genommenen oder verlorenen Knotendatensätze, die älter als eine Stunde sind, aus der Zookeeper-Datei und die internen Grenzwerte wurden erhöht.

  • Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR

  • Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.

  • SPARK-29683. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen.

  • YARN-9011. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren.

  • Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS

  • Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.

  • Zeppelin auf Version 0.10.0 upgegradet.

  • Livy Fix – auf 0.7.1 aktualisiert

  • Leistungsverbesserung bei Spark — Heterogene Executors werden deaktiviert, wenn bestimmte Spark-Konfigurationswerte in 5.34.0 außer Kraft gesetzt werden. EMR

  • Web HDFS - und HttpFS-Server sind standardmäßig deaktiviert. Sie können Web HDFS mithilfe der Hadoop-Konfiguration erneut aktivieren,. dfs.webhdfs.enabled Der HttpFS-Server kann mit sudo systemctl start hadoop-httpfs gestartet werden.

Bekannte Probleme
  • Die Amazon EMR Notebooks-Funktion, die mit dem Livy-Benutzerwechsel verwendet wird, funktioniert nicht, da HttpFS standardmäßig deaktiviert ist. In diesem Fall kann das EMR Notebook keine Verbindung zu dem Cluster herstellen, für den der Livy-Identitätswechsel aktiviert ist. Die Problemumgehung besteht darin, den HttpFS-Server zu starten, bevor Sie das Notebook mit dem EMR Cluster verbinden. sudo systemctl start hadoop-httpfs

  • Hue-Abfragen funktionieren in Amazon EMR 6.4.0 nicht, da der Apache Hadoop HttpFS-Server standardmäßig deaktiviert ist. Um Hue auf Amazon EMR 6.4.0 zu verwenden, starten Sie den HttpFS-Server auf dem EMR primären Amazon-Node entweder manuell mithilfe sudo systemctl start hadoop-httpfs oder verwenden Sie einen Amazon-Schritt. EMR

  • Die Amazon EMR Notebooks-Funktion, die mit dem Livy-Benutzerwechsel verwendet wird, funktioniert nicht, da HttpFS standardmäßig deaktiviert ist. In diesem Fall kann das EMR Notebook keine Verbindung zu dem Cluster herstellen, für den der Livy-Identitätswechsel aktiviert ist. Die Problemumgehung besteht darin, den HttpFS-Server zu starten, bevor Sie das Notebook mit dem EMR Cluster verbinden. sudo systemctl start hadoop-httpfs

  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

Version 6.5.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.5.0. Änderungen beziehen sich auf Version 6.4.0.

Erste Version: 20. Januar 2022

Aktualisiertes Veröffentlichungsdatum: 21. März 2022

Neue Features
  • [Verwaltete Skalierung] Verwaltete Skalierungsoptimierung mit Spark-Shuffle-Daten — Für EMR Amazon-Versionen 5.34.0 und höher sowie EMR Versionen 6.4.0 und höher ist Managed Scaling jetzt Spark Shuffle-Datenerkennung (Daten, die Spark partitionsübergreifend verteilt, um bestimmte Operationen auszuführen). Weitere Informationen zu Shuffle-Vorgängen finden Sie unter Using EMR Managed Scaling in Amazon EMR im Amazon EMR Management Guide und im Spark Programming Guide.

  • Ab Amazon EMR 5.32.0 und 6.5.0 ist die dynamische Executor-Sizierung für Apache Spark standardmäßig aktiviert. Sie können dieses Feature ein- oder ausschalten, indem Sie den Konfigurationsparameter spark.yarn.heterogeneousExecutors.enabled verwenden.

  • Support für das offene Tabellenformat von Apache Iceberg für riesige analytische Datensätze.

  • Support für ranger-trino-plugin 2.0.1-amzn-1

  • Support für toree 0.5.0

Änderungen, Verbesserungen und behobene Probleme
  • Die Release-Version von Amazon EMR 6.5 unterstützt jetzt Apache Iceberg 0.12.0 und bietet Laufzeitverbesserungen mit Amazon EMR Runtime for Apache Spark, Amazon EMR Runtime for Presto und Amazon EMR Runtime for Apache Hive.

  • Apache Iceberg ist ein offenes Tabellenformat für große Datensätze in Amazon S3 und bietet schnelle Abfrageleistung bei großen Tabellen, atomare Commits, gleichzeitige Schreibvorgänge und SQL -kompatible Tabellenentwicklung. Mit EMR 6.5 können Sie Apache Spark 3.1.2 mit dem Iceberg-Tabellenformat verwenden.

  • Apache Hudi 0.9 fügt Spark SQL DDL und Unterstützung hinzu. DML Auf diese Weise können Sie Hudi-Tabellen erstellen und ändern, indem Sie nur Anweisungen verwenden. SQL Apache Hudi 0.9 beinhaltet auch Leistungsverbesserungen auf der Abfrageseite und auf der Writer-Seite.

  • Amazon EMR Runtime for Apache Hive verbessert die Leistung von Apache Hive auf Amazon S3, indem Umbenennungsvorgänge bei Staging-Vorgängen entfernt werden, und verbessert die Leistung von metastore check (MSCK) -Befehlen, die zur Reparatur von Tabellen verwendet werden.

Bekannte Probleme
  • Wenn EMR Amazon-Version 6.5.0, 6.6.0 oder 6.7.0 Apache Phoenix-Tabellen über die Apache Spark-Shell liest, NoSuchMethodError tritt ein, weil Amazon ein falsches EMR verwendet. Hbase.compat.version EMRAmazon-Version 6.8.0 behebt dieses Problem.

  • Hbase-Bundle-Cluster mit hoher Verfügbarkeit (HA) können nicht mit der Standard-Volume-Größe und dem Instance-Typ bereitgestellt werden. Dieses Problem lässt sich umgehen, indem Sie die Größe des Root-Volumes erhöhen.

  • Um Spark-Aktionen mit Apache Oozie zu verwenden, müssen Sie Ihrer Oozie-workflow.xml-Datei die folgende Konfiguration hinzufügen. Andernfalls fehlen mehrere wichtige Bibliotheken wie Hadoop und EMRFS E im Klassenpfad der Spark-Executoren, die Oozie startet.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

Version 6.4.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.4.0. Änderungen beziehen sich auf Version 6.3.0.

Erste Version: 20. September 2021

Aktualisiertes Veröffentlichungsdatum: 21. März 2022

Unterstützte Anwendungen
  • AWS SDK for Java Version 1.12.31

  • CloudWatch Version 2.2.0 senken

  • Version 4.16.0 von EMR DynamoDB Connector

  • EMRFSAusführung 2.47.0

  • Amazon EMR Goodies versie 3.2.0

  • Amazon EMR Kinesis Connector, Version 3.5.0

  • Amazon EMR Record Server, Version 2.1.0

  • Amazon EMR Scripts versie 2.5.0

  • Flink, Version 1.13.1

  • Ganglia Version 3.7.2

  • AWS Glue Hive Metastore Client Version 3.3.0

  • Hadoop Version 3.2.1-amzn-4

  • HBaseAusführung 2.4.4-amzn-0

  • HBase-Operator-Tools 1.1.0

  • HCatalogAusführung 3.1.2-amzn-5

  • Hive Version 3.1.2-amzn-5

  • Hudi Version 0.8.0-amzn-0

  • Hue Version 4.9.0

  • JDKJava-Version Corretto-8.302.08.1 (Build 1.8.0_302-b08)

  • JupyterHub Ausführung 1.4.1

  • Livy Version 0.7.1-incubating

  • MXNetAusführung 1.8.0

  • Oozie-Version 5.2.1

  • Phoenix Version 5.1.2

  • Pig Version 0.17.0

  • Presto Version 0.254.1-amzn-0

  • Trino Version 359

  • Apache Ranger KMS (transparente Multimaster-Verschlüsselung) Version 2.0.0

  • Ranger-Plugins 2.0.1-amzn-0

  • Ranger-S3-Plugin 1.2.0

  • SageMaker Spark-Version 1.4.1 SDK

  • Scala Version 2.12.10 (Offene JDK 64-Bit-Server-VM, Java 1.8.0_282)

  • Spark Version 3.1.2-amzn-0

  • Spark-Rapids 0.4.1

  • Sqoop-Version 1.4.7

  • TensorFlow Ausführung 2.4.1

  • Tez-Version 0.9.2

  • Zeppelin-Version 0.9.0

  • Zookeeper Version 3.5.7

  • Konnektoren und Treiber: DynamoDB Connector 4.16.0

Neue Features
  • [Verwaltete Skalierung] Verwaltete Skalierungsoptimierung mit Spark-Shuffle-Daten — Für EMR Amazon-Versionen 5.34.0 und höher sowie EMR Versionen 6.4.0 und höher ist Managed Scaling jetzt Spark Shuffle-Datenerkennung (Daten, die Spark partitionsübergreifend verteilt, um bestimmte Operationen auszuführen). Weitere Informationen zu Shuffle-Vorgängen finden Sie unter Using EMR Managed Scaling in Amazon EMR im Amazon EMR Management Guide und im Spark Programming Guide.

  • Auf Apache Ranger-fähigen EMR Amazon-Clustern können Sie Apache Spark verwenden, SQL um Daten mit, und in die Apache Hive-Metastore-Tabellen einzufügen oder diese zu aktualisieren. INSERT INTO INSERT OVERWRITE ALTER TABLE Bei der Verwendung ALTER TABLE mit Spark SQL muss ein Partitionsspeicherort das untergeordnete Verzeichnis eines Tabellenspeicherorts sein. Amazon unterstützt derzeit EMR nicht das Einfügen von Daten in eine Partition, bei der sich der Speicherort der Partition vom Speicherort der Tabelle unterscheidet.

  • Presto SQL wurde in Trino umbenannt.

  • Hive: Die Ausführung einfacher SELECT Abfragen mit LIMIT Klausel wird beschleunigt, indem die Abfrageausführung gestoppt wird, sobald die in der LIMIT Klausel angegebene Anzahl von Datensätzen abgerufen wurde. Einfache SELECT Abfragen sind Abfragen ohne ORDER BY/BY-Klausel oder Abfragen, die nicht über eine Reducer-Stufe verfügen. GROUP z. B. SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>.

Hudi-Parallelitätskontrolle
  • Hudi unterstützt jetzt Optimistic Concurrency Control (OCC), das bei Schreiboperationen genutzt werden kann, z. B. UPSERT INSERT um Änderungen von mehreren Autoren an derselben Hudi-Tabelle zu ermöglichen. Dies ist auf DateiebeneOCC, sodass zwei beliebige Commits (oder Writer) in dieselbe Tabelle schreiben können, sofern ihre Änderungen nicht miteinander in Konflikt stehen. Weitere Informationen finden Sie unter Hudi-Parallelitätskontrolle..

  • Amazon EMR Amazon-Clustern ist Zookeeper installiert, der als Sperranbieter für verwendet werden kann. OCC Um die Verwendung dieser Funktion zu vereinfachen, sind in EMR Amazon-Clustern die folgenden Eigenschaften vorkonfiguriert:

    hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<EMR Zookeeper URL> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port> hoodie.write.lock.zookeeper.base_path=/hudi

    Zur Aktivierung OCC müssen Sie die folgenden Eigenschaften entweder mit ihren Hudi-Joboptionen oder auf Cluster-Ebene mithilfe der Amazon-Konfigurationen konfigurieren: EMR API

    hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=<Key to uniquely identify the Hudi table> (Table Name is a good option)
Hudi Monitoring: CloudWatch Amazon-Integration zur Berichterstattung über Hudi-Metriken
  • Amazon EMR unterstützt die Veröffentlichung von Hudi Metrics auf Amazon CloudWatch. Es wird aktiviert, indem die folgenden erforderlichen Konfigurationen festgelegt werden:

    hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
  • Im Folgenden finden Sie optionale Hudi-Konfigurationen, die Sie ändern können:

    Einstellung Beschreibung Wert

    hoodie.metrics.cloudwatch.report.period.seconds

    Häufigkeit (in Sekunden), mit der Kennzahlen an Amazon gemeldet werden CloudWatch

    Der Standardwert ist 60s, was für die von Amazon angebotene Standardauflösung von einer Minute in Ordnung ist. CloudWatch

    hoodie.metrics.cloudwatch.metric.prefix

    Präfix, das jedem Metriknamen hinzugefügt werden soll

    Der Standardwert ist leer (kein Präfix)

    hoodie.metrics.cloudwatch.namespace

    CloudWatch Amazon-Namespace, unter dem Metriken veröffentlicht werden

    Der Standardwert ist Hudi

    hoodie.metrics.cloudwatch. maxDatumsPerAnfrage

    Maximale Anzahl von Daten, die in einer Anfrage an Amazon enthalten sein können CloudWatch

    Der Standardwert ist 20, was dem CloudWatch Amazon-Standard entspricht

Unterstützung und Verbesserungen von Amazon EMR Hudi-Konfigurationen
  • Kunden können jetzt die Funktion „EMRKonfigurationen API und Neukonfiguration“ nutzen, um Hudi-Konfigurationen auf Cluster-Ebene zu konfigurieren. Eine neue dateibasierte Konfigurationsunterstützung wurde über /etc/hudi/conf/hudi-defaults.conf eingeführt, ähnlich wie bei anderen Anwendungen wie Spark, Hive usw. EMRkonfiguriert einige Standardeinstellungen, um die Benutzererfahrung zu verbessern:

    hoodie.datasource.hive_sync.jdbcurl ist für den Cluster-Hive-Server konfiguriert URL und muss nicht mehr angegeben werden. Dies ist besonders nützlich, wenn Sie einen Job im Spark-Cluster-Modus ausführen, wo Sie zuvor die EMR Amazon-Master-IP angeben mussten.

    — HBase spezifische Konfigurationen, die für die Verwendung des HBase Index mit Hudi nützlich sind.

    — Spezifische Konfiguration des Zookeeper-Sperranbieters, wie unter Parallelitätskontrolle beschrieben, was die Verwendung von Optimistic Concurrency Control () erleichtert. OCC

  • Zusätzliche Änderungen wurden eingeführt, um die Anzahl der Konfigurationen zu reduzieren, die Sie bestehen müssen, und um nach Möglichkeit automatische Schlüsse zu ziehen:

    – Das partitionBy -Schlüsselwort kann verwendet werden, um die Partitionsspalte zu spezifizieren.

    – Bei der Aktivierung von Hive Sync ist es nicht mehr erforderlich, den Vorgang HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY zu bestehen. Diese Werte können aus dem Hudi-Tabellennamen und dem Partitionsfeld abgeleitet werden.

    KEYGENERATOR_CLASS_OPT_KEY ist nicht zwingend erforderlich und kann aus einfacheren Fällen von SimpleKeyGenerator und ComplexKeyGenerator abgeleitet werden.

Vorbehalte von Hudi
  • Hudi unterstützt keine vektorisierte Ausführung in Hive für Merge on Read (MoR)- und Bootstrap-Tabellen. So schlägt beispielsweise count(*) mit der Hudi-Echtzeittabelle fehl, wenn hive.vectorized.execution.enabled auf „wahr“ gesetzt ist. Um das Problem zu umgehen, können Sie das vektorisierte Lesen deaktivieren, indem Sie hive.vectorized.execution.enabled auf false setzen.

  • Die Multi-Writer-Unterstützung ist nicht mit dem Hudi-Bootstrap-Feature kompatibel.

  • Flink Streamer und Flink SQL sind experimentelle Funktionen in dieser Version. Diese Features werden nicht zur Verwendung in Produktionsbereitstellungen empfohlen.

Änderungen, Verbesserungen und behobene Probleme

Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.

  • Bisher führte ein manueller Neustart des Resource Managers auf einem Multi-Master-Cluster dazu, dass EMR Amazon-On-Cluster-Daemons wie Zookeeper alle zuvor außer Betrieb genommenen oder verloren gegangenen Knoten in der Zookeeper-Znode-Datei neu luden. Dies führte dazu, dass die Standardgrenzwerte in bestimmten Situationen überschritten wurden. Amazon entfernt EMR jetzt die außer Betrieb genommenen oder verlorenen Knotendatensätze, die älter als eine Stunde sind, aus der Zookeeper-Datei und die internen Grenzwerte wurden erhöht.

  • Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR

  • Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.

  • SPARK-29683. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen.

  • YARN-9011. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren.

  • Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS

  • Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.

  • Konfiguration eines Clusters zur Behebung von Leistungsproblemen mit Apache YARN Timeline Server Version 1 und 1.5

    Apache YARN Timeline Server Version 1 und 1.5 können bei sehr aktiven, großen EMR Clustern zu Leistungsproblemen führen, insbesondere beiyarn.resourcemanager.system-metrics-publisher.enabled=true, was die Standardeinstellung in Amazon istEMR. Ein YARN Open-Source-Timeline Server v2 löst das Leistungsproblem im Zusammenhang mit der Skalierbarkeit von YARN Timeline Server.

    Weitere Lösungen für dieses Problem umfassen:

    • Konfiguration von yarn.resourcemanager. system-metrics-publisher.enabled=false in yarn-site.xml.

    • Aktivieren des Fixes für dieses Problem beim Erstellen eines Clusters, wie unten beschrieben.

    Die folgenden EMR Amazon-Versionen enthalten eine Lösung für dieses Leistungsproblem mit dem YARN Timeline-Server.

    EMR5.30.2, 5.31.1, 5.32.1, 5.33.1, 5.34.x, 6.0.1, 6.1.1, 6.2.1, 6.3.1, 6.4.x

    Um den Fix für eine der oben angegebenen EMR Amazon-Versionen zu aktivieren, legen Sie diese Eigenschaften true in einer JSON Konfigurationsdatei fest, die mit dem aws emr create-clusterBefehlsparameter übergeben wird:--configurations file://./configurations.json. Oder aktivieren Sie den Fix über die Benutzeroberfläche der Rekonfigurationskonsole.

    Beispiel für den Inhalt der Datei configurations.json:

    [ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
  • Web HDFS - und HttpFS-Server sind standardmäßig deaktiviert. Sie können Web HDFS mithilfe der Hadoop-Konfiguration erneut aktivieren,. dfs.webhdfs.enabled Der HttpFS-Server kann mit sudo systemctl start hadoop-httpfs gestartet werden.

  • HTTPSist jetzt standardmäßig für Amazon Linux-Repositorys aktiviert. Wenn Sie eine Amazon S3 VPCE S3-Richtlinie verwenden, um den Zugriff auf bestimmte Buckets zu beschränken, müssen Sie den neuen Amazon Linux-Bucket ARN arn:aws:s3:::amazonlinux-2-repos-$region/* zu Ihrer Richtlinie hinzufügen ($regionersetzen Sie ihn durch die Region, in der sich der Endpunkt befindet). Weitere Informationen finden Sie unter diesem Thema in den AWS Diskussionsforen. Ankündigung: Amazon Linux 2 unterstützt jetzt die Verwendung HTTPS beim Herstellen einer Verbindung zu Paket-Repositorys.

  • Hive: Die Leistung bei Schreibabfragen wurde verbessert, indem die Verwendung eines Scratch-Verzeichnisses HDFS für den letzten Job aktiviert wurde. Die temporären Daten für den endgültigen Job werden HDFS nicht in Amazon S3 geschrieben, und die Leistung wird verbessert, da die Daten vom HDFS Speicherort der endgültigen Tabelle (Amazon S3) und nicht zwischen Amazon S3 S3-Geräten verschoben werden.

  • Hive: Verbesserung der Kompilierungszeit von Abfragen um das 2,5-fache mit Glue Metastore Partition Pruning.

  • Wenn Built-In von Hive an den Hive Metastore Server übergeben UDFs werden, wird standardmäßig nur ein Teil der UDFs Built-In an den Glue Metastore übergeben, da Glue nur begrenzte Ausdrucksoperatoren unterstützt. Wenn Sie hive.glue.partition.pruning.client=true festlegen, erfolgt das gesamte Partitionsbereinigen auf der Clientseite. Wenn Sie hive.glue.partition.pruning.server=true festlegen, erfolgt das gesamte Bereinigen von Partitionen auf der Serverseite.

Bekannte Probleme
  • Hue-Abfragen funktionieren in Amazon EMR 6.4.0 nicht, da der Apache Hadoop HttpFS-Server standardmäßig deaktiviert ist. Um Hue auf Amazon EMR 6.4.0 zu verwenden, starten Sie den HttpFS-Server auf dem EMR primären Amazon-Node entweder manuell mithilfe sudo systemctl start hadoop-httpfs oder verwenden Sie einen Amazon-Schritt. EMR

  • Die Amazon EMR Notebooks-Funktion, die mit dem Livy-Benutzerwechsel verwendet wird, funktioniert nicht, da HttpFS standardmäßig deaktiviert ist. In diesem Fall kann das EMR Notebook keine Verbindung zu dem Cluster herstellen, für den der Livy-Identitätswechsel aktiviert ist. Die Problemumgehung besteht darin, den HttpFS-Server zu starten, bevor Sie das Notebook mit dem EMR Cluster verbinden. sudo systemctl start hadoop-httpfs

  • In EMR Amazon-Version 6.4.0 unterstützt Phoenix die Komponente Phoenix Connectors nicht.

  • Um Spark-Aktionen mit Apache Oozie zu verwenden, müssen Sie Ihrer Oozie-workflow.xml-Datei die folgende Konfiguration hinzufügen. Andernfalls fehlen mehrere wichtige Bibliotheken wie Hadoop und EMRFS E im Klassenpfad der Spark-Executoren, die Oozie startet.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

Version 5.32.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.32.0. Änderungen beziehen sich auf Version 5.31.0.

Erste Version: 8. Januar 2021

Upgrades
  • Der Amazon-Glue-Konnektor wurde auf Version 1.14.0 aktualisiert

  • Amazon SageMaker Spark wurde SDK auf Version 1.4.1 aktualisiert

  • Auf Version AWS SDK for Java 1.11.890 aktualisiert

  • EMRDynamoDB Connector Version 4.16.0 wurde aktualisiert

  • Auf Version 2.45.0 aktualisiert EMRFS

  • EMRLog Analytics-Metriken wurden auf Version 1.18.0 aktualisiert

  • EMR MetricsAndEventsApiGateway Der Client wurde auf Version 1.5.0 aktualisiert

  • EMRRecord Server wurde auf Version 1.8.0 aktualisiert

  • EMRS3 Dist CP wurde auf Version 2.17.0 aktualisiert

  • EMRSecret Agent wurde auf Version 1.7.0 aktualisiert

  • Flink auf Version 1.11.2 aktualisiert

  • Hadoop wurde auf Version 2.10.1-amzn-0 aktualisiert

  • Upgrade von Hive auf Version 2.3.7-amzn-3

  • Hue auf Version 4.8.0 aktualisiert

  • Mxnet wurde auf Version 1.7.0 aktualisiert

  • OpenCV wurde auf Version 4.4.0 aktualisiert

  • Presto auf Version 0.240.1-amzn-0 aktualisiert

  • Spark auf Version 2.4.7-amzn-0 aktualisiert

  • Auf Version TensorFlow 2.3.1 aktualisiert

Änderungen, Verbesserungen und behobene Probleme
  • Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.

  • Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR

  • Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.

  • SPARK-29683. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen.

  • YARN-9011. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren.

  • Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS

  • Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.

  • Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.

  • Aktualisierte Komponentenversionen.

  • Eine Liste der Komponentenversionen finden Sie unter About Amazon EMR Releases in diesem Handbuch.

Neue Features
  • Ab Amazon EMR 5.32.0 und 6.5.0 ist die dynamische Executor-Sizierung für Apache Spark standardmäßig aktiviert. Sie können dieses Feature ein- oder ausschalten, indem Sie den Konfigurationsparameter spark.yarn.heterogeneousExecutors.enabled verwenden.

  • Unterstützungsstatus von Instance Metadata Service (IMDS) V2: Die Komponenten Amazon EMR 5.23.1, 5.27.1 und 5.32 oder höher werden für alle Aufrufe verwendet. IMDSv2 IMDS Für IMDS Aufrufe in Ihrem Anwendungscode können Sie sowohl als auch IMDSv1 verwenden oder die Option so konfigurierenIMDSv2, dass sie nur für zusätzliche Sicherheit IMDS verwendet wird. IMDSv2 Bei anderen EMR 5.x-Versionen IMDSv1 führt die Deaktivierung zu einem Fehler beim Starten des Clusters.

  • Ab Amazon EMR 5.32.0 können Sie einen Cluster starten, der nativ in Apache Ranger integriert ist. Apache Ranger ist ein Open-Source-Framework zur Aktivierung, Überwachung und Verwaltung einer umfassenden Datensicherheit auf der gesamten Hadoop-Plattform. Weitere Informationen finden Sie unter Apache Ranger. Dank der nativen Integration können Sie Ihren eigenen Apache Ranger verwenden, um eine detaillierte Datenzugriffskontrolle auf Amazon durchzusetzen. EMR Weitere Informationen finden Sie unter Integrieren von Amazon EMR mit Apache Ranger im EMRAmazon-Versionshandbuch.

  • Amazon EMR Release 5.32.0 unterstützt Amazon EMR on. EKS Weitere Informationen zu den ersten Schritten mit EMR on EKS finden Sie unter Was ist Amazon EMR auf EKS.

  • Amazon EMR Release 5.32.0 unterstützt Amazon EMR Studio (Preview). Weitere Informationen zu den ersten Schritten mit EMR Studio finden Sie unter Amazon EMR Studio (Vorversion).

  • Verwaltete Richtlinien mit Geltungsbereich: Um den AWS bewährten Methoden zu entsprechen, EMR hat Amazon EMR verwaltete Standardrichtlinien mit Geltungsbereich v2 eingeführt, die als Ersatz für Richtlinien dienen, die nicht mehr unterstützt werden. Weitere Informationen finden Sie unter EMRVon Amazon verwaltete Richtlinien.

Bekannte Probleme
  • Für private Subnetz-Cluster von Amazon EMR 6.3.0 und 6.2.0 können Sie nicht auf die Ganglia-Webbenutzeroberfläche zugreifen. Sie erhalten die Fehlermeldung „Zugriff verweigert (403)“. Andere Websites wie SparkUIs, Hue, Zeppelin JupyterHub, Livy und Tez funktionieren normal. Der Zugriff auf die Ganglia-Web-Benutzeroberfläche auf öffentlichen Subnetzclustern funktioniert ebenfalls normal. Um dieses Problem zu beheben, starten Sie den httpd-Service auf dem Primärknoten mit sudo systemctl restart httpd neu. Dieses Problem wurde in Amazon EMR 6.4.0 behoben.

  • Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.

    Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.

    Explizit ein ulimit über die Befehlszeile setzen
    1. Bearbeiten Sie /etc/systemd/system/instance-controller.service, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Starten Sie neu InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen

    Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Wichtig

    EMRCluster, auf denen Amazon Linux oder Amazon Linux 2 Amazon Machine Images (AMIs) ausgeführt werden, verwenden das Standardverhalten von Amazon Linux und laden wichtige und kritische Kernel-Updates, die einen Neustart erfordern, nicht automatisch herunter und installieren sie. Dies ist dasselbe Verhalten wie bei anderen EC2 Amazon-Instances, auf denen das standardmäßige Amazon Linux ausgeführt wirdAMI. Wenn neue Amazon Linux-Softwareupdates, die einen Neustart erfordern (wie Kernel und CUDA Updates)NVIDIA, verfügbar werden, nachdem eine EMR Amazon-Version verfügbar wird, laden EMR Cluster-Instances, die standardmäßig ausgeführt werden, diese Updates AMI nicht automatisch herunter und installieren sie. Um Kernel-Updates zu erhalten, können Sie Ihr Amazon so anpassen EMR AMI, dass es das neueste Amazon Linux verwendet AMI.

  • Die Konsolenunterstützung zur Erstellung einer Sicherheitskonfiguration, die die AWS Ranger-Integrationsoption spezifiziert, wird derzeit in der GovCloud Region nicht unterstützt. Die Sicherheitskonfiguration kann mit dem CLI vorgenommen werden. Weitere Informationen finden Sie unter EMR Sicherheitskonfiguration erstellen im Amazon EMR Management Guide.

  • Wenn AtRestEncryption die HDFS Verschlüsselung auf einem Cluster aktiviert ist, der Amazon EMR 5.31.0 oder 5.32.0 verwendet, führen Hive-Abfragen zu der folgenden Laufzeitausnahme.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

Version 6.2.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.2.0. Änderungen beziehen sich auf Version 6.1.0.

Veröffentlichungsdatum: 9. Dezember 2020

Letzte Aktualisierung: 4. Oktober 2021

Unterstützte Anwendungen
  • AWS SDK for Java Version 1.11.828

  • emr-record-server Ausführung 1.7.0

  • Flink-Version 1.11.2

  • Ganglia Version 3.7.2

  • Hadoop-Version 3.2.1-amzn-1

  • HBaseAusführung 2.2.6-amzn-0

  • HBase-Operator-Tools 1.0.0

  • HCatalogAusführung 3.1.2-amzn-0

  • Hive Version 3.1.2-amzn-3

  • Hudi Version 0.6.0-amzn-1

  • Hue Version 4.8.0

  • JupyterHub Ausführung 1.1.0

  • Livy-Version 0.7.0

  • MXNetAusführung 1.7.0

  • Oozie-Version 5.2.0

  • Phoenix Version 5.0.0

  • Pig Version 0.17.0

  • Presto Version 0.238.3-amzn-1

  • Presto, Version 3.4.3 SQL

  • Spark Version 3.0.1-amzn-0

  • Spark-Rapids 0.2.0

  • TensorFlow Ausführung 2.3.1

  • Zeppelin-Version 0.9.0-preview1

  • Zookeeper Version 3.4.14

  • Konnektoren und Treiber: DynamoDB Connector 4.16.0

Neue Features
  • HBase: Die Umbenennung in der Commit-Phase wurde entfernt und persistentes HFile Tracking hinzugefügt. Weitere Informationen finden Sie unter Persistent HFile Tracking im Amazon EMR Release Guide.

  • HBase: Backported Erstellen Sie eine Konfiguration, die das Zwischenspeichern von Blöcken bei der Komprimierung erzwingt.

  • PrestoDB: Verbesserungen beim dynamischen Partitionsbereinigen. Die regelbasierte Join Reorder funktioniert mit nicht partitionierten Daten.

  • Verwaltete Richtlinien mit Geltungsbereich: Um den AWS bewährten Methoden zu entsprechen, EMR hat Amazon EMR verwaltete Standardrichtlinien mit Geltungsbereich v2 eingeführt, die als Ersatz für Richtlinien dienen, die nicht mehr unterstützt werden. Weitere Informationen finden Sie unter EMRVon Amazon verwaltete Richtlinien.

  • Support-Status für Instance Metadata Service (IMDS) V2: Für Amazon EMR 6.2 oder höher werden EMR Amazon-Komponenten IMDSv2 für alle IMDS Aufrufe verwendet. Für IMDS Aufrufe in Ihrem Anwendungscode können Sie IMDSv1 sowohl als auch verwenden oder die Option so konfigurierenIMDSv2, IMDS dass sie nur IMDSv2 für zusätzliche Sicherheit verwendet wird. Wenn Sie die Option IMDSv1 in früheren Amazon EMR 6.x-Versionen deaktivieren, führt dies zu einem Cluster-Startfehler.

Änderungen, Verbesserungen und behobene Probleme
  • Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.

  • Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR

  • Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.

  • SPARK-29683. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen.

  • YARN-9011. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren.

  • Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS

  • Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.

  • Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.

  • Spark: Leistungsverbesserungen in der Spark-Laufzeit.

Bekannte Probleme
  • Amazon EMR 6.2 hat in 6.2.0 falsche Berechtigungen für die Datei libinstance-controller-java /etc/cron.d/ gesetzt. EMR Die Berechtigungen für die Datei sind 645 (-rw-r--r-x), obwohl sie 644 (-rw-r--r--) sein sollten. Aus diesem Grund protokolliert Amazon EMR Version 6.2 keine Instance-State-Logs und das Verzeichnis /emr/instance-logs ist leer. Dieses Problem wurde in Amazon EMR 6.3.0 und höher behoben.

    Zur Umgehung dieses Problems führen Sie das folgende Skript als Bootstrap-Aktion beim Clusterstart aus.

    #!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
  • Für private Subnetz-Cluster von Amazon EMR 6.2.0 und 6.3.0 können Sie nicht auf die Ganglia-Webbenutzeroberfläche zugreifen. Sie erhalten die Fehlermeldung „Zugriff verweigert (403)“. Andere Websites wie SparkUIs, Hue, Zeppelin JupyterHub, Livy und Tez funktionieren normal. Der Zugriff auf die Ganglia-Web-Benutzeroberfläche auf öffentlichen Subnetzclustern funktioniert ebenfalls normal. Um dieses Problem zu beheben, starten Sie den httpd-Service auf dem Primärknoten mit sudo systemctl restart httpd neu. Dieses Problem wurde in Amazon EMR 6.4.0 behoben.

  • In Amazon EMR 6.2.0 gibt es ein Problem, bei dem httpd kontinuierlich ausfällt, wodurch Ganglia nicht verfügbar ist. Sie erhalten die Fehlermeldung „Es kann keine Verbindung zum Server hergestellt werden“. Um einen Cluster zu reparieren, der bereits mit diesem Problem läuft, gehen Sie SSH zum primären Clusterknoten und fügen Sie die Zeile Listen 80 zu der Datei httpd.conf hinzu, die sich unter befindet. /etc/httpd/conf/httpd.conf Dieses Problem wurde in Amazon EMR 6.3.0 behoben.

  • HTTPDschlägt auf EMR 6.2.0-Clustern fehl, wenn Sie eine Sicherheitskonfiguration verwenden. Dadurch ist die Benutzeroberfläche der Ganglia-Webanwendung nicht verfügbar. Um auf die Benutzeroberfläche der Ganglia-Webanwendung zuzugreifen, fügen Sie Listen 80 der /etc/httpd/conf/httpd.conf-Datei auf dem Primärknoten Ihres Clusters etwas hinzu. Informationen zum Herstellen einer Verbindung mit Ihrem Cluster finden Sie unter Herstellen einer Verbindung zum Primärknoten mithilfe von SSH.

    EMRNotebooks können auch keine Verbindung zu EMR 6.2.0-Clustern herstellen, wenn Sie eine Sicherheitskonfiguration verwenden. Das Notebook kann keine Kernel auflisten und Spark-Aufträge nicht weiterleiten. Wir empfehlen, EMR Notebooks EMR stattdessen mit einer anderen Version von Amazon zu verwenden.

  • Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.

    Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.

    Explizit ein ulimit über die Befehlszeile setzen
    1. Bearbeiten Sie /etc/systemd/system/instance-controller.service, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Starten Sie neu InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen

    Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Wichtig

    Amazon EMR 6.1.0 und 6.2.0 beinhalten ein Leistungsproblem, das sich entscheidend auf alle Hudi-Einfüge-, Upsert- und Löschvorgänge auswirken kann. Wenn Sie Hudi mit Amazon EMR 6.1.0 oder 6.2.0 verwenden möchten, sollten Sie sich an den AWS Support wenden, um ein gepatchtes Hudi zu erhalten. RPM

  • Wichtig

    EMRCluster, auf denen Amazon Linux oder Amazon Linux 2 Amazon Machine Images (AMIs) ausgeführt werden, verwenden das Standardverhalten von Amazon Linux und laden wichtige und kritische Kernel-Updates, die einen Neustart erfordern, nicht automatisch herunter und installieren sie. Dies ist dasselbe Verhalten wie bei anderen EC2 Amazon-Instances, auf denen das standardmäßige Amazon Linux ausgeführt wirdAMI. Wenn neue Amazon Linux-Softwareupdates, die einen Neustart erfordern (wie Kernel und CUDA Updates)NVIDIA, verfügbar werden, nachdem eine EMR Amazon-Version verfügbar wird, laden EMR Cluster-Instances, die standardmäßig ausgeführt werden, diese Updates AMI nicht automatisch herunter und installieren sie. Um Kernel-Updates zu erhalten, können Sie Ihr Amazon so anpassen EMR AMI, dass es das neueste Amazon Linux verwendet AMI.

  • Amazon EMR 6.2.0 Maven-Artefakte werden nicht veröffentlicht. Sie werden mit einer future Version von Amazon veröffentlichtEMR.

  • Die persistente HFile Nachverfolgung mithilfe der HBase Storefile-Systemtabelle unterstützt die Funktion zur HBase Regionsreplikation nicht. Weitere Informationen zur HBase Regionsreplikation finden Sie unter Timeline-consistent High Available Reads.

  • Unterschiede zwischen den Bucketing-Versionen von Amazon EMR EMR 6.x und 5.x Hive

    EMR5.x verwendet OOS Apache Hive 2, während in EMR 6.x Apache Hive 3 verwendet wird. OOS Die Open-Source-Version Hive2 verwendet Bucketing Version 1, während die Open-Source-Version Hive3 Bucketing Version 2 verwendet. Dieser Unterschied zwischen Hive 2 (EMR5.x) und Hive 3 (EMR6.x) bedeutet, dass Hive Bucketing-Hashing anders funktioniert. Sehen Sie sich das folgende Beispiel an.

    Die folgende Tabelle ist ein Beispiel, das in 6.x bzw. 5.x erstellt wurde. EMR EMR

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    Dieselben Daten werden sowohl in EMR 6.x als auch in 5.x eingefügt. EMR

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    Die Überprüfung des S3-Speicherorts zeigt, dass der Name der Bucketing-Datei unterschiedlich ist, da sich die Hashing-Funktion zwischen EMR 6.x (Hive 3) und 5.x (Hive 2) unterscheidet. EMR

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    Sie können den Versionsunterschied auch erkennen, indem Sie den folgenden Befehl in Hive in 6.x ausführen. CLI EMR Beachten Sie, dass die Bucketing-Version 2 zurückgegeben wird.

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

Version 5.31.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.31.0. Änderungen beziehen sich auf Version 5.30.1.

Erste Version: 09. Oktober 2020

Letzte Aktualisierung: 15. Oktober 2020

Upgrades
  • Der Amazon-Glue-Konnektor wurde auf Version 1.13.0 aktualisiert

  • Amazon SageMaker Spark wurde SDK auf Version 1.4.0 aktualisiert

  • Der Amazon-Kinesis-Konnektor wurde auf Version 3.5.9 aktualisiert

  • Auf Version AWS SDK for Java 1.11.852 aktualisiert

  • BigTop-Tomcat wurde auf Version 8.5.56 aktualisiert

  • EMRFS wurde auf Version 2.43.0 aktualisiert

  • EMR MetricsAndEventsApiGateway Der Client wurde auf Version 1.4.0 aktualisiert

  • EMRS3 Dist CP wurde auf Version 2.15.0 aktualisiert

  • EMRS3 Select wurde auf Version 1.6.0 aktualisiert

  • Flink wurde auf Version 1.11.0 aktualisiert

  • Hadoop wurde auf Version 2.10.0 aktualisiert

  • Hive wurde auf Version 2.3.7 aktualisiert

  • Hudi wurde auf Version 0.6.0 aktualisiert

  • Hue wurde auf Version 4.7.1 aktualisiert

  • Auf Version JupyterHub 1.1.0 aktualisiert

  • Mxnet wurde auf Version 1.6.0 aktualisiert

  • OpenCV wurde auf Version 4.3.0 aktualisiert

  • Presto wurde auf Version 0.238.3 aktualisiert

  • Auf Version TensorFlow 2.1.0 aktualisiert

Änderungen, Verbesserungen und behobene Probleme
  • Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.

  • Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR

  • Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.

  • SPARK-29683. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen.

  • YARN-9011. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren.

  • Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS

  • Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.

  • Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.

  • Hive-Spaltenstatistiken werden für EMR Amazon-Versionen 5.31.0 und höher unterstützt.

  • Aktualisierte Komponentenversionen.

  • EMRFSS3EC V2-Unterstützung in Amazon EMR 5.31.0. In den SDK S3-Java-Versionen 1.11.837 und höher wurde der Verschlüsselungsclient Version 2 (S3EC V2) mit verschiedenen Sicherheitsverbesserungen eingeführt. Weitere Informationen finden Sie hier:

    Der Encryption Client V1 ist aus SDK Gründen der Abwärtskompatibilität weiterhin in der verfügbar.

Neue Features
  • Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.

    Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.

    Explizit ein ulimit über die Befehlszeile setzen
    1. Bearbeiten Sie /etc/systemd/system/instance-controller.service, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Starten Sie neu InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen

    Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Mit Amazon EMR 5.31.0 können Sie einen Cluster starten, der in Lake Formation integriert ist. Diese Integration ermöglicht eine detaillierte Datenfilterung auf Spaltenebene für Datenbanken und Tabellen im Glue-Datenkatalog. AWS Sie ermöglicht auch föderiertes Single Sign-On für EMR Notebooks oder Apache Zeppelin von einem Unternehmensidentitätssystem aus. Weitere Informationen finden Sie unter Integration von Amazon EMR mit AWS Lake Formation im Amazon EMR Management Guide.

    Amazon EMR with Lake Formation ist derzeit in 16 AWS Regionen verfügbar: USA Ost (Ohio und Nord-Virginia), USA West (Nordkalifornien und Oregon), Asien-Pazifik (Mumbai, Seoul, Singapur, Sydney und Tokio), Kanada (Zentral), Europa (Frankfurt, Irland, London, Paris und Stockholm), Südamerika (São Paulo).

Bekannte Probleme
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

  • Wenn AtRestEncryption die HDFS Verschlüsselung auf einem Cluster aktiviert ist, der Amazon EMR 5.31.0 oder 5.32.0 verwendet, führen Hive-Abfragen zu der folgenden Laufzeitausnahme.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

Version 6.1.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.1.0. Änderungen beziehen sich auf Version 6.0.0.

Erste Version: 4. September 2020

Letzte Aktualisierung: 15. Oktober 2020

Unterstützte Anwendungen
  • AWS SDK for Java Version 1.11.828

  • Flink-Version 1.11.0

  • Ganglia Version 3.7.2

  • Hadoop-Version 3.2.1-amzn-1

  • HBaseAusführung 2.2.5

  • HBase-Operator-Tools 1.0.0

  • HCatalogAusführung 3.1.2-amzn-0

  • Hive-Version 3.1.2-amzn-1

  • Hudi-Version 0.5.2-incubating

  • Hue-Version 4.7.1

  • JupyterHub Ausführung 1.1.0

  • Livy-Version 0.7.0

  • MXNetAusführung 1.6.0

  • Oozie-Version 5.2.0

  • Phoenix Version 5.0.0

  • Presto-Version 0.232

  • Presto, Version 3.38 SQL

  • Spark-Version 3.0.0-amzn-0

  • TensorFlow Ausführung 2.1.0

  • Zeppelin-Version 0.9.0-preview1

  • Zookeeper Version 3.4.14

  • Anschlüsse und Treiber: DynamoDB Connector 4.14.0

Neue Features
  • ARMInstance-Typen werden ab EMR Amazon-Version 5.30.0 und EMR Amazon-Version 6.1.0 unterstützt.

  • Allzweck-Instance-Typen von M6g werden ab den EMR Amazon-Versionen 6.1.0 und 5.30.0 unterstützt. Weitere Informationen finden Sie unter Unterstützte Instance-Typen im Amazon EMR Management Guide.

  • Die EC2 Platzierungsgruppenfunktion wird ab EMR Amazon-Version 5.23.0 als Option für Cluster mit mehreren primären Knoten unterstützt. Derzeit werden nur Primärknoten-Typen von des Platzierungsgruppenfeatures unterstützt, und die SPREAD-Strategie wird auf diese Primärknoten angewendet. Bei dieser SPREAD-Strategie wird eine kleine Gruppe von Instances auf separater zugrundeliegender Hardware platziert, um den Verlust mehrerer Primärknoten im Falle eines Hardwarefehlers zu verhindern. Weitere Informationen finden Sie unter EMRIntegration mit EC2 Placement Group im Amazon EMR Management Guide.

  • Verwaltete Skalierung — Mit EMR Amazon-Version 6.1.0 können Sie Amazon EMR Managed Scaling aktivieren, um die Anzahl der Instances oder Einheiten in Ihrem Cluster je nach Arbeitslast automatisch zu erhöhen oder zu verringern. Amazon wertet EMR kontinuierlich Cluster-Metriken aus, um Skalierungsentscheidungen zu treffen, die Ihre Cluster im Hinblick auf Kosten und Geschwindigkeit optimieren. Managed Scaling ist auch auf EMR Amazon-Version 5.30.0 und höher verfügbar, außer 6.0.0. Weitere Informationen finden Sie unter Scaling Cluster Resources im Amazon EMR Management Guide.

  • Presto SQL Version 338 wird mit EMR 6.1.0 unterstützt. Weitere Informationen finden Sie unter Presto.

    • Presto SQL wird nur in EMR 6.1.0 und späteren Versionen unterstützt, nicht in 6.0.0 oder 5.x. EMR EMR

    • Der Anwendungsname Presto wird weiterhin verwendet, um PrestoDB auf Clustern zu installieren. Verwenden Sie den Anwendungsnamen, um Presto SQL auf Clustern zu installieren. PrestoSQL

    • Sie können entweder PrestoDB oder Presto installierenSQL, aber Sie können nicht beide auf einem einzigen Cluster installieren. Wenn beim Versuch, einen Cluster zu erstellen, sowohl PrestoDB als auch Presto angegeben SQL werden, tritt ein Validierungsfehler auf und die Anfrage zur Clustererstellung schlägt fehl.

    • Presto SQL wird sowohl auf Single-Master- als auch auf Multi-Master-Clustern unterstützt. Auf Multi-Master-Clustern ist ein externer Hive-Metastore erforderlich, um Presto oder SQL PrestoDB auszuführen. Weitere Informationen finden Sie unter Unterstützte Anwendungen in einem EMR Cluster mit mehreren Primärknoten.

  • ECRUnterstützung der auto Authentifizierung auf Apache Hadoop und Apache Spark mit Docker: Spark-Benutzer können Docker-Images von Docker Hub und Amazon Elastic Container Registry (AmazonECR) verwenden, um Umgebungs- und Bibliotheksabhängigkeiten zu definieren.

    Konfigurieren Sie Docker und führen Sie Spark-Anwendungen mit Docker mithilfe von Amazon EMR 6.x aus.

  • EMRunterstützt Apache ACID Hive-Transaktionen: Amazon EMR 6.1.0 bietet Unterstützung für ACID Hive-Transaktionen, sodass es den ACID Eigenschaften einer Datenbank entspricht. Mit diesem Feature können Sie INSERT, UPDATE, DELETE,- und MERGE-Operationen in Hive-Tabellen mit Daten in Amazon Simple Storage Service (Amazon S3) ausführen. Dies ist eine wichtige Funktion für Anwendungsfälle wie Streaming-Erfassung, Neuformulierung von Daten, Verwendung MERGE von Massenaktualisierungen und langsam ändernde Dimensionen. Weitere Informationen, einschließlich Konfigurationsbeispielen und Anwendungsfällen, finden Sie unter Amazon EMR unterstützt Apache ACID Hive-Transaktionen.

Änderungen, Verbesserungen und behobene Probleme
  • Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.

  • Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR

  • Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.

  • SPARK-29683. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen.

  • YARN-9011. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren.

  • Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS

  • Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.

  • Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.

  • Apache Flink wird auf 6.0.0 nicht unterstützt, aber es wird auf 6.1.0 mit Flink 1.11.0 unterstützt. EMR EMR Dies ist die erste Version von Flink, die Hadoop 3 offiziell unterstützt. Siehe Ankündigung der Veröffentlichung von Apache Flink 1.11.0.

  • Ganglia wurde aus den Standard-6.1.0-Paketpaketen entfernt. EMR

Bekannte Probleme
  • Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.

    Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.

    Explizit ein ulimit über die Befehlszeile setzen
    1. Bearbeiten Sie /etc/systemd/system/instance-controller.service, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Starten Sie neu InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen

    Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Wichtig

    Amazon EMR 6.1.0 und 6.2.0 beinhalten ein Leistungsproblem, das sich entscheidend auf alle Hudi-Einfüge-, Upsert- und Löschvorgänge auswirken kann. Wenn Sie Hudi mit Amazon EMR 6.1.0 oder 6.2.0 verwenden möchten, sollten Sie sich an den AWS Support wenden, um ein gepatchtes Hudi zu erhalten. RPM

  • Wenn Sie eine benutzerdefinierte Garbage-Collection-Konfiguration mit spark.driver.extraJavaOptions und festlegen, führt dies dazuspark.executor.extraJavaOptions, dass der Start von Treiber/Executor mit 6.1 aufgrund einer widersprüchlichen Garbage-Collection-Konfiguration fehlschlägt. EMR In EMR Version 6.1.0 sollten Sie stattdessen eine benutzerdefinierte Spark-Garbage-Collection-Konfiguration für Treiber und Executors mit den Eigenschaften und angeben. spark.driver.defaultJavaOptions spark.executor.defaultJavaOptions Weitere Informationen finden Sie unter Apache Spark Runtime Environment und Konfiguration von Spark Garbage Collection auf Amazon EMR 6.1.0.

  • Die Verwendung von Pig mit Oozie (und innerhalb von Hue, da Hue Oozie-Aktionen zur Ausführung von Pig-Skripten verwendet) generiert den Fehler, dass eine native LZO-Bibliothek nicht geladen werden kann. Diese Fehlermeldung ist informativ und verhindert nicht, dass Pig ausgeführt wird.

  • Hudi-Parallelitätsunterstützung: Derzeit unterstützt Hudi keine gleichzeitigen Schreibvorgänge in eine einzelne Hudi-Tabelle. Darüber hinaus macht Hudi alle Änderungen rückgängig, die von in Bearbeitung befindlichen Autoren vorgenommen wurden, bevor ein neuer Writer beginnen kann. Gleichzeitige Schreibvorgänge können diesen Mechanismus stören und zu Wettlaufbedingungen führen, was zu Datenbeschädigungen führen kann. Sie sollten sicherstellen, dass im Rahmen Ihres Datenverarbeitungs-Workflows immer nur ein einziger Hudi-Writer mit einer Hudi-Tabelle arbeitet. Hudi unterstützt mehrere gleichzeitige Lesegeräte, die mit derselben Hudi-Tabelle arbeiten.

  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

  • In Amazon EMR 6.1.0 gibt es ein Problem, das Cluster betrifft, auf denen Presto ausgeführt wird. Nach einem längeren Zeitraum (Tage) kann der Cluster Fehler wie „su: failed to execute /bin/bash: Resource temporarily unavailable“ oder „Shell-Anfrage auf Kanal 0 fehlgeschlagen“ ausgeben. Dieses Problem wird durch einen internen EMR Amazon-Prozess (InstanceController) verursacht, der zu viele Light-Weight-Prozesse (LWP) erzeugt, was letztendlich dazu führt, dass der Hadoop-Benutzer sein Nproc-Limit überschreitet. Dadurch wird verhindert, dass der Benutzer zusätzliche Prozesse öffnet. Die Lösung für dieses Problem ist ein Upgrade auf 6.2.0. EMR

Version 6.0.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.0.0.

Erste Version: 10. März 2020

Unterstützte Anwendungen
  • AWS SDK for Java Version 1.11.711

  • Ganglia Version 3.7.2

  • Hadoop Version 3.2.1

  • HBaseAusführung 2.2.3

  • HCatalogAusführung 3.1.2

  • Hive Version 3.1.2

  • Hudi Version 0.5.0-incubating

  • Hue Version 4.4.0

  • JupyterHub Ausführung 1.0.0

  • Livy Version 0.6.0

  • MXNetAusführung 1.5.1

  • Oozie Version 5.1.0

  • Phoenix Version 5.0.0

  • Presto Version 0.230

  • Spark Version 2.4.4

  • TensorFlow Ausführung 1.14.0

  • Zeppelin versie 0.9.0- SNAPSHOT

  • Zookeeper Version 3.4.14

  • Anschlüsse und Treiber: DynamoDB Connector 4.14.0

Anmerkung

Flink, Sqoop, Pig und Mahout sind in der EMR Amazon-Version 6.0.0 nicht verfügbar.

Neue Features
  • YARNDocker Runtime Support — YARN Anwendungen wie Spark-Jobs können jetzt im Kontext eines Docker-Containers ausgeführt werden. Auf diese Weise können Sie auf einfache Weise Abhängigkeiten in einem Docker-Image definieren, ohne benutzerdefinierte Bibliotheken auf Ihrem EMR Amazon-Cluster installieren zu müssen. Weitere Informationen finden Sie unter Docker-Integration konfigurieren und Spark-Anwendungen mit Docker mithilfe von Amazon EMR 6.0.0 ausführen.

  • LLAPHive-Unterstützung — Hive unterstützt jetzt den LLAP Ausführungsmodus für eine verbesserte Abfrageleistung. Weitere Informationen finden Sie unter Hive verwenden. LLAP

Änderungen, Verbesserungen und behobene Probleme
  • Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.

  • Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR

  • Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.

  • SPARK-29683. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen.

  • YARN-9011. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren.

  • Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS

  • Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.

  • Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.

  • Amazon Linux

    • Amazon Linux 2 ist das Betriebssystem für die EMR 6.x-Release-Serie.

    • systemdwird anstelle von inAmazon Linux 1 für das Servicemanagement upstart verwendet.

  • Java-Entwicklungskit (JDK)

    • Corretto JDK 8 ist der Standard JDK für die EMR 6.x-Release-Serie.

  • Scala

    • Scala 2.12 wird mit Apache Spark und Apache Livy verwendet.

  • Python 3

    • Python 3 ist jetzt die Standardversion von Python inEMR.

  • YARNKnotenbeschriftungen

    • Ab der Amazon EMR 6.x-Release-Serie ist die Funktion YARN Node Labels standardmäßig deaktiviert. Die Anwendungs-Master-Prozesse können standardmäßig sowohl auf Kern- als auch auf Aufgabenknoten ausgeführt werden. Sie können die Funktion „YARNNode Labels“ aktivieren, indem Sie die folgenden Eigenschaften konfigurieren: yarn.node-labels.enabled undyarn.node-labels.am.default-node-label-expression. Weitere Informationen finden Sie unter Grundlegendes zu Primär-, Kern- und Aufgabenknoten.

Bekannte Probleme
  • Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.

    Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.

    Explizit ein ulimit über die Befehlszeile setzen
    1. Bearbeiten Sie /etc/systemd/system/instance-controller.service, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Starten Sie neu InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen

    Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Die interaktive Spark-Shell PySpark, einschließlich SparkR und Spark-Shell, unterstützt die Verwendung von Docker mit zusätzlichen Bibliotheken nicht.

  • Um Python 3 mit Amazon EMR Version 6.0.0 zu verwenden, müssen Sie Folgendes PATH hinzufügenyarn.nodemanager.env-whitelist.

  • Die Funktionen Live Long und Process (LLAP) werden nicht unterstützt, wenn Sie den AWS Glue-Datenkatalog als Metastore für Hive verwenden.

  • Wenn Sie Amazon EMR 6.0.0 mit Spark- und Docker-Integration verwenden, müssen Sie die Instances in Ihrem Cluster mit demselben Instance-Typ und derselben Anzahl von EBS Volumes konfigurieren, um Fehler beim Senden eines Spark-Jobs mit Docker-Laufzeit zu vermeiden.

  • In Amazon EMR 6.0.0 ist der Speichermodus HBase auf Amazon S3 vom Problem HBASE-24286. betroffen. HBaseMaster kann nicht initialisiert werden, wenn der Cluster mit vorhandenen S3-Daten erstellt wird.

  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.30.1

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.30.1. Änderungen beziehen sich auf Version 5.30.0.

Erstveröffentlichungsdatum: 30. Juni 2020

Letzte Aktualisierung: 24. August 2020

Änderungen, Verbesserungen und behobene Probleme
  • Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.

  • Es wurde ein Problem behoben, bei dem der Instance-Controller-Prozess unendlich viele Prozesse ausgelöst hat.

  • Es wurde ein Problem behoben, bei dem Hue keine Hive-Abfrage ausführen konnte, die Meldung „Datenbank ist gesperrt“ angezeigt wurde und die Ausführung von Abfragen verhindert wurde.

  • Ein Spark-Problem wurde behoben, sodass mehr Aufgaben gleichzeitig auf dem Cluster ausgeführt werden konnten. EMR

  • Es wurde ein Problem mit dem Jupyter Notebook behoben, das den Fehler „Zu viele Dateien öffnen“ auf dem Jupyter-Server verursachte.

  • Ein Problem mit den Startzeiten von Clustern wurde behoben.

Neue Features
  • Die persistenten Anwendungsschnittstellen der Tez-Benutzeroberfläche und des YARN Timeline-Servers sind in den EMR Amazon-Versionen 6.x und 5.30.1 und EMR höher verfügbar. Durch den Linkzugriff mit einem Klick auf den persistenten Anwendungsverlauf können Sie schnell auf den Jobverlauf zugreifen, ohne einen Web-Proxy über eine Verbindung einrichten zu müssen. SSH Protokolle für aktive und beendete Cluster sind 30 Tage nach Ende der Anwendung verfügbar. Weitere Informationen finden Sie unter Benutzerschnittstellen für persistente Anwendungen anzeigen im Amazon EMR Management Guide.

  • EMRNotebook Execution APIs ist verfügbar, um EMR Notebooks über ein Skript oder eine Befehlszeile auszuführen. Durch die Möglichkeit, EMR Notebook-Ausführungen ohne die AWS Konsole zu starten, zu beenden, aufzulisten und zu beschreiben, können Sie ein Notebook programmgesteuert steuern. EMR Mithilfe einer parametrisierten Notebook-Zelle können Sie verschiedene Parameterwerte an ein Notebook übergeben, ohne für jeden neuen Satz von Parameterwerten eine Kopie des Notebooks erstellen zu müssen. Siehe Aktionen. EMR API Beispielcode finden Sie unter Beispielbefehle zur programmgesteuerten Ausführung von EMR Notebooks.

Bekannte Probleme
  • Niedrigerer Grenzwert für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.

    Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.

    Explizit ein ulimit über die Befehlszeile setzen
    1. Bearbeiten Sie /etc/systemd/system/instance-controller.service, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Starten Sie neu InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen

    Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • EMRNotizbücher

    Die Funktion, mit der Sie Kernel und zusätzliche Python-Bibliotheken auf dem primären Clusterknoten installieren können, ist in EMR Version 5.30.1 standardmäßig deaktiviert. Weitere Informationen zu diesem Feature finden Sie unter Installation von Kernels und Python-Bibliotheken auf einem Cluster-Primärknoten.

    Um das Feature zu aktivieren, gehen Sie wie folgt vor:

    1. Stellen Sie sicher, dass die der Servicerolle für EMR Notebooks zugeordnete Berechtigungsrichtlinie die folgende Aktion zulässt:

      elasticmapreduce:ListSteps

      Weitere Informationen finden Sie unter Servicerolle für EMR Notebooks.

    2. Verwenden Sie den AWS CLI , um einen Schritt auf dem Cluster auszuführen, der EMR Notebooks einrichtet, wie im folgenden Beispiel gezeigt. Ersetzen us-east-1 mit der Region, in der sich Ihr Cluster befindet. Weitere Informationen finden Sie unter Hinzufügen von Schritten zu einem Cluster mithilfe AWS CLI.

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • Verwaltete Skalierung

    Verwaltete Skalierungsvorgänge auf Clustern der Versionen 5.30.0 und 5.30.1, ohne dass Presto installiert ist, können zu Anwendungsausfällen führen oder dazu führen, dass eine einheitliche Instance-Gruppe oder Instance-Flotte unverändert im Status ARRESTED bleibt, insbesondere wenn auf einen Herunterskalierungsvorgang schnell ein Skalierungsvorgang folgt.

    Um dieses Problem zu umgehen, wählen Sie Presto als zu installierende Anwendung, wenn Sie einen Cluster mit den EMR Amazon-Versionen 5.30.0 und 5.30.1 erstellen, auch wenn Ihr Job Presto nicht benötigt.

  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

Version 5.30.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.30.0. Änderungen beziehen sich auf Version 5.29.0.

Erste Version: 13. Mai 2020

Letzte Aktualisierung: 25. Juni 2020

Upgrades
  • Auf Version AWS SDK for Java 1.11.759 aktualisiert

  • Amazon SageMaker Spark wurde SDK auf Version 1.3.0 aktualisiert

  • EMRRecord Server wurde auf Version 1.6.0 aktualisiert

  • Flink auf Version 1.10.0 aktualisiert

  • Ganglia auf Version 3.7.2 aktualisiert

  • Auf Version HBase 1.4.13 aktualisiert

  • Hudi auf Version 0.5.2-incubating aktualisiert

  • Hue auf Version 4.6.0 aktualisiert

  • Auf Version JupyterHub 1.1.0 aktualisiert

  • Livy auf Version 0.7.0-incubating aktualisiert

  • Oozie auf Version 5.2.0 aktualisiert

  • Presto auf Version 0.232 aktualisiert

  • Spark auf Version 2.4.5 aktualisiert

  • Aktualisierte Konnektoren und Treiber: Amazon Glue Connector 1.12.0; Amazon Kinesis Connector 3.5.0; DynamoDB Connector 4.14.0 EMR

Neue Features
  • EMRNotebooks — Bei Verwendung mit EMR Clustern, die mit 5.30.0 erstellt wurden, werden Notebook-Kernel auf dem Cluster ausgeführt. EMR Dies verbessert die Notebook-Leistung und ermöglicht es Ihnen, Kernel zu installieren und anzupassen. Sie können Python-Bibliotheken auch auf dem Cluster-Primärknoten installieren. Weitere Informationen finden Sie unter Installation und Verwendung von Kernels and Libraries im Management Guide. EMR

  • Verwaltete Skalierung — Mit EMR Amazon-Version 5.30.0 und höher können Sie EMR Managed Scaling aktivieren, um die Anzahl der Instances oder Einheiten in Ihrem Cluster je nach Arbeitslast automatisch zu erhöhen oder zu verringern. Amazon wertet EMR kontinuierlich Cluster-Metriken aus, um Skalierungsentscheidungen zu treffen, die Ihre Cluster im Hinblick auf Kosten und Geschwindigkeit optimieren. Weitere Informationen finden Sie unter Scaling Cluster Resources im Amazon EMR Management Guide.

  • In Amazon S3 gespeicherte Protokolldateien verschlüsseln — Mit Amazon EMR Version 5.30.0 und höher können Sie in Amazon S3 gespeicherte Protokolldateien mit einem AWS KMS vom Kunden verwalteten Schlüssel verschlüsseln. Weitere Informationen finden Sie unter Verschlüsseln von in Amazon S3 gespeicherten Protokolldateien im Amazon EMR Management Guide.

  • Amazon Linux 2-Unterstützung — In EMR Version 5.30.0 und höher, EMR usesAmazon Linux 2 OS. Das neue benutzerdefinierte AMIs (Amazon Machine Image) muss auf theAmazon Linux 2 basierenAMI. Weitere Informationen finden Sie unter Benutzerdefiniert verwenden AMI.

  • Presto Graceful Auto Scale — Für EMR Cluster, die 5.30.0 verwenden, kann ein Timeout für die automatische Skalierung festgelegt werden, sodass Presto-Aufgaben Zeit haben, ihre Ausführung zu beenden, bevor ihr Knoten außer Betrieb genommen wird. Weitere Informationen finden Sie unter Auto Scaling von Presto mit ordnungsgemäßer Stilllegung verwenden.

  • Erstellung einer Flotteninstanz mit neuer Zuweisungsstrategieoption — Eine neue Zuweisungsstrategieoption ist in Version 5.12.1 und höher verfügbar. EMR Sie bietet eine schnellere Cluster-Bereitstellung, eine genauere Spot-Zuweisung und weniger Unterbrechungen von Spot Instances. Aktualisierungen für nicht standardmäßige EMR Servicerollen sind erforderlich. Sehen Sie unter Konfigurieren von Instance-Flotten.

  • Befehle sudo systemctl stop und sudo systemctl start — In EMR Version 5.30.0 und höher, die das Betriebssystem useAmazon Linux 2 verwendet, und Befehle, um Dienste neu zu starten. EMR sudo systemctl stop sudo systemctl start Weitere Informationen finden Sie unter Wie starte ich einen Service bei Amazon neuEMR? .

Änderungen, Verbesserungen und behobene Probleme
  • EMRVersion 5.30.0 installiert Ganglia nicht standardmäßig. Sie können Ganglia explizit für die Installation auswählen, wenn Sie einen Cluster erstellen.

  • Spark-Leistungsoptimierungen.

  • Presto-Leistungsoptimierungen.

  • Python 3 ist der Standard für EMR Amazon-Version 5.30.0 und höher.

  • Die standardmäßige verwaltete Sicherheitsgruppe für den Zugriff auf Services in privaten Subnetzen wurde mit neuen Regeln aktualisiert. Wenn Sie benutzerdefinierte Sicherheitsgruppe für den Servicezugriff verwenden, müssen Sie dieselben Regeln wie die standardmäßige verwaltete Sicherheitsgruppe einschließen. Weitere Informationen finden Sie unter Amazon EMR -Managed Security Group for Service Access (Private Subnets). Wenn Sie eine benutzerdefinierte Servicerolle für Amazon verwendenEMR, müssen Sie die entsprechenden Berechtigungen erteilen, ec2:describeSecurityGroups damit überprüft werden EMR kann, ob die Sicherheitsgruppen korrekt erstellt wurden. Wenn Sie EMR_DefaultRole verwenden, ist diese Berechtigung bereits in der standardmäßigen verwalteten Richtlinie enthalten.

Bekannte Probleme
  • Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.

    Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.

    Explizit ein ulimit über die Befehlszeile setzen
    1. Bearbeiten Sie /etc/systemd/system/instance-controller.service, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Starten Sie neu InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen

    Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Verwaltete Skalierung

    Verwaltete Skalierungsvorgänge auf Clustern der Versionen 5.30.0 und 5.30.1, ohne dass Presto installiert ist, können zu Anwendungsausfällen führen oder dazu führen, dass eine einheitliche Instance-Gruppe oder Instance-Flotte unverändert im Status ARRESTED bleibt, insbesondere wenn auf einen Herunterskalierungsvorgang schnell ein Skalierungsvorgang folgt.

    Um dieses Problem zu umgehen, wählen Sie Presto als zu installierende Anwendung, wenn Sie einen Cluster mit den EMR Amazon-Versionen 5.30.0 und 5.30.1 erstellen, auch wenn Ihr Job Presto nicht benötigt.

  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

  • Die Standard-Datenbank-Engine für Hue 4.6.0 istSQLite, was zu Problemen führt, wenn Sie versuchen, Hue mit einer externen Datenbank zu verwenden. Um dieses Problem zu beheben, setzen Sie engine in Ihrer hue-ini Konfigurationsklassifizierung auf mysql. Dieses Problem wurde in EMR Amazon-Version 5.30.1 behoben.

  • Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:

    • Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.

    • Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist s3://bucket/table/p=a ein Präfix von s3://bucket/table/p=a b.

    • Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist. / Beispielsweise fällt das Leerzeichen (U+0020), das in s3://bucket/table/p=a b zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind: !"#$%&‘()*+,-. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8 und Unicode-Zeichen.

    Um dieses Problem zu umgehen, stellen Sie die spark.sql.sources.fastS3PartitionDiscovery.enabled-Konfiguration auf false in der spark-defaults-Klassifizierung ein.

Version 5.29.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.29.0. Änderungen beziehen sich auf Version 5.28.1.

Erste Version: 17. Januar 2020

Upgrades
  • Auf Version AWS SDK for Java 1.11.682 aktualisiert

  • Upgrade von Hive auf Version 2.3.6

  • Flink wurde auf Version 1.9.1 aktualisiert

  • EmrFS wurde auf Version 2.38.0 aktualisiert

  • EMRDynamoDB Connector wurde auf Version 4.13.0 aktualisiert

Änderungen, Verbesserungen und behobene Probleme
  • Spark

    • Spark-Leistungsoptimierungen.

  • EMRFS

    • Management Guide aktualisiert die Standardeinstellungen von emrfs-site.xml für eine konsistente Ansicht.

Bekannte Probleme
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.28.1

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.28.1. Änderungen beziehen sich auf Version 5.28.0.

Erste Version: 10. Januar 2020

Änderungen, Verbesserungen und behobene Probleme
  • Spark

    • Spark-Kompatibilitätsprobleme behoben.

  • CloudWatch Metriken

    • Problem bei der Veröffentlichung von Amazon CloudWatch Metrics auf einem EMR Cluster mit mehreren Primärknoten behoben.

  • Deaktivierte Protokollnachricht

    • Falsche Protokollnachricht „… verwendet die alte Version (<4.5.8) des Apache-HTTP-Clients“ deaktiviert.

Bekannte Probleme
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.28.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.28.0. Änderungen beziehen sich auf Version 5.27.0.

Erste Version: 12. November 2019

Upgrades
  • Upgrade von Flink auf Version 1.9.0

  • Upgrade von Hive auf Version 2.3.6

  • Auf Version MXNet 1.5.1 aktualisiert

  • Upgrade von Phoenix auf Version 4.14.3

  • Upgrade von Presto auf Version 0.227

  • Upgrade von Zeppelin auf Version 0.8.2

Neue Features
  • Apache Hudi kann jetzt von Amazon installiert EMR werden, wenn Sie einen Cluster erstellen. Weitere Informationen finden Sie unter Hudi.

  • (25. November 2019) Sie können jetzt auf Wunsch mehrere Schritte gleichzeitig ausführen, um die Cluster-Nutzung zu verbessern und Kosten zu sparen. Außerdem können Sie sowohl anstehende als auch laufende Schritte stornieren. Weitere Informationen finden Sie unter Arbeiten mit Schritten mithilfe der AWS CLI AND-Konsole.

  • (3. Dezember 2019) Sie können jetzt EMR Cluster auf erstellen und ausführen AWS Outposts. AWS Outposts ermöglicht native AWS Dienste, Infrastrukturen und Betriebsmodelle in lokalen Einrichtungen. In AWS Outposts Umgebungen können Sie dieselben AWS APIs Tools und dieselbe Infrastruktur verwenden wie in der AWS Cloud. Weitere Informationen finden Sie unter EMRCluster on AWS Outposts.

  • (11. März 2020) Ab EMR Amazon-Version 5.28.0 können Sie EMR Amazon-Cluster in einem Local Zones-Subnetz als logische Erweiterung einer AWS Region, die AWS Local Zones unterstützt, erstellen und ausführen. Eine lokale Zone ermöglicht es, EMR Amazon-Funktionen und eine Untergruppe von AWS Diensten, wie Rechen- und Speicherdienste, näher an den Benutzern zu platzieren, wodurch der Zugriff auf lokal ausgeführte Anwendungen mit sehr geringer Latenz ermöglicht wird. Eine Liste der verfügbaren Local Zones finden Sie unter AWS Local Zones. Informationen zum Zugriff auf verfügbare AWS Local Zones finden Sie unter Regionen, Availability Zones und Local Zones.

    Local Zones unterstützen derzeit keine EMR Amazon-Notebooks und unterstützen keine direkten Verbindungen zu Amazon EMR über den VPC Schnittstellenendpunkt (AWS PrivateLink).

Änderungen, Verbesserungen und behobene Probleme
Bekannte Probleme
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Veröffentlichung 5.27.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.27.0. Änderungen beziehen sich auf Version 5.26.0.

Erste Version: 23. September 2019

Upgrades
  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • Tensorflow 1,14.0

  • Konnektoren und Treiber:

    • DynamoDB Connector 4.12.0

Neue Features
  • (24. Oktober 2019) Die folgenden neuen Funktionen in EMR Notizbüchern sind in allen EMR Amazon-Versionen verfügbar.

    • Sie können jetzt Git-Repositorys mit EMR Notizbüchern verknüpfen, um Ihre Notizbücher in einer versionskontrollierten Umgebung zu speichern. Sie können Code mit Kollegen teilen und vorhandene Jupyter Notebooks über Remote-Git-Repositorys wiederverwenden. Weitere Informationen finden Sie unter Git-Repositorys mit Amazon EMR Notebooks verknüpfen im Amazon EMR Management Guide.

    • Das Hilfsprogramm nbdime ist jetzt in EMR Notebooks verfügbar, um das Vergleichen und Zusammenführen von Notizbüchern zu vereinfachen.

    • EMRNotebooks werden jetzt unterstützt. JupyterLab JupyterLab ist eine webbasierte interaktive Entwicklungsumgebung, die vollständig mit Jupyter-Notebooks kompatibel ist. Sie können jetzt wählen, ob Sie Ihr Notizbuch entweder im JupyterLab Jupyter-Notebook-Editor öffnen möchten.

  • (30. Oktober 2019) Mit den EMR Amazon-Versionen 5.25.0 und höher können Sie über die Cluster-Übersichtsseite oder den Tab Anwendungsverlauf in der Konsole eine Verbindung zur Benutzeroberfläche des Spark-Verlaufs herstellen. Anstatt einen Web-Proxy über eine SSH Verbindung einzurichten, können Sie schnell auf die Benutzeroberfläche des Spark-History-Servers zugreifen, um Anwendungsmetriken einzusehen und auf relevante Protokolldateien für aktive und beendete Cluster zuzugreifen. Weitere Informationen finden Sie unter Off-Cluster-Zugriff auf persistente Anwendungsbenutzeroberflächen im Amazon EMR Management Guide.

Änderungen, Verbesserungen und behobene Probleme
Bekannte Probleme
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.26.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.26.0. Änderungen beziehen sich auf Version 5.25.0.

Erste Version: 8. August 2019

Letzte Aktualisierung: 19. August 2019

Upgrades
  • AWS SDK for Java 1.11.595

  • HBase1.4,10

  • Phoenix 4.14.2

  • Konnektoren und Treiber:

    • DynamoDB Connector 4.11.0

    • MariaDB Connector 2.4.2

    • Amazon Redshift JDBC Redshift-Treiber 1.2.32.1056

Neue Features
  • (Beta) Mit Amazon EMR 5.26.0 können Sie einen Cluster starten, der in Lake Formation integriert ist. Diese Integration bietet einen detaillierten Zugriff auf Spaltenebene auf Datenbanken und Tabellen im Glue-Datenkatalog. AWS Sie ermöglicht auch föderiertes Single Sign-On für EMR Notebooks oder Apache Zeppelin von einem Unternehmensidentitätssystem aus. Weitere Informationen finden Sie unter Integration von Amazon EMR mit AWS Lake Formation (Beta).

  • (19. August 2019) Amazon EMR Block Public Access ist jetzt in allen EMR Amazon-Versionen verfügbar, die Sicherheitsgruppen unterstützen. Den öffentlichen Zugriff blockieren ist eine kontoweite Einstellung, die für jede AWS Region gilt. Den öffentlichen Zugriff blockieren verhindert, dass ein Cluster gestartet wird, wenn eine dem Cluster zugeordnete Sicherheitsgruppe über eine Regel verfügt, die eingehenden Datenverkehr von IPv4 0.0.0.0/0 oderIPv6:: /0 (öffentlicher Zugriff) auf einem Port zulässt, sofern kein Port als Ausnahme angegeben ist. Port 22 ist standardmäßig eine Ausnahme. Weitere Informationen finden Sie unter Using Amazon EMR Block Public Access im Amazon EMR Management Guide.

Änderungen, Verbesserungen und behobene Probleme
  • EMR-Notebooks

    • Ab Version EMR 5.26.0 unterstützt EMR Notebooks zusätzlich zu den Standard-Python-Bibliotheken auch Python-Bibliotheken für Notebooks. Sie können Bibliotheken für Notebooks vom Notebook-Editor aus installieren, ohne einen Cluster neu erstellen oder ein Notebook erneut an einen Cluster anhängen zu müssen. Notebook-bezogene Bibliotheken werden in einer virtuellen Python-Umgebung erstellt und gelten daher nur für die aktuelle Notebook-Sitzung. Auf diese Weise können Sie Abhängigkeiten zwischen Notebooks isolieren. Weitere Informationen finden Sie unter Using Notebook Scoped Libraries im Amazon EMR Management Guide.

  • EMRFS

    • Sie können eine ETag Bestätigungsfunktion (Beta) aktivieren, indem Sie auf einstellenfs.s3.consistent.metadata.etag.verification.enabled. true Mit dieser Funktion überprüft Amazon EMRFS S3, ob ETags es sich bei den gelesenen Objekten um die neueste verfügbare Version handelt. Diese Funktion ist hilfreich für read-after-update Anwendungsfälle, in denen Dateien auf Amazon S3 überschrieben werden, während derselbe Name beibehalten wird. Diese ETag Überprüfungsfunktion funktioniert derzeit nicht mit S3 Select. Weitere Informationen finden Sie unter Konfigurieren der konsistenten Ansicht.

  • Spark

    • Die folgenden Optimierungen sind jetzt standardmäßig aktiviert: dynamisches Bereinigen von Partitionen DISTINCT zuvorINTERSECT, Verbesserungen bei der Ableitung von SQL Planstatistiken für JOIN nachfolgende DISTINCT Abfragen, Reduzierung skalarer Unterabfragen, optimierte Neureihenfolge von Verknüpfungen und Bloom-Filter-Join. Weitere Informationen finden Sie unter Optimieren der Spark-Leistung.

    • Die Codegenerierung für die gesamte Phase für Sort Merge Join wurde verbessert.

    • Die Wiederverwendung von Abfragefragmenten und Unterabfragen wurde verbessert.

    • Verbesserungen bei der Vorabzuweisung von Executoren beim Start von Spark.

    • Bloom-Filter-Joins werden nicht mehr angewendet, wenn die kleinere Seite der Verknüpfung einen Broadcast-Hinweis enthält.

  • Tez

    • Ein Problem mit Tez wurde behoben. Tez UI funktioniert jetzt auf einem EMR Amazon-Cluster mit mehreren Primärknoten.

Bekannte Probleme
  • Die verbesserten Funktionen zur Codegenerierung in der gesamten Phase für Sort Merge Join können den Speicherdruck erhöhen, wenn sie aktiviert sind. Diese Optimierung verbessert die Leistung, kann jedoch zu Wiederholungsversuchen oder Fehlschlägen führen, wenn der nicht so eingestellt spark.yarn.executor.memoryOverheadFactor ist, dass er genügend Speicher zur Verfügung stellt. Um dieses Feature zu deaktivieren, setzen Sie spark.sql.sortMergeJoinExec.extendedCodegen.enabled auf „false“.

  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.25.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.25.0. Änderungen beziehen sich auf Version 5.24.1.

Erste Version: 17. Juli 2019

Letzte Aktualisierung: 30. Oktober 2019

Amazon EMR 5,25,0

Upgrades
  • AWS SDK for Java 1,11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1,13,1

  • Tez 0.9.2

  • Zookeeper 3.4.14

Neue Features
  • (30. Oktober 2019) Ab EMR Amazon-Version 5.25.0 können Sie über die Cluster-Übersichtsseite oder den Tab Anwendungsverlauf in der Konsole eine Verbindung zur Benutzeroberfläche des Spark-Verlaufs herstellen. Anstatt einen Web-Proxy über eine SSH Verbindung einzurichten, können Sie schnell auf die Benutzeroberfläche des Spark-History-Servers zugreifen, um Anwendungsmetriken einzusehen und auf relevante Protokolldateien für aktive und beendete Cluster zuzugreifen. Weitere Informationen finden Sie unter Off-Cluster-Zugriff auf persistente Anwendungsbenutzeroberflächen im Amazon EMR Management Guide.

Änderungen, Verbesserungen und behobene Probleme
  • Spark

    • Die Leistung einiger Verknüpfungen wurde verbessert, indem Bloom-Filter zum Vorfiltern von Eingaben verwendet wurden. Die Optimierung ist standardmäßig deaktiviert und kann aktiviert werden, indem der Spark-Konfigurationsparameter spark.sql.bloomFilterJoin.enabled auf true gesetzt wird.

    • Die Leistung bei der Gruppierung nach Spalten vom Typ Zeichenfolge wurde verbessert.

    • Die standardmäßige Speicher- und Kernkonfiguration von Spark Executor für R4-Instance-Typen für Cluster ohne Installation wurde verbessert. HBase

    • Es wurde ein früheres Problem mit dem Feature zum dynamischen Bereinigen von Partitionen behoben, bei dem sich die bereinigte Tabelle auf der linken Seite des Joins befinden musste.

    • DISTINCTVor der INTERSECT Optimierung verbessert und gilt nun auch für weitere Fälle, in denen Aliase involviert sind.

    • Die Inferenz von SQL Planstatistiken für Abfragen, JOIN denen gefolgt von DISTINCT Abfragen, wurde verbessert. Diese Verbesserung ist standardmäßig deaktiviert und kann aktiviert werden, indem der Spark-Konfigurationsparameter spark.sql.statsImprovements.enabled auf true gesetzt wird. Diese Optimierung ist für das Feature „Unterscheiden vor Überschneiden“ erforderlich und wird automatisch aktiviert, wenn spark.sql.optimizer.distinctBeforeIntersect.enabled auf true gesetzt ist.

    • Optimierte Verbindungsreihenfolge basierend auf Tabellengröße und Filtern. Diese Optimierung ist standardmäßig deaktiviert und kann aktiviert werden, indem der Spark-Konfigurationsparameter spark.sql.optimizer.sizeBasedJoinReorder.enabled auf true gesetzt wird.

    Weitere Informationen finden Sie unter Optimieren der Spark-Leistung.

  • EMRFS

    • Die EMRFS Einstellung,fs.s3.buckets.create.enabled, ist jetzt standardmäßig deaktiviert. Bei Tests haben wir festgestellt, dass die Deaktivierung dieser Einstellung die Leistung verbessert und die unbeabsichtigte Erstellung von S3-Buckets verhindert. Wenn Ihre Anwendung auf dieser Funktionalität basiert, können Sie sie aktivieren, indem Sie die Eigenschaft true in der Konfigurationsklassifizierung von fs.s3.buckets.create.enabled auf emrfs-site setzen. Weitere Informationen finden Sie unter Angeben einer Konfiguration beim Erstellen eines Clusters.

  • Verbesserungen der lokalen Festplattenverschlüsselung und der S3-Verschlüsselung in Sicherheitskonfigurationen (5. August 2019)

    • Die Amazon-S3-Verschlüsselungseinstellungen wurden im Sicherheitskonfigurations-Setup von den Einstellungen für die lokale Festplattenverschlüsselung getrennt.

    • Es wurde eine Option hinzugefügt, um die EBS Verschlüsselung mit Version 5.24.0 und höher zu aktivieren. Bei Auswahl dieser Option wird zusätzlich zu den Speichervolumes auch das Root-Geräte-Volume verschlüsselt. Frühere Versionen erforderten die Verwendung eines benutzerdefinierten Datenträgers AMI zur Verschlüsselung des Root-Geräte-Volumes.

    • Weitere Informationen finden Sie unter Verschlüsselungsoptionen im Amazon EMR Management Guide.

Bekannte Probleme
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.24.1

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.24.1. Änderungen beziehen sich auf Version 5.24.0.

Erste Version: 26. Juni 2019

Änderungen, Verbesserungen und behobene Probleme
  • Die Standardversion von Amazon Linux AMI für Amazon wurde aktualisiert und enthält EMR nun wichtige Sicherheitsupdates für den Linux-Kernel, einschließlich des TCP SACK Denial-of-Service-Problems (AWS-2019-005).

Bekannte Probleme
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.24.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.24.0. Änderungen beziehen sich auf Version 5.23.0.

Erste Version: 11. Juni 2019

Letzte Aktualisierung: 5. August 2019

Upgrades
  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java 1,11.546

  • Konnektoren und Treiber:

    • DynamoDB Connector 4.9.0

    • MariaDB Connector 2.4.1

    • Amazon Redshift JDBC Redshift-Treiber 1.2.27.1051

Änderungen, Verbesserungen und behobene Probleme
  • Spark

    • Es wurde eine Optimierung für das dynamische Bereinigen von Partitionen hinzugefügt. Die Optimierung ist standardmäßig deaktiviert. Um es zu aktivieren, setzen Sie den Spark-Konfigurationsparameter spark.sql.dynamicPartitionPruning.enabled auf true.

    • Die Leistung von INTERSECT-Anfragen wurde verbessert. Diese Optimierung ist standardmäßig deaktiviert. Um es zu aktivieren, setzen Sie den Spark-Konfigurationsparameter spark.sql.optimizer.distinctBeforeIntersect.enabled auf true.

    • Es wurde eine Optimierung hinzugefügt, um skalare Unterabfragen mit Aggregaten, die dieselbe Beziehung verwenden, zu vereinfachen. Die Optimierung ist standardmäßig deaktiviert. Um es zu aktivieren, setzen Sie den Spark-Konfigurationsparameter spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled auf true.

    • Die Codegenerierung für die gesamte Phase wurde verbessert.

    Weitere Informationen finden Sie unter Optimieren der Spark-Leistung.

  • Verbesserungen der lokalen Festplattenverschlüsselung und der S3-Verschlüsselung in Sicherheitskonfigurationen (5. August 2019)

    • Die Amazon-S3-Verschlüsselungseinstellungen wurden im Sicherheitskonfigurations-Setup von den Einstellungen für die lokale Festplattenverschlüsselung getrennt.

    • Es wurde eine Option hinzugefügt, um die Verschlüsselung zu aktivieren. EBS Bei Auswahl dieser Option wird zusätzlich zu den Speichervolumes auch das Root-Geräte-Volume verschlüsselt. Frühere Versionen erforderten die Verwendung eines benutzerdefinierten VolumesAMI, um das Root-Geräte-Volume zu verschlüsseln.

    • Weitere Informationen finden Sie unter Verschlüsselungsoptionen im Amazon EMR Management Guide.

Bekannte Probleme
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.23.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.23.0. Änderungen beziehen sich auf Version 5.22.0.

Erste Version: 01. April 2019

Letzte Aktualisierung: 30. April 2019

Upgrades
  • AWS SDK for Java 1.11.519

Neue Features
  • (30. April 2019) Mit Amazon EMR 5.23.0 und höher können Sie einen Cluster mit drei primären Knoten starten, um die Hochverfügbarkeit von Anwendungen wie YARN Resource Manager, Spark HDFS NameNode, Hive und Ganglia zu unterstützen. Der Primärknoten ist mit diesem Feature keine potenzielle einzelne Fehlerquelle mehr. Wenn einer der Primärknoten ausfällt, wechselt Amazon EMR automatisch zu einem Standby-Primärknoten und ersetzt den ausgefallenen Primärknoten durch einen neuen mit derselben Konfiguration und denselben Bootstrap-Aktionen. Weitere Informationen finden Sie unter Primärknoten planen und konfigurieren.

Bekannte Probleme
  • Tez UI (In EMR Amazon-Version 5.26.0 behoben)

    Die Tez-Benutzeroberfläche funktioniert nicht auf einem EMR Cluster mit mehreren Primärknoten.

  • Farbton (In EMR Amazon-Version 5.24.0 behoben)

    • Hue, das auf Amazon EMR läuft, unterstützt Solr nicht. Ab EMR Amazon-Version 5.20.0 führt ein Problem mit der Fehlkonfiguration dazu, dass Solr aktiviert wird und eine harmlose Fehlermeldung ähnlich der folgenden angezeigt wird:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      So wird verhindert, dass die Solr-Fehlermeldung angezeigt wird:

      1. Stellen Sie mit der Befehlszeile des primären Knotens eine ConnectSSH.

      2. Verwenden Sie einen Texteditor zum Öffnen der hue.ini-Datei. Beispielsweise:

        sudo vim /etc/hue/conf/hue.ini

      3. Suchen Sie nach dem Begriff appblacklist und ändern Sie die Zeile wie folgt:

        appblacklist = search
      4. Speichern Sie Ihre Änderungen und starten Sie Hue wie im folgenden Beispiel gezeigt:

        sudo stop hue; sudo start hue
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.22.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.22.0. Änderungen beziehen sich auf Version 5.21.0.

Wichtig

Ab EMR Amazon-Version 5.22.0 EMR verwendet Amazon AWS Signature Version 4 ausschließlich zur Authentifizierung von Anfragen an Amazon S3. Frühere EMR Amazon-Versionen verwenden in einigen Fällen AWS Signature Version 2, sofern in den Versionshinweisen nicht angegeben ist, dass ausschließlich Signature Version 4 verwendet wird. Weitere Informationen finden Sie unter Authentifizieren von Anfragen (AWS Signature Version 4) und Authentifizieren von Anfragen (AWS Signature Version 2) im Amazon Simple Storage Service Developer Guide.

Erste Version: 20. März 2019

Upgrades
  • Flink 1.7.1

  • HBase1.4.9

  • Oozie 5.1.0

  • Phoenix 4.14.1

  • Zeppelin 0.8.1

  • Konnektoren und Treiber:

    • DynamoDB Connector 4.8.0

    • MariaDB Connector 2.2.6

    • Amazon Redshift JDBC Redshift-Treiber 1.2.20.1043

Neue Features
  • Die EBS Standardkonfiguration für EC2 Instance-Typen mit „-only“ -Speicher wurde geändert. EBS Wenn Sie einen Cluster mit Amazon EMR Version 5.22.0 und höher erstellen, erhöht sich die EBS Standardspeichermenge je nach Größe der Instance. Darüber hinaus haben wir den erhöhten Speicherplatz auf mehrere Volumes aufgeteilt, um die Leistung zu erhöhenIOPS. Wenn Sie eine andere EBS Instance-Speicherkonfiguration verwenden möchten, können Sie diese angeben, wenn Sie einen EMR Cluster erstellen oder Knoten zu einem vorhandenen Cluster hinzufügen. Weitere Informationen zur Speichermenge und Anzahl der standardmäßig zugewiesenen Volumes für jeden Instance-Typ finden Sie unter EBSStandardspeicher für Instances im Amazon EMR Management Guide.

Änderungen, Verbesserungen und behobene Probleme
  • Spark

    • Es wurde eine neue Konfigurationseigenschaft für Spark aufYARN, eingeführtspark.yarn.executor.memoryOverheadFactor. Der Wert dieser Eigenschaft ist ein Skalierungsfaktor, der den Wert des Speicher-Overheads auf einen Prozentsatz des Executor-Speichers festlegt, mit einem Minimum von 384 MB. Wenn der Speicher-Overhead explizit mit spark.yarn.executor.memoryOverhead festgelegt wird, hat diese Eigenschaft keine Auswirkung. Der Standardwert ist 0.1875, was 18.75 % entspricht. Dieser Standard für Amazon EMR lässt mehr Platz in YARN Containern für den Executor-Speicheraufwand übrig als der intern von Spark festgelegte Standard von 10%. Der EMR Amazon-Standard von 18,75% ergab empirisch weniger speicherbedingte Ausfälle in -DS-Benchmarks. TPC

    • -26316 wurde zurückportiert, um die Leistung zu verbessern. SPARK

  • In den EMR Amazon-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN Knotenbezeichnungen in einem Verzeichnis gespeichert. HDFS In einigen Situationen führt dies zu Verzögerungen beim Startup des Core-Knotens und dann zu einem Cluster-Timeout und einem Startfehler. Ab Amazon EMR 5.22.0 ist dieses Problem behoben. YARNKnotenbezeichnungen werden auf der lokalen Festplatte jedes Clusterknotens gespeichert, wodurch Abhängigkeiten von vermieden werden. HDFS

Bekannte Probleme
  • Farbton (In EMR Amazon-Version 5.24.0 behoben)

    • Hue, das auf Amazon EMR läuft, unterstützt Solr nicht. Ab EMR Amazon-Version 5.20.0 führt ein Problem mit der Fehlkonfiguration dazu, dass Solr aktiviert wird und eine harmlose Fehlermeldung ähnlich der folgenden angezeigt wird:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      So wird verhindert, dass die Solr-Fehlermeldung angezeigt wird:

      1. Stellen Sie mit der Befehlszeile des primären Knotens eine ConnectSSH.

      2. Verwenden Sie einen Texteditor zum Öffnen der hue.ini-Datei. Beispielsweise:

        sudo vim /etc/hue/conf/hue.ini

      3. Suchen Sie nach dem Begriff appblacklist und ändern Sie die Zeile wie folgt:

        appblacklist = search
      4. Speichern Sie Ihre Änderungen und starten Sie Hue wie im folgenden Beispiel gezeigt:

        sudo stop hue; sudo start hue
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.21.1

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.21.1. Änderungen beziehen sich auf Version 5.21.0.

Erste Version: 18. Juli 2019

Änderungen, Verbesserungen und behobene Probleme
  • Die Standardversion von Amazon Linux AMI für Amazon wurde aktualisiert und enthält EMR nun wichtige Sicherheitsupdates für den Linux-Kernel, einschließlich des TCP SACK Denial-of-Service-Problems (AWS-2019-005).

Bekannte Probleme
  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.21.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.21.0. Änderungen beziehen sich auf Version 5.20.0.

Veröffentlichungsdatum: 18. Februar 2019

Letzte Aktualisierung: 3. April 2019

Upgrades
  • Flink 1.7.0

  • Presto 0.215

  • AWS SDK for Java 1.11.479

Neue Features
  • (3. April 2019) Mit EMR Amazon-Version 5.21.0 und höher können Sie Cluster-Konfigurationen überschreiben und zusätzliche Konfigurationsklassifizierungen für jede Instance-Gruppe in einem laufenden Cluster angeben. Dazu verwenden Sie die EMR Amazon-Konsole, die AWS Command Line Interface (AWS CLI) oder die AWS SDK. Weitere Informationen finden Sie unter Angeben einer Konfiguration für eine Instance-Gruppe in einem aktiven Cluster.

Änderungen, Verbesserungen und behobene Probleme
Bekannte Probleme
  • Farbton (In EMR Amazon-Version 5.24.0 behoben)

    • Hue, das auf Amazon EMR läuft, unterstützt Solr nicht. Ab EMR Amazon-Version 5.20.0 führt ein Problem mit der Fehlkonfiguration dazu, dass Solr aktiviert wird und eine harmlose Fehlermeldung ähnlich der folgenden angezeigt wird:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      So wird verhindert, dass die Solr-Fehlermeldung angezeigt wird:

      1. Stellen Sie mit der Befehlszeile des primären Knotens eine ConnectSSH.

      2. Verwenden Sie einen Texteditor zum Öffnen der hue.ini-Datei. Beispielsweise:

        sudo vim /etc/hue/conf/hue.ini

      3. Suchen Sie nach dem Begriff appblacklist und ändern Sie die Zeile wie folgt:

        appblacklist = search
      4. Speichern Sie Ihre Änderungen und starten Sie Hue wie im folgenden Beispiel gezeigt:

        sudo stop hue; sudo start hue
  • Tez

    • Dieses Problem wurde in Amazon EMR 5.22.0 behoben.

      Wenn Sie unter http://eine Verbindung zur Tez-Benutzeroberfläche herstellenMasterDNS:8080/tez-ui über eine SSH Verbindung zum primären Clusterknoten wird der Fehler „Adaptervorgang fehlgeschlagen - Timeline-Server () ATS ist außer Reichweite“ angezeigt. Entweder ist er ausgefallen oder nicht aktiviert“ CORS wird angezeigt, oder Aufgaben zeigen unerwartet „N/A“ an.

      Dies wird dadurch verursacht, dass die Tez-Benutzeroberfläche Anfragen an den YARN Timeline Server sendet und localhost nicht den Hostnamen des primären Knotens verwendet. Um dieses Problem zu umgehen, steht ein Skript zur Verfügung, das als Bootstrap-Aktion oder als Bootstrap-Schritt ausgeführt werden kann. Das Skript aktualisiert den Hostnamen in der configs.env Tez-Datei. Weitere Informationen und den Speicherort des Skripts finden Sie in den Bootstrap-Anweisungen.

  • In den EMR Amazon-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN Knotenbezeichnungen in einem Verzeichnis gespeichert. HDFS In einigen Situationen führt dies zu Verzögerungen beim Startup des Core-Knotens und dann zu einem Cluster-Timeout und einem Startfehler. Ab Amazon EMR 5.22.0 ist dieses Problem behoben. YARNKnotenbezeichnungen werden auf der lokalen Festplatte jedes Clusterknotens gespeichert, wodurch Abhängigkeiten von vermieden werden. HDFS

  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.20.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.20.0. Änderungen beziehen sich auf Version 5.19.0.

Veröffentlichungsdatum: 18. Dezember 2018

Letzte Aktualisierung: 22. Januar 2019

Upgrades
  • Flink 1.6.2

  • HBase1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • AWS SDK for Java 1.11.461

Neue Features
  • (22. Januar 2019) Kerberos in Amazon EMR wurde verbessert und unterstützt nun die Authentifizierung von Principals von einem externen System aus. KDC Dadurch wird die Prinzipalverwaltung zentralisiert, da sich mehrere Cluster einen einzigen externen Cluster teilen können. KDC Darüber hinaus KDC kann das externe System eine bereichsübergreifende Vertrauensstellung mit einer Active Directory-Domäne haben. Auf diese Weise können alle Cluster Prinzipale von Active Directory authentifizieren. Weitere Informationen finden Sie unter Verwenden der Kerberos-Authentifizierung im Amazon EMR Management Guide.

Änderungen, Verbesserungen und behobene Probleme
  • Standard Amazon Linux AMI für Amazon EMR

    • Das Python3-Paket wurde von Python 3.4 auf 3.6 aktualisiert.

  • Der EMRFS S3-optimierte Committer

  • Hive

  • Mit Spark und Hive Glue

    • In Version EMR 5.20.0 oder höher wird die parallel Partitionsbereinigung automatisch für Spark und Hive aktiviert, wenn AWS Glue Data Catalog als Metastore verwendet wird. Diese Änderung reduziert die Zeit für die Abfrageplanung erheblich, da mehrere Anfragen parallel ausgeführt werden, um Partitionen abzurufen. Die Gesamtzahl der Segmente, die gleichzeitig ausgeführt werden können, liegt zwischen 1 und 10. Der Standardwert ist 5, was eine empfohlene Einstellung ist. Sie können dies ändern, indem Sie die Eigenschaft aws.glue.partition.num.segments in der hive-site-Konfigurationsklassifizierung angeben. Wenn eine Drosselung auftritt, können Sie das Feature ausschalten, indem Sie den Wert auf 1 ändern. Weitere Informationen finden Sie unter AWS -Glue-Segmentstruktur.

Bekannte Probleme
  • Farbton (In EMR Amazon-Version 5.24.0 behoben)

    • Hue, das auf Amazon EMR läuft, unterstützt Solr nicht. Ab EMR Amazon-Version 5.20.0 führt ein Problem mit der Fehlkonfiguration dazu, dass Solr aktiviert wird und eine harmlose Fehlermeldung ähnlich der folgenden angezeigt wird:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      So wird verhindert, dass die Solr-Fehlermeldung angezeigt wird:

      1. Stellen Sie mit der Befehlszeile des primären Knotens eine ConnectSSH.

      2. Verwenden Sie einen Texteditor zum Öffnen der hue.ini-Datei. Beispielsweise:

        sudo vim /etc/hue/conf/hue.ini

      3. Suchen Sie nach dem Begriff appblacklist und ändern Sie die Zeile wie folgt:

        appblacklist = search
      4. Speichern Sie Ihre Änderungen und starten Sie Hue wie im folgenden Beispiel gezeigt:

        sudo stop hue; sudo start hue
  • Tez

    • Dieses Problem wurde in Amazon EMR 5.22.0 behoben.

      Wenn Sie unter http://eine Verbindung zur Tez-Benutzeroberfläche herstellenMasterDNS:8080/tez-ui über eine SSH Verbindung zum primären Clusterknoten wird der Fehler „Adaptervorgang fehlgeschlagen - Timeline-Server () ATS ist außer Reichweite“ angezeigt. Entweder ist er ausgefallen oder nicht aktiviert“ CORS wird angezeigt, oder Aufgaben zeigen unerwartet „N/A“ an.

      Dies wird dadurch verursacht, dass die Tez-Benutzeroberfläche Anfragen an den YARN Timeline Server sendet und localhost nicht den Hostnamen des primären Knotens verwendet. Um dieses Problem zu umgehen, steht ein Skript zur Verfügung, das als Bootstrap-Aktion oder als Bootstrap-Schritt ausgeführt werden kann. Das Skript aktualisiert den Hostnamen in der configs.env Tez-Datei. Weitere Informationen und den Speicherort des Skripts finden Sie in den Bootstrap-Anweisungen.

  • In den EMR Amazon-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN Knotenbezeichnungen in einem Verzeichnis gespeichert. HDFS In einigen Situationen führt dies zu Verzögerungen beim Startup des Core-Knotens und dann zu einem Cluster-Timeout und einem Startfehler. Ab Amazon EMR 5.22.0 ist dieses Problem behoben. YARNKnotenbezeichnungen werden auf der lokalen Festplatte jedes Clusterknotens gespeichert, wodurch Abhängigkeiten von vermieden werden. HDFS

  • Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung

    Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.

    Workaround:

    • SSHals hadoop Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten.

    • Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den hadoop-Benutzer zu erneuern.

      kinit -kt <keytab_file> <principal>

      In der Regel befindet sich die Keytab-Datei unter /etc/hadoop.keytab und der Prinzipal hat das Format von hadoop/<hostname>@<REALM>.

    Anmerkung

    Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.

Version 5.19.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.19.0. Änderungen beziehen sich auf Version 5.18.0.

Erste Version: 7. November 2018

Letzte Aktualisierung: 19. November 2018

Upgrades
  • Hadoop 2.8.5

  • Flink 1.6.1

  • JupyterHub 0.9.4

  • MXNet1.3.0

  • Presto 0.212

  • TensorFlow 1.11.0

  • Zookeeper 3.4.13

  • AWS SDK for Java 1.11.433

Neue Features
  • (19. November 2018) EMR Notebooks ist eine verwaltete Umgebung, die auf Jupyter Notebook basiert. Es unterstützt Spark-Magic-Kernel für Spark PySparkSQL, Spark R und Scala. EMRNotebooks können mit Clustern verwendet werden, die mit Amazon EMR Version 5.18.0 und höher erstellt wurden. Weitere Informationen finden Sie unter Using EMR Notebooks im Amazon EMR Management Guide.

  • Der EMRFS S3-optimierte Committer ist verfügbar, wenn Sie Parquet-Dateien mit Spark und schreiben. EMRFS Dieser Committer verbessert die Schreibleistung. Weitere Informationen finden Sie unter Verwenden Sie den EMRFS S3-optimierten Committer.

Änderungen, Verbesserungen und behobene Probleme
  • YARN

  • Standard Amazon Linux AMI für Amazon EMR

    • ruby18, php56 und gcc48 sind nicht mehr standardmäßig installiert. Diese können auf Wunsch mit yum installiert werden.

    • Das aws-sdk Ruby Gem ist standardmäßig nicht mehr installiert. Es kann, falls gewünscht, mit gem install aws-sdk installiert werden. Bestimmte Komponenten können ebenfalls installiert werden. z. B. gem install aws-sdk-s3.

Bekannte Probleme
  • EMRNotebooks — Unter bestimmten Umständen kann es vorkommen, dass der Notebook-Editor bei mehreren geöffneten Notebook-Editoren keine Verbindung zum Cluster herstellen kann. Löschen Sie in diesem Fall die Browser-Cookies und öffnen Sie die Notebook-Editoren erneut.

  • CloudWatch ContainerPending Metrische und automatische Skalierung — (In 5.20.0 behoben) Amazon gibt EMR möglicherweise einen negativen Wert für aus. ContainerPending Wenn ContainerPending in einer Auto-Scaling-Regel verwendet wird, verhält sich das Auto Scaling nicht wie erwartet. Vermeiden Sie die Verwendung von ContainerPending mit automatischer Skalierung.

  • In den EMR Amazon-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN Knotenbezeichnungen in einem Verzeichnis gespeichert. HDFS In einigen Situationen führt dies zu Verzögerungen beim Startup des Core-Knotens und dann zu einem Cluster-Timeout und einem Startfehler. Ab Amazon EMR 5.22.0 ist dieses Problem behoben. YARNKnotenbezeichnungen werden auf der lokalen Festplatte jedes Clusterknotens gespeichert, wodurch Abhängigkeiten von vermieden werden. HDFS

Version 5.18.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.18.0. Änderungen beziehen sich auf Version 5.17.0.

Veröffentlichungsdatum: 24. Oktober 2018

Upgrades
  • Flink 1.6.0

  • HBase1.4.7

  • Presto 0.210

  • Spark 2.3.2

  • Zeppelin 0.8.0

Neue Features
Änderungen, Verbesserungen und behobene Probleme

Version 5.17.1

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.17.1. Änderungen beziehen sich auf Version 5.17.0.

Erste Version: 18. Juli 2019

Änderungen, Verbesserungen und behobene Probleme
  • Die Standardversion von Amazon Linux AMI für Amazon wurde aktualisiert und enthält EMR nun wichtige Sicherheitsupdates für den Linux-Kernel, einschließlich des TCP SACK Denial-of-Service-Problems (AWS-2019-005).

Version 5.17.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.17.0. Änderungen beziehen sich auf Version 5.16.0.

Erste Version: 30. August 2018

Upgrades
  • Flink 1.5.2

  • HBase1.4.6

  • Presto 0.206

Neue Features
  • Unterstützung für Tensorflow hinzugefügt. Weitere Informationen finden Sie unter TensorFlow.

Änderungen, Verbesserungen und behobene Probleme
Bekannte Probleme
  • Wenn Sie einen kerberisierten Cluster mit installiertem Livy erstellen, schlägt Livy mit der Fehlermeldung fehl, dass die einfache Authentifizierung nicht aktiviert ist. Ein Neustart des Livy-Servers behebt das Problem. Um das Problem zu umgehen, fügen Sie während der Clustererstellung einen Schritt sudo restart livy-server hinzu, der auf dem Primärknoten ausgeführt wird.

  • Wenn Sie ein benutzerdefiniertes Amazon Linux verwenden, das auf einem Amazon Linux AMI mit einem Erstellungsdatum vom 11.08.2018 AMI basiert, kann der Oozie-Server nicht gestartet werden. Wenn Sie Oozie verwenden, erstellen Sie eine benutzerdefinierte Version, die auf einer Amazon AMI Linux-ID mit einem anderen Erstellungsdatum AMI basiert. Sie können den folgenden AWS CLI Befehl verwenden, um eine Liste mit Images IDs für alle HVM Amazon Linux-Versionen AMIs mit einer Version 2018.03 zusammen mit dem Veröffentlichungsdatum zurückzugeben, sodass Sie ein geeignetes Amazon Linux AMI als Basis auswählen können. MyRegion Ersetzen Sie es durch Ihre Regionskennung, z. B. us-west-2.

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

Version 5.16.0

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.16.0. Änderungen beziehen sich auf Version 5.15.0.

Erste Version: 19. Juli 2018

Upgrades
  • Hadoop 2.8.4

  • Flink 1.5.0

  • Livy 0.5.0

  • MXNet1.2.0

  • Phoenix 4.14.0

  • Presto 0.203

  • Spark 2.3.1

  • AWS SDK for Java 1.11.336

  • CUDA9.2

  • JDBCRedshift-Treiber 1.2.15.1025

Änderungen, Verbesserungen und behobene Probleme
Bekannte Probleme
  • Diese Release-Version unterstützt die Instance-Typen c1.medium oder m1.small nicht. Cluster, die einen dieser Instance-Typen verwenden, können nicht gestartet werden. Um das Problem zu umgehen, geben Sie einen anderen Instance-Typ an oder verwenden Sie eine andere Release-Version.

  • Wenn Sie einen kerberisierten Cluster mit installiertem Livy erstellen, schlägt Livy mit der Fehlermeldung fehl, dass die einfache Authentifizierung nicht aktiviert ist. Ein Neustart des Livy-Servers behebt das Problem. Um das Problem zu umgehen, fügen Sie während der Clustererstellung einen Schritt sudo restart livy-server hinzu, der auf dem Primärknoten ausgeführt wird.

  • Nach dem Neustart des Primärknotens oder des Instance-Controllers werden die CloudWatch Metriken nicht erfasst und die automatische Skalierungsfunktion ist in EMR Amazon-Version 5.14.0, 5.15.0 oder 5.16.0 nicht verfügbar. Dieses Problem wurde in Amazon EMR 5.17.0 behoben.

Version 5.15.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.15.0. Änderungen beziehen sich auf Version 5.14.0.

Erste Version: 21. Juni 2018

Upgrades
  • Auf 1.4.4 aktualisiert HBase

  • Upgrade auf Hive 2.3.3

  • Upgrade auf Hue 4.2.0

  • Upgrade auf Oozie 5.0.0

  • Upgrade auf ZooKeeper 3.4.12.

  • Auf AWS SDK 1.11.333 aktualisiert

Änderungen, Verbesserungen und behobene Probleme
  • Hive

  • Hue

    • Hue wurde aktualisiert, um sich korrekt bei Livy zu authentifizieren, wenn Kerberos aktiviert ist. Livy wird jetzt unterstützt, wenn Kerberos mit Amazon verwendet wird. EMR

  • JupyterHub

    • Aktualisiert, JupyterHub sodass Amazon standardmäßig LDAP Client-Bibliotheken EMR installiert.

    • Ein Fehler im Skript, das selbstsignierte Zertifikate generiert, wurde behoben.

Bekannte Probleme
  • Diese Release-Version unterstützt die Instance-Typen c1.medium oder m1.small nicht. Cluster, die einen dieser Instance-Typen verwenden, können nicht gestartet werden. Um das Problem zu umgehen, geben Sie einen anderen Instance-Typ an oder verwenden Sie eine andere Release-Version.

  • Nach dem Neustart des Primärknotens oder des Instance-Controllers werden die CloudWatch Metriken nicht erfasst und die automatische Skalierungsfunktion ist in EMR Amazon-Version 5.14.0, 5.15.0 oder 5.16.0 nicht verfügbar. Dieses Problem wurde in Amazon EMR 5.17.0 behoben.

Version 5.14.1

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.14.1. Änderungen beziehen sich auf Version 5.14.0.

Veröffentlichungsdatum: 17. Oktober 2018

Die Standardeinstellung AMI für Amazon wurde aktualisiertEMR, um potenzielle Sicherheitslücken zu beheben.

Version 5.14.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.14.0. Änderungen beziehen sich auf Version 5.13.0.

Erste Version: 4. Juni 2018

Upgrades
  • Upgrade auf Apache Flink 1.4.2

  • Apache wurde auf 1.1.0 MXnet aktualisiert

  • Apache Sqoop auf 1.4.7 aktualisiert

Neue Features
  • JupyterHub Unterstützung hinzugefügt. Weitere Informationen finden Sie unter JupyterHub.

Änderungen, Verbesserungen und behobene Probleme
  • EMRFS

    • Die userAgent Zeichenfolge in Anfragen an Amazon S3 wurde aktualisiert und enthält nun die Benutzer- und Gruppeninformationen des aufrufenden Prinzipals. Dies kann zusammen mit AWS CloudTrail Protokollen für eine umfassendere Nachverfolgung von Anfragen verwendet werden.

  • HBase

    • Enthalten ist HBASE-20447, das ein Problem behebt, das zu Cache-Problemen führen könnte, insbesondere bei geteilten Regionen.

  • MXnet

    • OpenCV-Plattformversion.

  • Spark

    • Wenn Spark Parquet-Dateien mit an einen Amazon S3 S3-Speicherort schreibtEMRFS, wurde der FileOutputCommitter Algorithmus aktualisiert, sodass er Version 2 statt Version 1 verwendet. Dies reduziert die Anzahl der Umbenennungen, was die Anwendungsleistung verbessert. Diese Änderung beeinträchtigt nicht:

      • Andere Anwendungen als Spark.

      • Anwendungen, die in andere Dateisysteme schreiben, z. B. HDFS (die immer noch Version 1 von verwenden FileOutputCommitter).

      • Anwendungen, die andere Ausgabeformate wie Text oder CSV verwenden, die bereits EMRFS Direct Write verwenden.

Bekannte Probleme
  • JupyterHub

    • Die Verwendung von Konfigurationsklassifizierungen zur Einrichtung JupyterHub und individuellen Einrichtung von Jupyter-Notebooks beim Erstellen eines Clusters wird nicht unterstützt. Bearbeiten Sie die Dateien jupyterhub_config.py und jupyter_notebook_config.py für jeden Benutzer manuell. Weitere Informationen finden Sie unter Konfiguration JupyterHub.

    • JupyterHub kann auf Clustern innerhalb eines privaten Subnetzes nicht gestartet werden und schlägt mit der Meldung fehl. Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' Dies wird durch einen Fehler im Skript verursacht, das selbstsignierte Zertifikate generiert. Verwenden Sie die folgende Problemumgehung zum Generieren selbstsignierter Zertifikate. Alle Befehle werden ausgeführt, während Sie mit dem Primärknoten verbunden sind.

      1. Kopieren Sie das Skript zur Zertifikatsgenerierung aus dem Container auf den Primärknoten:

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. Verwenden Sie einen Texteditor, um Zeile 23 zu ändern, um den öffentlichen Hostnamen in den lokalen Hostnamen zu ändern, wie unten gezeigt:

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. Führen Sie das Skript aus, um selbstsignierte Zertifikate zu generieren:

        sudo bash ./gen_self_signed_cert.sh
      4. Verschieben Sie die Zertifikatsdateien, die das Skript generiert, in das /etc/jupyter/conf/-Verzeichnis:

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      Sie können tail die jupyter.log Datei überprüfen, um zu überprüfen, ob sie JupyterHub neu gestartet wurde und einen 200-Antwortcode zurückgibt. Beispielsweise:

      tail -f /var/log/jupyter/jupyter.log

      Dadurch sollte eine Antwort ähnlich der folgenden ausgegeben:

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
  • Nach dem Neustart des Primärknotens oder des Instance-Controllers werden die CloudWatch Metriken nicht erfasst und die automatische Skalierungsfunktion ist in EMR Amazon-Version 5.14.0, 5.15.0 oder 5.16.0 nicht verfügbar. Dieses Problem wurde in Amazon EMR 5.17.0 behoben.

Version 5.13.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.13.0. Änderungen beziehen sich auf Version 5.12.0.

Upgrades
  • Upgrade auf Spark 2.3.0

  • Auf 1.4.2 aktualisiert HBase

  • Upgrade auf Presto 0.194

  • Auf AWS SDK for Java 1.11.297 aktualisiert

Änderungen, Verbesserungen und behobene Probleme
Bekannte Probleme
  • MXNethat derzeit keine OpenCV-Bibliotheken.

Version 5.12.2

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.12.2. Änderungen beziehen sich auf Version 5.12.1

Erste Version: 29. August 2018

Änderungen, Verbesserungen und behobene Probleme
  • Diese Version behebt eine potenzielle Schwachstellen.

Version 5.12.1

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.12.1. Änderungen beziehen sich auf Version 5.12.0.

Erste Version: 29. März 2018

Änderungen, Verbesserungen und behobene Probleme
  • Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiertEMR, um potenzielle Sicherheitslücken zu beheben.

Version 5.12.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.12.0. Änderungen beziehen sich auf Version 5.11.1.

Upgrades
Änderungen, Verbesserungen und behobene Probleme
  • Hadoop

    • Die yarn.resourcemanager.decommissioning.timeout-Eigenschaft wurde zu yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs geändert. Sie können diese Eigenschaft verwenden, um die Cluster-Skalierung anzupassen. Weitere Informationen finden Sie unter Cluster Scale-Down im Amazon EMR Management Guide.

    • Hadoop CLI hat die -d Option zum Befehl cp (copy) hinzugefügt, der das direkte Kopieren spezifiziert. Sie können dies verwenden, um die Erstellung einer .COPYING-Zwischendatei zu vermeiden, wodurch das Kopieren von Daten zwischen Amazon S3 beschleunigt wird. Weitere Informationen finden Sie unter HADOOP-12384.

  • Pig

    • Die pig-env-Konfigurationsklassifizierung wurde hinzugefügt, die die Konfiguration der Pig-Umgebungseigenschaften vereinfacht. Weitere Informationen finden Sie unter Anwendungen konfigurieren.

  • Presto

    • Die Konfigurationsklassifizierung presto-connector-redshift wurde hinzugefügt, mit der Sie Werte in der Presto redshift.properties konfigurieren können. Weitere Informationen finden Sie unter Redshift Connector in der Presto-Dokumentation und Anwendungen konfigurieren.

    • Presto-Unterstützung für EMRFS wurde hinzugefügt und ist die Standardkonfiguration. Frühere EMR Amazon-Versionen verwendeten PrestoS3FileSystem, was die einzige Option war. Weitere Informationen finden Sie unter EMRFSund PrestoS3-Konfiguration FileSystem.

      Anmerkung

      Wenn Sie die zugrunde liegenden Daten in Amazon S3 mit Amazon EMR Version 5.12.0 abfragen, können Presto-Fehler auftreten. Dies liegt daran, dass Presto die Konfigurationsklassifizierungswerte von emrfs-site.xml nicht abruft. Um dieses Problem zu umgehen, erstellen Sie ein emrfs-Unterverzeichnis unter usr/lib/presto/plugin/hive-hadoop2/ und erstellen einen Symlink usr/lib/presto/plugin/hive-hadoop2/emrfs zu der vorhandenen Datei /usr/share/aws/emr/emrfs/conf/emrfs-site.xml. Starten Sie dann den Presto-Server-Prozess neu (sudo presto-server stop gefolgt von sudo presto-server start).

  • Spark

    • Backported SPARK-22036: Die Multiplikation gibt manchmal Null zurück. BigDecimal

Bekannte Probleme
  • MXNetenthält keine OpenCV-Bibliotheken.

  • SparkR ist nicht für Cluster verfügbar, die mit einem benutzerdefinierten System erstellt wurdenAMI, da R nicht standardmäßig auf Clusterknoten installiert ist.

Version 5.11.3

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.11.3. Änderungen beziehen sich auf Version 5.11.2.

Erste Version: 18. Juli 2019

Änderungen, Verbesserungen und behobene Probleme
  • Die Standardversion von Amazon Linux AMI für Amazon wurde aktualisiert und enthält EMR nun wichtige Sicherheitsupdates für den Linux-Kernel, einschließlich des TCP SACK Denial-of-Service-Problems (AWS-2019-005).

Version 5.11.2

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.11.2. Änderungen beziehen sich auf Version 5.11.1.

Erste Version: 29. August 2018

Änderungen, Verbesserungen und behobene Probleme
  • Diese Version behebt eine potenzielle Schwachstellen.

Version 5.11.1

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.11.1. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.11.0.

Erste Version: 22. Januar 2018

Änderungen, Verbesserungen und behobene Probleme

  • Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiert, EMR um Sicherheitslücken im Zusammenhang mit spekulativer Ausführung zu beheben (CVE-2017-5715, -2017-5753 und CVE -2017-5754). CVE Weitere Informationen finden Sie unter https://aws.amazon.com/security/security-bulletins/AWS-2018-013/.

Bekannte Probleme

  • MXNetenthält keine OpenCV-Bibliotheken.

  • Hive 2.3.2 setzt hive.compute.query.using.stats=true standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mit hive.compute.query.using.stats=true verfügen und neue Dateien in die Tabelle LOCATION hochladen, gibt die Abfrage SELECT COUNT(*) in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.

    Um dieses Problem zu umgehen, verwenden Sie den Befehl ANALYZE TABLE, um neue Statistiken zu sammeln, oder legen Sie hive.compute.query.using.stats=false fest. Weitere Informationen finden Sie unter Statistics in Hive in der Apache Hive-Dokumentation.

Version 5.11.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.11.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.10.0.

Upgrades

Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen.

  • Hive 2.3.2

  • Spark 2.2.1

  • SDKfür Java 1.11.238

Neue Features

  • Spark

    • Die Einstellung spark.decommissioning.timeout.threshold wurde hinzugefügt, was das Verhalten von Spark bei der Außerbetriebnahme bei Verwendung von Spot-Instances verbessert. Weitere Informationen finden Sie unter Verhalten der Außerbetriebnahme von Knoten konfigurieren.

    • Die aws-sagemaker-spark-sdk Komponente wurde zu Spark hinzugefügt, die Amazon SageMaker Spark und zugehörige Abhängigkeiten für die Spark-Integration mit Amazon installiert SageMaker. Sie können Amazon SageMaker Spark verwenden, um Spark-Pipelines für maschinelles Lernen (ML) mithilfe von SageMaker Amazon-Stufen zu erstellen. Weitere Informationen finden Sie in der SageMaker Spark-Readme-Datei GitHub und unter Using Apache Spark with Amazon SageMaker im Amazon SageMaker Developer Guide.

Bekannte Probleme

  • MXNetenthält keine OpenCV-Bibliotheken.

  • Hive 2.3.2 setzt hive.compute.query.using.stats=true standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mit hive.compute.query.using.stats=true verfügen und neue Dateien in die Tabelle LOCATION hochladen, gibt die Abfrage SELECT COUNT(*) in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.

    Um dieses Problem zu umgehen, verwenden Sie den Befehl ANALYZE TABLE, um neue Statistiken zu sammeln, oder legen Sie hive.compute.query.using.stats=false fest. Weitere Informationen finden Sie unter Statistics in Hive in der Apache Hive-Dokumentation.

Version 5.10.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.10.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.9.0.

Upgrades

Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen.

  • AWS SDK for Java 1.11.221

  • Hive 2.3.1

  • Presto 0.187

Neue Features

Änderungen, Verbesserungen und behobene Probleme

  • Presto

  • Spark

    • SPARK-20640 wurde zurückportiert, wodurch das RPC-Timeout und die Wiederholungsversuche für Shuffle-Registrierungswerte mithilfe von Eigenschaften konfiguriert werden können. spark.shuffle.registration.timeout spark.shuffle.registration.maxAttempts

    • SPARK-21549 wurde zurückportiert, wodurch ein Fehler behoben wird, der beim Schreiben von benutzerdefinierten Daten an andere Speicherorte auftritt. OutputFormat HDFS

  • Rückportierung von Hadoop-13270

  • Die Bibliotheken Numpy, Scipy und Matplotlib wurden aus dem Basis-Amazon entfernt. EMR AMI Wenn diese Bibliotheken für Ihre Anwendung erforderlich sind, werden sie im folgenden Repository bereitgestellt, sodass Sie sie unter Verwendung einer Bootstrap-Aktion mit yum install auf allen Knoten installieren können.

  • In der EMR Amazon-Basis sind AMI keine RPM Anwendungspakete mehr enthalten, sodass die RPM Pakete nicht mehr auf Clusterknoten vorhanden sind. Custom AMIs und Amazon EMR Base verweisen AMI jetzt auf das RPM Paket-Repository in Amazon S3.

  • Aufgrund der Einführung der sekundengenauen Abrechnung in Amazon EC2 lautet das Standardverhalten beim Herunterfahren jetzt bei Abschluss der Aufgabe beenden und nicht mehr bei Instance-Stunde beenden. Weitere Informationen finden Sie unter Konfigurieren eines Cluster-Scale-Downs.

Bekannte Probleme

  • MXNetenthält keine OpenCV-Bibliotheken.

  • Hive 2.3.1 setzt hive.compute.query.using.stats=true standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mit hive.compute.query.using.stats=true verfügen und neue Dateien in die Tabelle LOCATION hochladen, gibt die Abfrage SELECT COUNT(*) in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.

    Um dieses Problem zu umgehen, verwenden Sie den Befehl ANALYZE TABLE, um neue Statistiken zu sammeln, oder legen Sie hive.compute.query.using.stats=false fest. Weitere Informationen finden Sie unter Statistics in Hive in der Apache Hive-Dokumentation.

Version 5.9.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.9.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.8.0.

Veröffentlichungsdatum: 5. Oktober 2017

Letzte Aktualisierung der Funktionen: 12. Oktober 2017

Upgrades

Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen.

  • AWS SDK for Java Version 1.11.183

  • Flink 1.3.2

  • Hue 4.0.1

  • Pig 0.17.0

  • Presto 0.184

Neue Features

  • Livy-Support hinzugefügt (Version 0.4.0-incubating). Weitere Informationen finden Sie unter Apache Livy.

  • Support für Hue-Notebooks für Spark hinzugefügt.

  • Unterstützung für EC2 Amazon-Instances der i3-Serie hinzugefügt (12. Oktober 2017).

Änderungen, Verbesserungen und behobene Probleme

  • Spark

    • Neue Funktionen hinzugefügt, die sicherstellen, dass Spark die Knotenbeendigung infolge einer manuellen Größenänderung oder einer Anforderung einer Auto Scaling-Richtlinie zuverlässiger ausführt. Weitere Informationen finden Sie unter Verhalten der Außerbetriebnahme von Knoten konfigurieren.

    • SSLwird anstelle von 3 DES für die Verschlüsselung während der Übertragung für den Blocktransfer-Service verwendet, wodurch die Leistung bei der Verwendung von EC2 Amazon-Instance-Typen mit AES -NI verbessert wird.

    • Rückportiert -21494SPARK.

  • Zeppelin

  • HBase

    • Patch HBASE-18533 wurde hinzugefügt, der zusätzliche Werte für die Konfiguration mithilfe der HBase BucketCache Konfigurationsklassifizierung ermöglicht. hbase-site

  • Hue

    • AWS Glue Data Catalog-Unterstützung für den Hive-Abfrageeditor in Hue hinzugefügt.

    • Standardmäßig können Superuser in Hue auf alle Dateien zugreifen, auf die EMR IAM Amazon-Rollen zugreifen dürfen. Neu erstellte Benutzer verfügen nicht automatisch über Zugriffsberechtigungen auf den Amazon-S3-Filebrowser und für ihre Gruppen müssen die filebrowser.s3_access-Berechtigungen aktiviert sein.

  • Es wurde ein Problem behoben, das dazu führte, dass auf die zugrunde liegenden JSON Daten, die mit dem AWS Glue-Datenkatalog erstellt wurden, nicht zugegriffen werden konnte.

Bekannte Probleme

  • Der Clusterstart schlägt fehl, wenn alle Anwendungen installiert sind und die Standardgröße des EBS Amazon-Root-Volumes nicht geändert wird. Um das Problem zu umgehen, verwenden Sie den aws emr create-cluster Befehl von AWS CLI und geben Sie einen größeren --ebs-root-volume-size Parameter an.

  • Hive 2.3.0 setzt hive.compute.query.using.stats=true standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mit hive.compute.query.using.stats=true verfügen und neue Dateien in die Tabelle LOCATION hochladen, gibt die Abfrage SELECT COUNT(*) in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.

    Um dieses Problem zu umgehen, verwenden Sie den Befehl ANALYZE TABLE, um neue Statistiken zu sammeln, oder legen Sie hive.compute.query.using.stats=false fest. Weitere Informationen finden Sie unter Statistics in Hive in der Apache Hive-Dokumentation.

Version 5.8.2

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.8.2. Änderungen beziehen sich auf Version 5.8.1.

Erste Version: 29. März 2018

Änderungen, Verbesserungen und behobene Probleme
  • Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiertEMR, um potenzielle Sicherheitslücken zu beheben.

Version 5.8.1

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.8.1. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.8.0.

Erste Version: 22. Januar 2018

Änderungen, Verbesserungen und behobene Probleme

  • Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiert, EMR um Sicherheitslücken im Zusammenhang mit spekulativer Ausführung zu beheben (CVE-2017-5715, -2017-5753 und CVE -2017-5754). CVE Weitere Informationen finden Sie unter https://aws.amazon.com/security/security-bulletins/AWS-2018-013/.

Version 5.8.0

Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.8.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.7.0.

Erste Version: 10. August 2017

Letzte Aktualisierung der Funktionen: 25. September 2017

Upgrades

Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen:

  • AWS SDK1.11.160

  • Flink 1.3.1

  • Hive 2.3.0. Weitere Informationen finden Sie in den Versionshinweisen auf der Apache-Hive-Website.

  • Spark 2.2.0. Weitere Informationen finden Sie in den Versionshinweisen auf der Apache-Spark-Website.

Neue Features

  • Support zur Anzeige des Anwendungsverlaufs hinzugefügt (25. September 2017). Weitere Informationen finden Sie unter Anwendungsverlauf anzeigen im Amazon EMR Management Guide.

Änderungen, Verbesserungen und behobene Probleme

  • Integration mit dem AWS Glue-Datenkatalog

  • Der Anwendungsverlauf wurde zu den Cluster-Details hinzugefügt, sodass Sie historische Daten für YARN Anwendungen und zusätzliche Details für Spark-Anwendungen anzeigen können. Weitere Informationen finden Sie unter Anwendungsverlauf anzeigen im Amazon EMR Management Guide.

  • Oozie

  • Hue

  • HBase

    • Es wurde ein Patch hinzugefügt, um die Startzeit des HBase Masterservers mithilfe von Java Management Extensions () JMX anzuzeigen. getMasterInitializedTime

    • Patch zur Verbesserung der Cluster-Startzeit hinzugefügt.

Bekannte Probleme

  • Der Clusterstart schlägt fehl, wenn alle Anwendungen installiert sind und die Standardgröße des EBS Amazon-Root-Volumes nicht geändert wird. Um das Problem zu umgehen, verwenden Sie den aws emr create-cluster Befehl von AWS CLI und geben Sie einen größeren --ebs-root-volume-size Parameter an.

  • Hive 2.3.0 setzt hive.compute.query.using.stats=true standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mit hive.compute.query.using.stats=true verfügen und neue Dateien in die Tabelle LOCATION hochladen, gibt die Abfrage SELECT COUNT(*) in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.

    Um dieses Problem zu umgehen, verwenden Sie den Befehl ANALYZE TABLE, um neue Statistiken zu sammeln, oder legen Sie hive.compute.query.using.stats=false fest. Weitere Informationen finden Sie unter Statistics in Hive in der Apache Hive-Dokumentation.

  • Spark – Bei der Verwendung von Spark tritt bei dem apppusher-Daemon bei Spark-Aufträgen mit langer Ausführungsdauer nach einigen Stunden oder Tagen möglicherweise ein Speicherleck-Problem bei dem Datei-Handler auf. Um das Problem zu beheben, stellen Sie eine Verbindung mit dem Master-Knoten her und geben sudo /etc/init.d/apppusher stop ein. Dadurch wird der Appusher-Daemon gestoppt, den Amazon EMR automatisch neu startet.

  • Application history

    • Es sind keine Verlaufsdaten für beendete Spark-Executors verfügbar.

    • Der Anwendungsverlauf ist nicht für Cluster verfügbar, die eine Sicherheitskonfiguration verwenden, um die Verschlüsselung bei der Übertragung zu aktivieren.

Version 5.7.0

Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.7.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.6.0.

Veröffentlichungsdatum: 13. Juli 2017

Upgrades

  • Flink 1.3.0

  • Phoenix 4.11.0

  • Zeppelin 0.7.2

Neue Features

  • Es wurde die Möglichkeit hinzugefügt, ein benutzerdefiniertes Amazon Linux anzugebenAMI, wenn Sie einen Cluster erstellen. Weitere Informationen finden Sie unter Benutzerdefiniert verwenden AMI.

Änderungen, Verbesserungen und behobene Probleme

  • HBase

    • Es wurde die Möglichkeit hinzugefügt, HBase Read-Replica-Cluster zu konfigurieren. Weitere Informationen finden Sie unter Verwenden eines Read-Replica-Clusters.

    • Mehrere Fehlerbehebungen und Verbesserungen

  • Presto – neue Konfigurationsfunktion node.properties hinzugefügt.

  • YARN- Fähigkeit zur Konfiguration hinzugefügt container-log4j.properties

  • Sqoop - rückportiert SQOOP-2880, was ein Argument einführt, mit dem Sie das temporäre Sqoop-Verzeichnis festlegen können.

Version 5.6.0

Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 5.6.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.5.0.

Veröffentlichungsdatum: 5. Juni 2017

Upgrades

  • Flink 1.2.1

  • HBase1.3.1

  • Mahout 0.13.0. Dies ist die erste Version von Mahout, die Spark 2.x in EMR Amazon-Version 5.0 und höher unterstützt.

  • Spark 2.1.1

Änderungen, Verbesserungen und behobene Probleme

  • Presto

    • Es wurde die Möglichkeit hinzugefügt, die Kommunikation zwischen Presto-Knoten zu SSL aktivieren/zu TLS sichern, indem die Verschlüsselung während der Übertragung mithilfe einer Sicherheitskonfiguration aktiviert wird. Weitere Informationen finden Sie unter Datenverschlüsselung während der Übertragung.

    • Presto 7661 wurde rückportiert, wodurch der Anweisung EXPLAIN ANALYZE die Option VERBOSE hinzugefügt wurde, um detailliertere Low-Level-Statistiken über einen Abfrageplan bereitzustellen.

Version 5.5.3

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.5.3. Änderungen beziehen sich auf Version 5.5.2.

Erste Version: 29. August 2018

Änderungen, Verbesserungen und behobene Probleme
  • Diese Version behebt eine potenzielle Schwachstellen.

Version 5.5.2

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.5.2. Änderungen beziehen sich auf Version 5.5.1.

Erste Version: 29. März 2018

Änderungen, Verbesserungen und behobene Probleme
  • Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiertEMR, um potenzielle Sicherheitslücken zu beheben.

Version 5.5.1

Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 5.5.1. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.5.0.

Erste Version: 22. Januar 2018

Änderungen, Verbesserungen und behobene Probleme

  • Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiert, EMR um Sicherheitslücken im Zusammenhang mit spekulativer Ausführung zu beheben (CVE-2017-5715, -2017-5753 und CVE -2017-5754). CVE Weitere Informationen finden Sie unter https://aws.amazon.com/security/security-bulletins/AWS-2018-013/.

Version 5.5.0

Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.5.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.4.0.

Veröffentlichungsdatum: 26. April 2017

Upgrades

  • Hue 3.12

  • Presto 0.170

  • Zeppelin 0.7.1

  • ZooKeeper 3.4.10

Änderungen, Verbesserungen und behobene Probleme

  • Spark

  • Flink

    • Flink ist nun in Scala 2.11 integriert. Wenn Sie Scala API und Bibliotheken verwenden, empfehlen wir Ihnen, Scala 2.11 in Ihren Projekten zu verwenden.

    • Ein Problem wurde behoben, bei dem die Standardeinstellungen HADOOP_CONF_DIR und YARN_CONF_DIR nicht ordnungsgemäß festgelegt wurden, sodass start-scala-shell.sh nicht funktionierte. Außerdem wurde die Möglichkeit hinzugefügt, diese Werte mit env.hadoop.conf.dir und env.yarn.conf.dir in /etc/flink/conf/flink-conf.yaml oder der Konfigurationsklassifizierung flink-conf festzulegen.

    • Es wurde ein neuer EMR -spezifischer Befehl flink-scala-shell als Wrapper für eingeführt. start-scala-shell.sh Wir empfehlen, diese Befehl statt start-scala-shell zu verwenden. Der neue Befehl vereinfacht die Ausführung. Beispielsweise startet flink-scala-shell -n 2 eine Flink Scala-Shell mit einer Aufgabenparallelität von 2.

    • Es wurde ein neuer EMR -spezifischer Befehl flink-yarn-session als Wrapper für eingeführt. yarn-session.sh Wir empfehlen, diese Befehl statt yarn-session zu verwenden. Der neue Befehl vereinfacht die Ausführung. Beispielsweise startet flink-yarn-session -d -n 2 eine langlebige Flink-Sitzung in einem getrennten Status mit zwei Aufgabenmanagern.

    • Der adressierte (FLINK-6125) Commons-Httpclient ist in Flink 1.2 nicht mehr schattiert.

  • Presto

    • Unterstützung für Authentifizierung hinzugefügt. LDAP Für die Verwendung LDAP mit Presto bei Amazon EMR müssen Sie den HTTPS Zugriff für den Presto-Koordinator (http-server.https.enabled=trueinconfig.properties) aktivieren. Einzelheiten zur Konfiguration finden Sie in der LDAPPresto-Dokumentation unter Authentifizierung.

    • Unterstützung für SHOW GRANTS hinzugefügt.

  • Amazon EMR Base Linux AMI

    • EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2017.03. Weitere Informationen finden Sie in den Versionshinweisen zu Amazon Linux AMI 2017.03.

    • Python 2.6 wurde aus dem EMR Linux-Basisimage von Amazon entfernt. Python 2.7 und 3.4 sind standardmäßig installiert. Sie können Python 2.6 bei Bedarf manuell installieren.

Version 5.4.0

Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.4.0. Die Änderungen beziehen sich auf die Version EMR 5.3.0 von Amazon.

Veröffentlichungsdatum: 8. März 2017

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Flink 1.2.0

  • Upgrade auf Hbase 1.3.0

  • Upgrade auf Phoenix 4.9.0

    Anmerkung

    Wenn Sie ein Upgrade von einer früheren Version von Amazon EMR auf EMR Amazon-Version 5.4.0 oder höher durchführen und die sekundäre Indizierung verwenden, aktualisieren Sie lokale Indizes wie in der Apache Phoenix-Dokumentation beschrieben. Amazon EMR entfernt die erforderlichen Konfigurationen aus der hbase-site Klassifizierung, aber die Indizes müssen neu gefüllt werden. Online- und Offline-Upgrades von Indizes werden unterstützt. Online-Upgrades sind die Standardeinstellung. Dies bedeutet, dass Indizes neu gefüllt werden, während die Initialisierung von Phoenix-Clients Version 4.8.0 oder höher ausgeführt wird. Um Offline-Upgrades anzugeben, setzen Sie die phoenix.client.localIndexUpgrade Konfiguration in der phoenix-site Klassifizierung auf False und dann SSH auf den Master-Knoten, der ausgeführt werden soll. psql [zookeeper] -1

  • Upgrade auf Presto 0.166

  • Upgrade auf Zeppelin 0.7.0

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-5.4.0 vorgenommen:

Version 5.3.1

Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 5.3.1. Die Änderungen beziehen sich auf die Version EMR 5.3.0 von Amazon.

Veröffentlichungsdatum: 7. Februar 2017

Kleinere Änderungen am Backport von Zeppelin-Patches und an der Aktualisierung der Standardeinstellung AMI für Amazon. EMR

Version 5.3.0

Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.3.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.2.1.

Veröffentlichungsdatum: 26. Januar 2017

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Hive 2.1.1

  • Upgrade auf Hue 3.11.0

  • Upgrade auf Spark 2.1.0

  • Upgrade auf Oozie 4.3.0

  • Upgrade auf Flink 1.1.4

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-5.3.0 vorgenommen:

  • Ein Patch für Hue wurde hinzugefügt, mit dem Sie die Einstellung interpreters_shown_on_wheel verwenden können, um zu konfigurieren, was Interpreter in der Notebook-Auswahl als Erstes anzeigen, unabhängig von ihrer Reihenfolge in der Datei hue.ini.

  • Die Konfigurationsklassifizierung hive-parquet-logging wurde hinzugefügt, mit der Sie Werte in der Hive-Datei parquet-logging.properties konfigurieren können.

Version 5.2.2

Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 5.2.2. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.2.1.

Veröffentlichungsdatum: 2. Mai 2017

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Backported SPARK-194459, wodurch ein Problem behoben wurde, bei dem das Lesen aus einer ORC Tabelle mit char/varchar-Spalten fehlschlagen kann.

Version 5.2.1

Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 5.2.1. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.2.0.

Veröffentlichungsdatum: 29. Dezember 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Presto 0.157.1. Weitere Informationen finden Sie in den Presto-Versionshinweisen in der Presto-Dokumentation.

  • Upgrade auf ZooKeeper 3.4.9. Weitere Informationen finden Sie in den ZooKeeper Versionshinweisen in der ZooKeeper Apache-Dokumentation.

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-5.2.1 vorgenommen:

  • Unterstützung für den Instance-Typ Amazon EC2 m4.16xlarge in EMR Amazon-Version 4.8.3 und höher hinzugefügt, ausgenommen 5.0.0, 5.0.3 und 5.2.0.

  • EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

  • Der Speicherort von Flink und die YARN Konfigurationspfade sind jetzt standardmäßig festgelegt/etc/default/flink, sodass Sie die Umgebungsvariablen nicht festlegen müssen FLINK_CONF_DIR und HADOOP_CONF_DIR wenn Sie die flink oder yarn-session.sh -Treiberskripte ausführen, um Flink-Jobs zu starten.

  • Unterstützung für FlinkKinesisConsumer Klassen hinzugefügt.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem in Hadoop behoben, bei dem der ReplicationMonitor Thread aufgrund eines Wettlaufs zwischen Replikation und Löschung derselben Datei in einem großen Cluster für lange Zeit hängen bleiben konnte.

  • Es wurde ein Problem behoben, bei dem ControlledJob # mit einer Nullzeiger-Ausnahme (NPE) toString fehlschlug, wenn der Jobstatus nicht erfolgreich aktualisiert wurde.

Version 5.2.0

Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.2.0. Die Änderungen beziehen sich auf die Version EMR 5.1.0 von Amazon.

Veröffentlichungsdatum: 21. November 2016

Änderungen und Verbesserungen

Die folgenden Änderungen und Verbesserungen sind in dieser Version verfügbar:

  • Amazon S3 S3-Speichermodus für hinzugefügtHBase.

  • Ermöglicht es Ihnen, einen Amazon S3 S3-Speicherort für das HBase Rootdir anzugeben. Weitere Informationen finden Sie HBaseunter Amazon S3.

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Spark 2.0.2

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben, bei dem /mnt bei Instance-Typen EBS nur auf 2 TB beschränkt war.

  • Es wurde ein Problem mit Instance-Controller und Logpusher-Protokollen behoben, die an die entsprechenden OUT-Dateien anstelle ihrer üblichen log4j-konfigurierten LOG-Dateien, die stündlich rotieren, ausgegeben wurden. Da die OUT-Dateien nicht rotieren, ist letztendlich die /emr-Partition belegt. Dieses Problem betrifft nur Hardware-Instanztypen für virtuelle Maschinen (HVM).

Version 5.1.0

Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.1.0. Die Änderungen beziehen sich auf die Version EMR 5.0.0 von Amazon.

Veröffentlichungsdatum: 03. November 2016

Änderungen und Verbesserungen

Die folgenden Änderungen und Verbesserungen sind in dieser Version verfügbar:

  • Flink 1.1.3 wird jetzt unterstützt.

  • Presto wurde als Option im Notebookabschnitt von Hue hinzugefügt.

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Auf 1.2.3 aktualisiert HBase

  • Upgrade auf Zeppelin 0.6.2

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem mit Tez-Abfragen auf Amazon S3 behoben, bei ORC denen Dateien nicht so gut funktionierten wie frühere Amazon EMR 4.x-Versionen.

Version 5.0.3

Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.0.3. Die Änderungen beziehen sich auf die Version EMR 5.0.0 von Amazon.

Veröffentlichungsdatum: 24. Oktober 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Hadoop 2.7.3

  • Es wurde ein Upgrade auf Presto 0.152.3 durchgeführt, das Support für die Presto-Webschnittstelle umfasst. Sie können auf die Presto-Webschnittstelle des Presto-Koordinators über Port 8889 zugreifen. Weitere Informationen über die Presto-Webschnittstelle finden Sie unter Webschnittstelle in der Presto-Dokumentation.

  • Upgrade auf Spark 2.0.1

  • EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Version 5.0.0

Veröffentlichungsdatum: 27. Juli 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Hive 2.1

  • Upgrade auf Presto 0.150

  • Upgrade auf Spark 2.0

  • Upgrade auf Hue 3.10.0

  • Upgrade auf Pig 0.16.0

  • Upgrade auf Tez 0.8.4

  • Upgrade auf Zeppelin 0.6.1

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-5.0.0 oder höher vorgenommen:

  • Amazon EMR unterstützt die neuesten Open-Source-Versionen von Hive (Version 2.1) und Pig (Version 0.16.0). Wenn Sie Hive oder Pig EMR in der Vergangenheit bei Amazon verwendet haben, kann sich dies auf einige Anwendungsfälle auswirken. Weitere Informationen finden Sie unter Hive und Pig.

  • Die Standard-Ausführungs-Engine für Hive und Pig ist jetzt Tez. Um dies zu ändern, bearbeiten Sie die entsprechenden Werte in den Konfigurationsklassifizierungen hive-site bzw. pig-properties.

  • Eine verbesserte Schritt-Debugging-Funktion wurde hinzugefügt. Mit dieser Funktion können Sie die Ursache von Schrittfehlern sehen, wenn der Service die Ursache ermitteln kann. Weitere Informationen finden Sie unter Enhanced Step Debugging im Amazon EMR Management Guide.

  • Anwendungen, die zuvor mit "-Sandbox" endeten, tragen diesen Suffix nicht mehr. Dies kann Ihre Automatisierung, zum Beispiel, wenn Sie Skripts zum Starten von Clustern mit diesen Anwendungen verwenden, unterbrechen. Die folgende Tabelle zeigt Anwendungsnamen in Amazon EMR 4.7.2 im Vergleich zu Amazon EMR 5.0.0.

    Änderungen der Anwendungsnamen
    Amazon EMR 4,7,2 Amazon EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper-Sandkasten ZooKeeper
  • Spark ist jetzt für Scala 2.11 kompiliert.

  • Java 8 ist jetzt der Standard. JVM Alle Anwendungen werden mit der Java 8-Laufzeit ausgeführt. Es sind keine Änderungen am Byte-Codeziel der Anwendungen vorgenommen worden. Die meisten Anwendungen zielen weiterhin auf Java 7 ab.

  • Zeppelin enthält jetzt Authentifizierungsfunktionen. Weitere Informationen finden Sie unter Zeppelin.

  • Es werden jetzt Sicherheitskonfigurationen unterstützt, mit deren Hilfe Sie die Verschlüsselungsoptionen einfacher erstellen und anwenden können. Weitere Informationen finden Sie unter Datenverschlüsselung.

Version 4.9.5

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 4.9.5. Änderungen beziehen sich auf Version 4.9.4.

Erste Version: 29. August 2018

Änderungen, Verbesserungen und behobene Probleme
  • HBase

    • Diese Version behebt eine potenzielle Schwachstellen.

Version 4.9.4

Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 4.9.4. Änderungen beziehen sich auf Version 4.9.3.

Erste Version: 29. März 2018

Änderungen, Verbesserungen und behobene Probleme
  • Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiertEMR, um potenzielle Sicherheitslücken zu beheben.

Version 4.9.3

Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 4.9.3. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.9.2.

Erste Version: 22. Januar 2018

Änderungen, Verbesserungen und behobene Probleme

  • Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiert, EMR um Sicherheitslücken im Zusammenhang mit spekulativer Ausführung zu beheben (CVE-2017-5715, -2017-5753 und CVE -2017-5754). CVE Weitere Informationen finden Sie unter https://aws.amazon.com/security/security-bulletins/AWS-2018-013/.

Version 4.9.2

Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 4.9.2. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.9.1.

Veröffentlichungsdatum: 13. Juli 2017

Kleinere Änderungen, Fehlerbehebungen und Verbesserungen wurden in dieser Version vorgenommen.

Version 4.9.1

Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 4.9.1. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.8.4.

Veröffentlichungsdatum: 10. April 2017

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Backports von HIVE-9976 und -10106 HIVE

  • Es wurde ein Problem behobenYARN, bei dem eine große Anzahl von Knoten (mehr als 2.000) und Containern (mehr als 5.000) zu einem Fehler aufgrund unzureichenden Speichers führte, zum Beispiel:. "Exception in thread 'main' java.lang.OutOfMemoryError"

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-4.9.1 vorgenommen:

Version 4.8.4

Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 4.8.4. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.8.3.

Veröffentlichungsdatum: 7. Februar 2017

Kleinere Änderungen, Fehlerbehebungen und Verbesserungen wurden in dieser Version vorgenommen.

Version 4.8.3

Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 4.8.3. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.8.2.

Veröffentlichungsdatum: 29. Dezember 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Presto 0.157.1. Weitere Informationen finden Sie in den Presto-Versionshinweisen in der Presto-Dokumentation.

  • Upgrade auf Spark 1.6.3. Weitere Informationen finden Sie in den Spark-Versionshinweisen in der Apache-Spark-Dokumentation.

  • Auf ZooKeeper 3.4.9 aktualisiert. Weitere Informationen finden Sie in den ZooKeeper Versionshinweisen in der ZooKeeper Apache-Dokumentation.

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-4.8.3 vorgenommen:

  • Unterstützung für den Instance-Typ Amazon EC2 m4.16xlarge in EMR Amazon-Version 4.8.3 und höher hinzugefügt, ausgenommen 5.0.0, 5.0.3 und 5.2.0.

  • EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem in Hadoop behoben, bei dem der ReplicationMonitor Thread aufgrund eines Wettlaufs zwischen Replikation und Löschung derselben Datei in einem großen Cluster für lange Zeit hängen bleiben konnte.

  • Es wurde ein Problem behoben, bei dem ControlledJob # mit einer Nullzeiger-Ausnahme (NPE) toString fehlschlug, wenn der Jobstatus nicht erfolgreich aktualisiert wurde.

Version 4.8.2

Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 4.8.2. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.8.0.

Veröffentlichungsdatum: 24. Oktober 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Upgrade auf Hadoop 2.7.3

  • Es wurde ein Upgrade auf Presto 0.152.3 durchgeführt, das Support für die Presto-Webschnittstelle umfasst. Sie können auf die Presto-Webschnittstelle des Presto-Koordinators über Port 8889 zugreifen. Weitere Informationen über die Presto-Webschnittstelle finden Sie unter Webschnittstelle in der Presto-Dokumentation.

  • EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Version 4.8.0

Veröffentlichungsdatum: 7. September 2016

Upgrades

Die folgenden Upgrades sind in dieser Version verfügbar:

  • Auf 1.2.2 aktualisiert HBase

  • Upgrade auf Presto-Sandbox 0.151

  • Upgrade auf Tez 0.8.4

  • Upgrade auf Zeppelin-Sandbox 0.6.1

Änderungen und Verbesserungen

Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-4.8.0 vorgenommen:

  • Es wurde ein Problem behobenYARN, bei dem versucht ApplicationMaster wurde, Container zu bereinigen, die nicht mehr existieren, weil ihre Instances beendet wurden.

  • Die Aktionen hive-server2 URL für Hive2 in den Oozie-Beispielen wurden korrigiert.

  • Zusätzliche Presto-Kataloge werden jetzt unterstützt.

  • Rückportierte Patches: HIVE-8948, -12679, -13405, -3116, -12689 HIVE HIVE PHOENIX HADOOP

  • Es werden jetzt Sicherheitskonfigurationen unterstützt, mit deren Hilfe Sie die Verschlüsselungsoptionen einfacher erstellen und anwenden können. Weitere Informationen finden Sie unter Datenverschlüsselung.

Version 4.7.2

Die folgenden Versionshinweise enthalten Informationen für Amazon EMR 4.7.2.

Veröffentlichungsdatum: 15. Juli 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • Upgrade auf Mahout 0.12.2

  • Upgrade auf Presto 0.148

  • Upgrade auf Spark 1.6.2

  • Sie können jetzt eine AWSCredentialsProvider für die EMRFS Verwendung mit a URI als Parameter erstellen. Weitere Informationen finden Sie unter Erstellen eines AWSCredentialsProvider für EMRFS.

  • EMRFSermöglicht es Benutzern jetzt, mithilfe der fs.s3.consistent.dynamodb.endpoint Eigenschaft in einen benutzerdefinierten DynamoDB-Endpunkt für ihre Consistent View-Metadaten zu konfigurieren. emrfs-site.xml

  • Es wurde ein Skript in /usr/bin mit dem Namen spark-example hinzugefügt, das /usr/lib/spark/spark/bin/run-example umschließt, sodass Sie Beispiele direkt ausführen können. Um beispielsweise das SparkPi Beispiel auszuführen, das in der Spark-Distribution enthalten ist, können Sie es spark-example SparkPi 100 von der Befehlszeile aus ausführen oder command-runner.jar als Schritt in der. API

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben, bei dem Oozie die Datei spark-assembly.jar nicht am richtigen Speicherort ablegte, wenn Spark auch installiert war. Dies führte dazu, dass Spark-Anwendungen nicht mit Oozie gestartet werden konnten.

  • Ein Problem mit der auf Spark Log4J basierenden Protokollierung in Containern wurde behoben. YARN

Version 4.7.1

Veröffentlichungsdatum: 10. Juni 2016

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben, das die Startzeit von Clustern verlängerte, die in einem VPC mit privaten Subnetzen gestartet wurden. Der Fehler betraf nur Cluster, die mit der EMR Amazon-Version 4.7.0 gestartet wurden.

  • Es wurde ein Problem behoben, bei dem das Auflisten von Dateien in Amazon EMR für Cluster, die mit der Version Amazon EMR 4.7.0 gestartet wurden, nicht richtig behandelt wurde.

Version 4.7.0

Wichtig

Amazon EMR 4.7.0 ist veraltet. Verwenden Sie stattdessen Amazon EMR 4.7.1 oder höher.

Veröffentlichungsdatum: 2. Juni 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • Apache Phoenix 4.7.0 wurde hinzugefügt.

  • Apache Tez 0.8.3 wurde hinzugefügt.

  • Auf 1.2.1 aktualisiert HBase

  • Upgrade auf Mahout 0.12.0

  • Upgrade auf Presto 0.147

  • Auf 1.10.75 AWS SDK for Java aktualisiert

  • Das letzte Flag wurde von der Eigenschaft mapreduce.cluster.local.dir in mapred-site.xml entfernt, damit Benutzer Pig im lokalen Modus ausführen können.

Amazon Redshift JDBC Redshift-Treiber im Cluster verfügbar

Amazon Redshift JDBC Redshift-Treiber sind jetzt unter /usr/share/aws/redshift/jdbc enthalten. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jarist der JDBC 4.1-kompatible Amazon Redshift Redshift-Treiber und /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar ist der JDBC 4.0-kompatible Amazon Redshift Redshift-Treiber. Weitere Informationen finden Sie unter JDBC Verbindung konfigurieren im Amazon Redshift Management Guide.

Java 8

Mit Ausnahme von Presto ist Open JDK 1.7 der Standard, der für alle JDK Anwendungen verwendet wird. Es sind jedoch sowohl Open JDK 1.7 als auch 1.8 installiert. Informationen zum Festlegen von JAVA_HOME für Anwendungen finden Sie unter Konfigurieren von Anwendungen zur Verwendung von Java 8.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Kernelproblem behoben, das die Leistung von durchsatzoptimierten HDD (st1) EBS Volumes für Amazon EMR in emr-4.6.0 erheblich beeinträchtigte.

  • Es wurde ein Problem behoben, bei dem ein Cluster fehlschlug, wenn eine HDFS Verschlüsselungszone angegeben wurde, ohne Hadoop als Anwendung auszuwählen.

  • Die HDFS Standard-Schreibrichtlinie wurde von RoundRobin zu AvailableSpaceVolumeChoosingPolicy geändert. Einige Volumes wurden mit der RoundRobin Konfiguration nicht richtig genutzt, was zu einem Ausfall der Core-Knoten und zu unzuverlässigen Verbindungen HDFS führte.

  • Es wurde ein Problem mit dem behoben EMRFSCLI, das bei der Erstellung der standardmäßigen DynamoDB-Metadatentabelle für konsistente Ansichten zu einer Ausnahme führte.

  • Es wurde ein Deadlock-Problem behobenEMRFS, das möglicherweise bei mehrteiligen Umbenennungs- und Kopiervorgängen auftrat.

  • Es wurde ein Problem behobenEMRFS, das dazu führte, dass die CopyPart Standardgröße 5 MB betrug. Der Standard ist jetzt ordnungsgemäß auf 128 MB eingestellt.

  • Es wurde ein Problem mit der Zeppelin-Startkonfiguration behoben, das möglicherweise das Anhalten des Service verhinderte.

  • Es wurde ein Problem mit Spark und Zeppelin behoben, das Sie daran hinderte, das s3a:// URI Schema zu verwenden, weil es nicht richtig in den jeweiligen Klassenpfad geladen /usr/lib/hadoop/hadoop-aws.jar wurde.

  • Rückportiert -2484. HUE

  • Ein Commit von Hue 3.9.0 (JIRAexistiert nicht) wurde zurückportiert, um ein Problem mit dem Browser-Beispiel zu beheben. HBase

  • Rückportiert -9073HIVE.

Version 4.6.0

Veröffentlichungsdatum: 21. April 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

Problem mit Auswirkungen auf durchsatzoptimierte HDD (st1) Volumetypen EBS

Ein Problem in den Linux-Kernel-Versionen 4.2 und höher beeinträchtigt die Leistung von durchsatzoptimierten HDD (st1) EBS Volumes für erheblich. EMR Diese Version (emr-4.6.0) verwendet die Kernel-Version 4.4.5 und ist daher betroffen. Daher empfehlen wir, emr-4.6.0 nicht zu verwenden, wenn Sie st1-Volumes verwenden möchten. EBS Sie können emr-4.5.0 oder frühere EMR Amazon-Versionen mit st1 ohne Auswirkungen verwenden. Außerdem stellen wir die Problembehebung mit späteren Versionen zur Verfügung.

Python-Standardeinstellungen

Python 3.4 ist jetzt standardmäßig installiert, Python 2.7 bleibt jedoch der Systemstandard. Sie können Python 3.4 mit einer Bootstrap-Aktion als Systemstandard konfigurieren. Sie können die Konfiguration verwenden, API um PYSPARK _ PYTHON export /usr/bin/python3.4 in der spark-env Klassifizierung festzulegen, um die Python-Version zu beeinflussen, die von PySpark verwendet wird.

Java 8

Mit Ausnahme von Presto ist Open JDK 1.7 der Standard, der für alle JDK Anwendungen verwendet wird. Es sind jedoch sowohl Open JDK 1.7 als auch 1.8 installiert. Informationen zum Festlegen von JAVA_HOME für Anwendungen finden Sie unter Konfigurieren von Anwendungen zur Verwendung von Java 8.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben, bei dem die Anwendungsbereitstellung manchmal wegen eines generierten Passwort nach dem Zufallsprinzip ausfiel.

  • Bisher war mysqld auf allen Knoten installiert. Jetzt ist es nur auf der Master-Instance installiert und nur dann, wenn die gewählte Anwendung mysql-server als Komponente enthält. Derzeit enthalten die folgenden Anwendungen die mysql-server Komponente: Hive, HueHCatalog, Presto-Sandbox und Sqoop-Sandbox.

  • Von der Standardeinstellung 32 yarn.scheduler.maximum-allocation-vcores auf 80 geändert, wodurch ein in emr-4.4.0 eingeführtes Problem behoben wird, das hauptsächlich bei Spark auftritt, wenn die maximizeResourceAllocation Option in einem Cluster verwendet wird, dessen Core-Instance-Typ einer von wenigen großen Instance-Typen ist, bei denen die YARN vcores höher als 32 eingestellt sind; nämlich c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge oder m4.10xlarge wurden von diesem Problem betroffen.

  • s3-dist-cp verwendet jetzt EMRFS für alle Amazon S3 S3-Nominierungen und speichert nicht mehr in einem temporären Verzeichnis. HDFS

  • Es wurde ein Problem mit der Ausnahmebehandlung für die clientseitigen Verschlüsselung mehrteiliger Uploads behoben.

  • Es wurde eine Option hinzugefügt, mit der Benutzer die Amazon-S3-Speicherklasse ändern können. Standardmäßig ist diese Einstellung STANDARD. Die Konfigurationsklassifizierungseinstellung emrfs-site ist fs.s3.storageClass und die möglichen Werte sind STANDARD, STANDARD_IA und REDUCED_REDUNDANCY. Weitere Informationen zu Speicherklassen finden Sie unter Speicherklassen im Benutzerhandbuch zu Amazon Simple Storage Service.

Version 4.5.0

Veröffentlichungsdatum: 4. April 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • Upgrade auf Spark 1.6.1

  • Upgrade auf Hadoop 2.7.2

  • Upgrade auf Presto 0.140

  • AWS KMS Unterstützung für serverseitige Amazon S3 S3-Verschlüsselung hinzugefügt.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben, bei dem My SQL - und Apache-Server nach dem Neustart eines Knotens nicht gestartet wurden.

  • Es wurde ein Problem behoben, das mit IMPORT nicht partitionierten Tabellen, die in Amazon S3 gespeichert waren, nicht richtig funktionierte

  • Es wurde ein Problem mit Presto behoben, bei dem das Staging-Verzeichnis beim Schreiben in Hive-Tabellen /mnt/tmp anstatt /tmp lauten muss.

Version 4.4.0

Veröffentlichungsdatum: 14. März 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • 1.0.0 wurde hinzugefügt HCatalog

  • Sqoop-Sandbox 1.4.6 wurde hinzugefügt.

  • Upgrade auf Presto 0.136

  • Upgrade auf Zeppelin 0.5.6

  • Upgrade auf Mahout 0.11.1

  • dynamicResourceAllocation wurde standardmäßig aktiviert.

  • Es wurde eine Tabelle mit allen Konfigurationsklassifizierungen für die Version hinzugefügt. Weitere Informationen finden Sie in der Konfigurationsklassifizierungstabelle unter Konfigurieren von Anwendungen.

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben, bei dem die maximizeResourceAllocation Einstellung nicht genug Speicher für YARN ApplicationMaster Daemons reservierte.

  • Es wurde ein Problem behoben, das bei einem benutzerdefinierten Gerät aufgetreten ist. DNS Wenn Einträge in resolve.conf den angegebenen, benutzerdefinierten Einträge vorangestellt werden, können die benutzerdefinierten Einträge nicht aufgelöst werden. Dieses Verhalten wurde durch Cluster in einem beeinflusst, in VPC dem der VPC Standard-Nameserver als oberster Eintrag eingefügt wurderesolve.conf.

  • Es wurde ein Problem behoben, bei dem die Python-Standardversion auf Version 2.7 geändert wurde und boto für diese Version nicht installiert war.

  • Es wurde ein Problem behoben, bei dem YARN Container und Spark-Anwendungen eine eindeutige Ganglia-Round-Robin-Datenbankdatei (RRD) generierten, was dazu führte, dass die erste Festplatte, die an die Instanz angeschlossen war, voll wurde. Aufgrund dieses Fixes wurden Metriken auf YARN Containerebene und Kennzahlen auf Spark-Anwendungsebene deaktiviert.

  • Es wurde ein Problem im Protokoll-Pusher behoben, bei dem alle leeren Protokollordner gelöscht wurden. Das hatte zur Folge, dass Hive CLI nicht protokollieren konnte, weil der Log-Pusher den leeren user Ordner darunter entfernte. /var/log/hive

  • Es wurde ein Problem mit Hive-Importen behoben, da sich auf die Partitionierung auswirkte und beim Import zu einem Fehler führte.

  • Es wurde ein Problem behoben, bei dem EMRFS s3-dist-cp Bucket-Namen, die Punkte enthielten, nicht richtig behandelte.

  • Das Verhalten wurde EMRFS dahingehend geändert, dass in Buckets mit aktivierter Versionierung die _$folder$ Markierungsdatei nicht kontinuierlich erstellt wird, was zu einer verbesserten Leistung für Buckets mit Versionierung beitragen kann.

  • Das Verhalten wurde EMRFS dahingehend geändert, dass es keine Befehlsdateien verwendet, außer in Fällen, in denen die clientseitige Verschlüsselung aktiviert ist. Wenn Sie Anweisungsdateien bei Verwendung der clientseitigen Verschlüsselung löschen möchten, können Sie die emrfs-site.xml-Eigenschaft, fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled, auf "true" festlegen.

  • Die YARN Protokollaggregation wurde dahingehend geändert, dass die Protokolle zwei Tage lang am Aggregationsziel aufbewahrt werden. Das Standardziel ist der Speicher Ihres ClustersHDFS. Wenn Sie diese Dauer ändern möchten, ändern Sie den Wert yarn.log-aggregation.retain-seconds mit der Konfigurationsklassifizierung yarn-site beim Erstellen Ihres Clusters. Wie immer können Sie Ihre Anwendungsprotokolle beim Erstellen Ihres Clusters mit dem Parameter log-uri in Amazon S3 speichern.

Angewendete Patches

Die folgenden Patches aus Open-Source-Projekten sind in dieser Version enthalten:

Version 4.3.0

Veröffentlichungsdatum: 19. Januar 2016

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • Upgrade auf Hadoop 2.7.1

  • Upgrade auf Spark 1.6.0

  • Upgrade auf Ganglia 3.7.2

  • Upgrade auf Presto 0.130

Amazon EMR hat einige Änderungen daran vorgenommen, spark.dynamicAllocation.enabled wann es auf true gesetzt ist; es ist standardmäßig falsch. Wenn die Einstellung auf "true" festgelegt ist, wirkt sich dies auf von der Einstellung maximizeResourceAllocation vorgenommene Standardeinstellungen aus:

  • Wenn spark.dynamicAllocation.enabled auf "true" eingestellt ist, wird spark.executor.instances nicht von maximizeResourceAllocation festgelegt.

  • Die Einstellung spark.driver.memory wird nun basierend auf den Instance-Typen im Cluster auf ähnliche Weise konfiguriert, wie spark.executors.memory festgelegt wird. Da die Spark-Treiberanwendung jedoch entweder auf der Master- oder auf einer der Core-Instances ausgeführt werden kann (z. B. im YARN Client- bzw. Cluster-Modus), wird die spark.driver.memory Einstellung auf der Grundlage des Instance-Typs des kleineren Instance-Typs zwischen diesen beiden Instance-Gruppen festgelegt.

  • Die spark.default.parallelism Einstellung ist jetzt auf die doppelte Anzahl der für YARN Container verfügbaren CPU Kerne festgelegt. In früheren Versionen war dies die Hälfte des Werts.

  • Die Berechnungen für den für YARN Spark-Prozesse reservierten Speicher-Overhead wurden angepasst, um genauer zu sein, was zu einer geringfügigen Erhöhung der Gesamtspeichermenge führte, die Spark zur Verfügung steht (d. h.spark.executor.memory).

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • YARNDie Protokollaggregation ist jetzt standardmäßig aktiviert.

  • Es wurde ein Problem behoben, bei dem Protokolle nicht in den Amazon S3 S3-Log-Bucket eines Clusters übertragen wurden, wenn die YARN Protokollaggregation aktiviert war.

  • YARNFür Containergrößen gilt jetzt ein neuer Mindestwert von 32 für alle Knotentypen.

  • Es wurde ein Problem mit Ganglia behoben, dass zu übermäßigen Festplatten-E/A-Vorgängen auf dem Master-Knoten in großen Clustern führte.

  • Es wurde ein Problem behoben, das verhinderte, das Anwendungsprotokolle per Push-Verfahren an Amazon S3 übertragen wurden, wenn ein Cluster heruntergefahren wird.

  • Es wurde ein Problem behoben EMRFSCLI, das dazu führte, dass bestimmte Befehle fehlschlugen.

  • Es wurde ein Problem mit Zeppelin behoben, das verhinderte, dass Abhängigkeiten in die Basisdatei geladen wurden. SparkContext

  • Es wurde ein Problem behoben, das aus einer Größenanpassung resultierte bei dem Versuch, Instances hinzuzufügen.

  • Es wurde ein Problem in Hive behoben, bei dem CREATE TABLE AS übermäßig SELECT viele Listenaufrufe an Amazon S3 tätigte.

  • Es wurde ein Problem behoben, bei dem große Cluster nicht ordnungsgemäß bereitgestellt wurden wenn Hue, Oozie und Ganglia installiert sind.

  • Es wurde ein Problem in s3-dist-cp behoben, bei dem ein Beendigungscode gleich Null zurückgegeben wurde, wenn ein Fehler auftrat.

Angewendete Patches

Die folgenden Patches aus Open-Source-Projekten sind in dieser Version enthalten:

Version 4.2.0

Veröffentlichungsdatum: 18. November 2015

Features

Die folgenden Funktionen sind in dieser Version verfügbar:

  • Ganglia-Support wurde hinzugefügt.

  • Upgrade auf Spark 1.5.2

  • Upgrade auf Presto 0.125

  • Upgrade auf Oozie 4.2.0

  • Upgrade auf Zeppelin 0.5.5

  • Auf 1.10.27 AWS SDK for Java aktualisiert

Bekannte Probleme aus den früheren Versionen, die behoben wurden

  • Es wurde ein Problem behoben EMRFSCLI, bei dem der Standardname der Metadatentabelle nicht verwendet wurde.

  • Es wurde ein Problem behoben, das bei der Verwendung von Tabellen mit ORC -back in Amazon S3 auftrat.

  • Es wurde ein Problem behoben, das bei einem Python-Versionskonflikt in der Spark-Konfiguration auftrat.

  • Es wurde ein Problem behoben, bei dem der Status eines YARN Knotens aufgrund von DNS Problemen mit Clustern in einem VPC nicht gemeldet wurde.

  • Es wurde ein Problem behoben, das YARN auftrat, wenn Knoten außer Betrieb genommen wurden, was dazu führte, dass Anwendungen hängenblieben oder neue Anwendungen nicht geplant werden konnten.

  • Es wurde ein Problem behoben, das auftrat, wenn Cluster mit dem Status TIMED _ _ OUT beendet wurden. STARTING

  • Es wurde ein Problem behoben, das auftrat, wenn die EMRFS Scala-Abhängigkeit in andere Builds aufgenommen wurde. Die Scala-Abhängigkeit wurde entfernt.