Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
EMRAmazon-Archiv mit Versionshinweisen
Versionshinweise für alle EMR Amazon-Versionen sind unten verfügbar. Umfassende Versionsinformationen für jede Version finden Sie unter Release-Versionen von Amazon EMR 6.x, Amazon EMR 5.x-Release-Versionen und Amazon EMR 4.x-Release-Versionen.
Um Updates zu erhalten, wenn eine neue EMR Amazon-Version verfügbar ist, abonnieren Sie den RSSFeed für EMR Amazon-Versionshinweise.
Version 6.14.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.14.0. Änderungen beziehen sich auf Version 6.13.0. Informationen zum Zeitplan für die Veröffentlichung finden Sie unter 6.14.0 Änderungsprotokoll.
Neue Features
-
Amazon EMR 6.14.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-2, Flink 1.17.1, Iceberg 1.3.1, and Trino 422.
-
Amazon EMR Managed Scaling ist jetzt in der Region
ap-southeast-3
Asien-Pazifik (Jakarta) für Cluster verfügbar, die Sie mit Amazon EMR 6.14.0 und höher erstellen.
Änderungen, Verbesserungen und behobene Probleme
-
Die Version 6.14.0 optimiert die Protokollverwaltung, wenn Amazon auf Amazon EMR läuft. EC2 Infolgedessen können Sie eine leichte Senkung der Speicherkosten für Ihre Cluster-Protokolle feststellen.
-
Die Version 6.14.0 verbessert den Skalierungs-Workflow, um verschiedene Core-Instances zu berücksichtigen, deren Größe für ihre EBS Amazon-Volumes erheblich variiert. Diese Verbesserung gilt nur für Core-Knoten; Herunterskalierungs-Operationen für Aufgabenknoten sind davon nicht betroffen.
-
Die Version 6.14.0 verbessert die Art und Weise, wie Amazon mit Open-Source-Anwendungen wie EMR interagiert. Apache Hadoop YARN ResourceManager and HDFS NameNode Diese Verbesserung reduziert das Risiko von Betriebsverzögerungen bei der Cluster-Skalierung und verringert Startup-Fehler, die aufgrund von Verbindungsproblemen mit den Open-Source-Anwendungen auftreten.
-
Die Version 6.14.0 optimiert die Anwendungsinstallation beim Clusterstart. Dies verbessert die Cluster-Startzeiten für bestimmte Kombinationen von EMR Amazon-Anwendungen.
-
Die Version 6.14.0 behebt ein Problem, bei dem Cluster-Scale-Down-Operationen zum Stillstand kommen können, wenn ein Cluster, der in einer VPC mit einer benutzerdefinierten Domain ausgeführt wird, auf einen Core- oder Task-Node-Neustart stößt.
Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als EMR AMI Standard-Amazon-Version. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.
OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen 2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary) 2.0.20240223.0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240131.0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240124.0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240109.0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20231218.0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231206.0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231116.0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231101.0 4,14.327 17. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20230906.0 4,14.322 11. September 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
Version 6.13.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.13.0. Änderungen beziehen sich auf Version 6.12.0. Informationen zum Zeitplan für die Veröffentlichung finden Sie unter 6.13.0 Änderungsprotokoll.
Neue Features
-
Amazon EMR 6.13.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-1, CUDA Toolkit 11.8.0, and JupyterHub 1.5.0.
Änderungen, Verbesserungen und behobene Probleme
-
Die Version 6.13.0 verbessert den Amazon EMR Log Management Daemon, um sicherzustellen, dass alle Protokolle in regelmäßigen Abständen auf Amazon S3 hochgeladen werden, wenn ein Befehl zur Clusterbeendigung ausgegeben wird. Dies ermöglicht schnellere Clusterbeendigungen.
-
Die Version 6.13.0 erweitert die EMR Amazon-Protokollverwaltungsfunktionen, um einen konsistenten und zeitnahen Upload aller Protokolldateien auf Amazon S3 sicherzustellen. Davon profitieren vor allem Cluster mit langer LaufzeitEMR.
Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als EMR AMI Standard-Amazon-Version. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.
OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen 2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary) 2.0.20240223.0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240131.0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240124.0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240109.0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20231218.0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231206.0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231116.0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231101.0 4,14.327 16. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231020.1 4,14.326 7. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231012.1 4,14.326 26. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20230926.0 4,14.322 19. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20230906.0 4,14.322 04. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv)
Version 6.12.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.12.0. Änderungen beziehen sich auf Version 6.11.0. Informationen zum Zeitplan für die Veröffentlichung finden Sie unter 6.12.0 Änderungsprotokoll.
Neue Features
-
Amazon EMR 6.12.0 supports Apache Spark 3.4.0, Apache Spark RAPIDS 23.06.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.1-amzn-0, Apache Iceberg 1.3.0-amzn-0, Trino 414, and PrestoDB 0.281.
-
Amazon EMR veröffentlicht 6.12.0 und höher und unterstützt die LDAP Integration mit Apache Livy, Apache Hive bis HiveServer 2 (HS2), Trino, Presto und Hue. Sie können Apache Spark und Apache Hadoop auch auf einem EMR Cluster installieren, der 6.12.0 oder höher verwendet, und sie für die Verwendung konfigurieren. LDAP Weitere Informationen finden Sie unter Verwenden von Active Directory oder LDAP Servern für die Authentifizierung bei Amazon EMR.
Änderungen, Verbesserungen und behobene Probleme
-
EMRAmazon-Versionen 6.12.0 und höher bieten Java 11-Laufzeitunterstützung für Flink. Weitere Informationen finden Sie unter Flink für die Ausführung mit Java 11 konfigurieren.
-
Die Version 6.12.0 fügt dem Cluster-Skalierungs-Workflow für EMR Cluster, auf denen Presto oder Trino ausgeführt werden, einen neuen Wiederholungsmechanismus hinzu. Diese Verbesserung verringert das Risiko, dass die Clustergrößenänderung aufgrund eines einzigen fehlgeschlagenen Größenänderungsvorgangs auf unbestimmte Zeit zum Stillstand kommt. Sie verbessert auch die Clusterauslastung, da Ihr Cluster schneller hoch- und herunterskaliert wird.
-
Die Version 6.12.0 behebt ein Problem, bei dem Cluster-Herunterskalierungs-Operationen zum Stillstand kommen können, wenn ein Core-Knoten, der einer ordnungsgemäßen Außerbetriebnahme unterzogen wird, aus irgendeinem Grund nicht mehr funktionsfähig ist, bevor er vollständig außer Betrieb genommen wird.
-
Die Version 6.12.0 verbessert die Cluster-Scale-Down-Logik, sodass Ihr Cluster nicht versucht, die Kernknoten unter den für den Cluster eingestellten Replikationsfaktor herunterzuskalieren. HDFS Dies entspricht Ihren Anforderungen an die Datenredundanz und verringert die Wahrscheinlichkeit, dass ein Skalierungsvorgang zum Stillstand kommt.
-
Die Version 6.12.0 verbessert die Leistung und Effizienz des Health Monitoring Service für Amazon, EMR indem die Geschwindigkeit erhöht wird, mit der Statusänderungen für Instances protokolliert werden. Diese Verbesserung verringert das Risiko einer Leistungseinbuße bei Cluster-Knoten, auf denen mehrere benutzerdefinierte Client-Tools oder Drittanbieteranwendungen ausgeführt werden.
-
Die Version 6.12.0 verbessert die Leistung des On-Cluster-Log-Management-Daemons für Amazon. EMR Daher ist die Wahrscheinlichkeit eines Leistungseinbruchs bei EMR Clustern, die Schritte mit hoher Parallelität ausführen, geringer.
-
Mit der EMR Amazon-Version 6.12.0 wurde der Log-Management-Daemon aktualisiert, um alle Protokolle, die aktiv verwendet werden, mit offenen Datei-Handles auf dem lokalen Instance-Speicher und die zugehörigen Prozesse zu identifizieren. Dieses Upgrade stellt sicher, dass Amazon die Dateien EMR ordnungsgemäß löscht und Speicherplatz zurückgewinnt, nachdem die Protokolle auf Amazon S3 archiviert wurden.
-
Die Version 6.12.0 beinhaltet eine Erweiterung des Protokollverwaltungs-Daemons, die leere, unbenutzte Schrittverzeichnisse im lokalen Cluster-Dateisystem löscht. Eine zu große Anzahl leerer Verzeichnisse kann die Leistung der EMR Amazon-Daemons beeinträchtigen und zu einer Überauslastung der Festplatte führen.
-
Die Version 6.12.0 ermöglicht die Protokollrotation für Timeline Server-Protokolle. YARN Dadurch werden Szenarien mit übermäßiger Festplattenauslastung minimiert, insbesondere bei Clustern mit langer Laufzeit.
Die Standardgröße des Root-Volumes wurde in Amazon EMR 6.10.0 und höher auf 15 GB erhöht. Frühere Versionen haben eine Standardgröße für das Root-Volume von 10 GB.
Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als EMR AMI Standard-Amazon-Version. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.
OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen 2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary) 2.0.20240223.0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240131.0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240124.0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240109.0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20231218.0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231206.0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231116.0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231101.0 4,14.327 16. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231020.1 4,14.326 7. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231012.1 4,14.326 26. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20230926.0 4,14.322 19. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20230906.0 4,14.322 04. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230822.0 4,14.322 30. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230719.0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230628.0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada (Zentral)
Version 6.11.1
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.11.1. Änderungen beziehen sich auf Version 6.11.0. Informationen zum Zeitplan für die Veröffentlichung finden Sie unter 6.11.1 Änderungsprotokoll.
Änderungen, Verbesserungen und behobene Probleme
-
Aufgrund von Sperrkonflikten kann ein Knoten in einen Deadlock geraten, wenn er gleichzeitig mit dem Versuch, ihn außer Betrieb zu nehmen, hinzugefügt oder entfernt wird. Infolgedessen reagiert der Hadoop Resource Manager (YARN) nicht mehr und wirkt sich auf alle eingehenden und aktuell laufenden Container aus.
-
Diese Version enthält eine Änderung, die es Hochverfügbarkeitsclustern ermöglicht, nach einem Neustart den Status „Fehler“ wiederherzustellen.
-
Diese Version enthält Sicherheitskorrekturen für Hue und. HBase
-
Diese Version behebt ein Problem, bei dem Cluster, die Workloads auf Spark mit Amazon ausführen, EMR möglicherweise unbemerkt falsche Ergebnisse mit
contains
,startsWith
endsWith
, und erhalten.like
Dieses Problem tritt auf, wenn Sie die Ausdrücke für partitionierte Felder verwenden, die Metadaten im Amazon EMR Hive3 Metastore Server () haben. HMS -
Diese Version behebt ein Problem mit der Drosselung auf der Glue-Seite, wenn keine benutzerdefinierten Funktionen () vorhanden sind. UDF
-
Diese Version behebt ein Problem, bei dem Containerprotokolle vom Node Log Aggregation Service gelöscht werden, bevor Log Pusher sie im Falle einer Außerbetriebnahme an S3 weiterleiten kann. YARN
-
Diese Version behebt ein Problem mit FairShare Scheduler-Metriken, wenn Node Label für Hadoop aktiviert ist.
-
Diese Version behebt ein Problem, das die Leistung von Spark beeinträchtigte, wenn Sie einen
true
-Standardwert für diespark.yarn.heterogeneousExecutors.enabled
-Konfiguration inspark-defaults.conf
festlegen. -
Diese Version behebt ein Problem, bei dem Reduce Task die Shuffle-Daten nicht lesen konnte. Das Problem führte zu Hive-Abfragefehlern mit einem Speicherfehler.
-
Diese Version erweitert den Cluster-Skalierungs-Workflow für EMR Cluster, auf denen Presto oder Trino ausgeführt wird, um einen neuen Wiederholungsmechanismus. Diese Verbesserung verringert das Risiko, dass die Clustergrößenänderung aufgrund eines einzigen fehlgeschlagenen Größenänderungsvorgangs auf unbestimmte Zeit zum Stillstand kommt. Sie verbessert auch die Clusterauslastung, da Ihr Cluster schneller hoch- und herunterskaliert wird.
-
Diese Version verbessert die Cluster-Scale-Down-Logik, sodass Ihr Cluster nicht versucht, die Kernknoten unter die für den Cluster eingestellte Replikationsfaktor-Einstellung herunterzuskalieren. HDFS Dies entspricht Ihren Anforderungen an die Datenredundanz und verringert die Wahrscheinlichkeit, dass ein Skalierungsvorgang zum Stillstand kommt.
-
Der Protokoll-Management-Daemon wurde aktualisiert, um alle Protokolle, die aktiv verwendet werden, mit offenen Datei-Handles auf dem lokalen Instance-Speicher und die zugehörigen Prozesse zu identifizieren. Dieses Upgrade stellt sicher, dass Amazon die Dateien EMR ordnungsgemäß löscht und Speicherplatz zurückgewinnt, nachdem die Protokolle auf Amazon S3 archiviert wurden.
-
Diese Version beinhaltet eine Erweiterung des Protokollverwaltungs-Daemons, die leere, unbenutzte Schrittverzeichnisse im lokalen Cluster-Dateisystem löscht. Eine zu große Anzahl leerer Verzeichnisse kann die Leistung der EMR Amazon-Daemons beeinträchtigen und zu einer Überauslastung der Festplatte führen.
Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als EMR AMI Standard-Amazon-Version. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.
OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen 2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary) 2.0.20240223.0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240131.0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240124.0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20240109.0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia), Kanada West (Calgary) 2.0.20231218.0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231206.0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231116.0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231101.0 4,14.327 16. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231020.1 4,14.326 7. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20231012.1 4,14.326 26. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20230926.0 4,14.322 19. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv), AWS GovCloud (US-West), AWS GovCloud (US-Ost), China (Peking), China (Ningxia) 2.0.20230906.0 4,14.322 04. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230822.0 4,14.322 30. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral)
Version 6.11.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.11.0. Änderungen beziehen sich auf Version 6.10.0. Informationen zum Zeitplan der Veröffentlichung finden Sie im Änderungsprotokoll.
Neue Features
-
Amazon EMR 6.11.0 unterstützt Apache Spark 3.3.2-amzn-0, Apache Spark RAPIDS 23.02.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.0-amzn-0, Apache Iceberg 1.2.0-amzn-0, Trino 410-amzn-0 und PrestoDB 0.279-amzn-0.
Änderungen, Verbesserungen und behobene Probleme
Mit Amazon EMR 6.11.0 wurde der DynamoDB-Connector auf Version 5.0.0 aktualisiert. Version 5.0.0 verwendet. AWS SDK for Java 2.x In früheren Versionen wurde AWS SDK for Java 1.x verwendet. Aufgrund dieses Upgrades empfehlen wir Ihnen dringend, Ihren Code zu testen, bevor Sie den DynamoDB-Connector mit Amazon EMR 6.11 verwenden.
Wenn der DynamoDB-Connector für Amazon EMR 6.11.0 den DynamoDB-Service aufruft, verwendet er den Region-Wert, den Sie für die Eigenschaft angeben.
dynamodb.endpoint
Wir empfehlen, dass Sie auchdynamodb.region
konfigurieren, wenn Siedynamodb.endpoint
verwenden, und dass beide Eigenschaften auf dieselbe AWS-Region abzielen. Wenn Sie verwendendynamodb.endpoint
und nicht konfigurierendynamodb.region
, gibt der DynamoDB-Connector für Amazon EMR 6.11.0 eine ungültige Region-Ausnahme zurück und versucht, Ihre AWS-Region Informationen aus dem EC2 Amazon-Instance-Metadatenservice () abzugleichen. IMDS Wenn der Connector die Region nicht abrufen kannIMDS, verwendet er standardmäßig USA Ost (Nord-Virginia) ().us-east-1
Der folgende Fehler ist ein Beispiel für die ungültige Region-Ausnahme, die möglicherweise angezeigt wird, wenn Sie diedynamodb.region
Eigenschaft nicht richtig konfigurieren:error software.amazon.awssdk.services.dynamodb.model.DynamoDbException: Credential should be scoped to a valid region.
Weitere Informationen zu den Klassen, die vom AWS SDK for Java Upgrade auf 2.x betroffen sind, finden Sie im Commit Upgrade AWS SDK for Java from 1.x auf 2.x (#175)im GitHub Repository für den EMR Amazon-DynamoDB-Connector. Diese Version behebt ein Problem, bei dem Spaltendaten zu
NULL
werden, wenn Sie Delta Lake zum Speichern von Delta-Tabellendaten in Amazon S3 nach dem Spaltenumbenennungsvorgang verwenden. Weitere Informationen zu diesem experimentellen Feature in Delta Lake finden Sie unter Vorgang zum Umbenennen von Spaltenim Delta-Lake-Benutzerhandbuch. -
Die Version 6.11.0 behebt ein Problem, das auftreten kann, wenn Sie einen Edge-Knoten erstellen, indem Sie einen der Primärknoten aus einem Cluster mit mehreren Primärknoten replizieren. Der replizierte Edge-Knoten kann zu Verzögerungen bei Scale-Down-Vorgängen oder zu einer hohen Arbeitsspeicherauslastung auf den Primärknoten führen. Weitere Informationen zum Erstellen eines Edge-Knotens für die Kommunikation mit Ihrem EMR Cluster finden Sie im Repo unter Edge Node
Creator. aws-samples
GitHub -
Die Version 6.11.0 verbessert den Automatisierungsprozess, den Amazon EMR verwendet, um EBS Amazon-Volumes nach einem Neustart erneut in eine Instance einzubinden.
-
Die Version 6.11.0 behebt ein Problem, das zu zeitweiligen Lücken in den Hadoop-Metriken führte, die Amazon auf Amazon EMR veröffentlicht. CloudWatch
-
Die Version 6.11.0 behebt ein Problem mit EMR Clustern, bei dem eine Aktualisierung der YARN Konfigurationsdatei, die die Ausschlussliste der Knoten für den Cluster enthält, aufgrund einer übermäßigen Festplattenauslastung unterbrochen wird. Das unvollständige Update behindert zukünftige Cluster-Herunterskalierungs-Vorgänge. Diese Version stellt sicher, dass Ihr Cluster fehlerfrei bleibt und dass die Skalierungsvorgänge wie erwartet funktionieren.
-
Die Standardgröße des Root-Volumes wurde in Amazon EMR 6.10.0 und höher auf 15 GB erhöht. Frühere Versionen haben eine Standardgröße für das Root-Volume von 10 GB.
-
Mit Hadoop 3.3.3 wurde eine Änderung in YARN (YARN-9608
) eingeführt, die dafür sorgt, dass Knoten, auf denen Container ausgeführt wurden, so lange außer Betrieb genommen werden, bis die Anwendung abgeschlossen ist. Diese Änderung stellt sicher, dass lokale Daten wie Shuffle-Daten nicht verloren gehen und Sie den Auftrag nicht erneut ausführen müssen. Dieser Ansatz kann auch zu einer Unterauslastung von Ressourcen in Clustern mit oder ohne aktivierter verwalteter Skalierung führen. In den EMR Amazon-Versionen 6.11.0 und höher sowie 6.8.1, 6.9.1 und 6.10.1
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
ist der Wert von auffalse
inyarn-site.xml
gesetzt, um dieses Problem zu beheben.Der Fix behebt zwar die Probleme, die durch YARN -9608 eingeführt wurden, kann jedoch dazu führen, dass Hive-Jobs aufgrund von Shuffle-Datenverlusten auf Clustern, für die verwaltete Skalierung aktiviert ist, fehlschlagen. Wir haben dieses Risiko in dieser Version verringert, indem wir auch
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-shuffle-data
für Hive-Workloads eingerichtet haben. Diese Konfiguration ist nur mit EMR Amazon-Versionen 6.11.0 und höher verfügbar. Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als EMR AMI Standard-Amazon-Version. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.
Anmerkung
Diese Version erhält keine automatischen AMI Updates mehr, da ihr eine weitere Patch-Version folgte. Die Patch-Version wird durch die Zahl nach dem zweiten Dezimalpunkt (
6.8.
) gekennzeichnet. Um zu sehen, ob Sie die neueste Patch-Version verwenden, überprüfen Sie die verfügbaren Versionen im Versionshandbuch oder überprüfen Sie das EMRAmazon-Release-Drop-down-Menü, wenn Sie einen Cluster in der Konsole erstellen, oder verwenden Sie die1
list-release-labels
CLIAktionListReleaseLabels
APIoder. Um über neue Versionen informiert zu werden, abonnieren Sie den RSS Feed unter Was ist neu? Seite.OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen 2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary) 2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), Israel (Tel Aviv) 2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230719.0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230628.0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE) 2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE) 2.0.20230504,1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada (Zentral)
Version 6.10.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.10.0. Änderungen beziehen sich auf Version 6.9.0. Informationen zum Zeitplan der Veröffentlichung finden Sie im Änderungsprotokoll.
Neue Features
-
Amazon EMR 6.10.0 unterstützt Apache Spark 3.3.1, Apache Spark RAPIDS 22.12.0, CUDA 11.8.0, Apache Hudi 0.12.2-amzn-0, Apache Iceberg 1.1.0-amzn-0, Trino 403 und PrestoDB 0.278.1.
Amazon EMR 6.10.0 enthält einen nativen Trino-Hudi-Konnektor, der Lesezugriff auf Daten in Hudi-Tabellen ermöglicht. Sie können den Konnektor mit
trino-cli --catalog hudi
aktivieren und den Konnektor für Ihre Anforderungen mittrino-connector-hudi
konfigurieren. EMRDurch die native Integration mit Amazon müssen Sie Hudi-Tabellen nicht mehr abfragen.trino-connector-hive
Eine Liste der unterstützten Konfigurationen mit dem neuen Konnektor finden Sie auf der Hudi-Konnektor-Seiteder Trino-Dokumentation. -
EMRAmazon-Versionen 6.10.0 und höher unterstützen die Apache Zeppelin-Integration mit Apache Flink. Weitere Informationen finden Sie unter Arbeiten mit Flink-Aufträgen von Zeppelin in Amazon EMR.
Bekannte Probleme
Hadoop 3.3.3 führte eine Änderung in YARN (YARN-9608
) ein, die dafür sorgt, dass Knoten, auf denen Container liefen, außer Betrieb genommen werden, bis die Anwendung abgeschlossen ist. Diese Änderung stellt sicher, dass lokale Daten wie Shuffle-Daten nicht verloren gehen und Sie den Auftrag nicht erneut ausführen müssen. Dieser Ansatz kann auch zu einer Unterauslastung von Ressourcen in Clustern mit oder ohne aktivierter verwalteter Skalierung führen. Um dieses Problem in Amazon EMR 6.10.0 zu umgehen, können Sie den Wert
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
auffalse
inyarn-site.xml
setzen. In den EMR Amazon-Versionen 6.11.0 und höher sowie 6.8.1, 6.9.1 und 6.10.1 ist die Konfigurationfalse
standardmäßig auf eingestellt, um dieses Problem zu beheben.
Änderungen, Verbesserungen und behobene Probleme
Amazon EMR 6.10.0 entfernt die Abhängigkeit von der Amazon Redshift Redshift-Integration minimal-json.jar für Apache Spark und fügt automatisch die erforderlichen Spark-Redshift-bezogenen JAR-Dateien zum Executor-Klassenpfad für Spark hinzu:, und.
spark-redshift.jar
spark-avro.jar
RedshiftJDBC.jar
-
Die Version 6.10.0 verbessert den On-Cluster-Log-Management-Daemon zur Überwachung zusätzlicher Protokollordner in Ihrem Cluster. EMR Durch diese Verbesserung werden Szenarien mit übermäßiger Festplattenauslastung minimiert.
-
Die Version 6.10.0 startet den Protokoll-Management-Daemon auf dem Cluster automatisch neu, wenn er beendet wird. Durch diese Verbesserung wird das Risiko verringert, dass Knoten aufgrund übermäßiger Festplattenauslastung als fehlerhaft erscheinen.
-
Amazon EMR 6.10.0 unterstützt regionale Endpunkte für die EMRFS Benutzerzuweisung.
-
Die Standardgröße des Root-Volumes wurde in Amazon EMR 6.10.0 und höher auf 15 GB erhöht. Frühere Versionen haben eine Standardgröße für das Root-Volume von 10 GB.
-
Die Version 6.10.0 behebt ein Problem, das dazu führte, dass Spark-Jobs zum Stillstand kamen, wenn sich alle verbleibenden Spark-Executoren auf einem außer Betrieb genommenen Host mit dem Resource Manager befanden. YARN
Bei Amazon EMR 6.6.0 bis 6.9.x haben INSERT Abfragen mit dynamischer Partition und einer ORDER BY- oder SORT BY-Klausel immer zwei Reducer. Dieses Problem wird durch die OSS Änderung HIVE-20703
verursacht, die die Optimierung dynamischer Sortierpartitionen einer kostenbasierten Entscheidung unterstellt. Wenn Ihr Workload keine Sortierung dynamischer Partitionen erfordert, empfehlen wir Ihnen, die hive.optimize.sort.dynamic.partition.threshold
-Eigenschaft auf-1
zu setzen, um das neue Feature zu deaktivieren und die korrekt berechnete Anzahl von Reduzierern zu erhalten. Dieses Problem wurde in OSS Hive als Teil von HIVE-22269 und in Amazon6.10.0 behoben. EMR Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als EMR AMI Standard-Amazon-Version. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.
Anmerkung
Diese Version erhält keine automatischen AMI Updates mehr, da ihr eine weitere Patch-Version folgte. Die Patch-Version wird durch die Zahl nach dem zweiten Dezimalpunkt (
6.8.
) gekennzeichnet. Um zu sehen, ob Sie die neueste Patch-Version verwenden, überprüfen Sie die verfügbaren Versionen im Versionshandbuch oder überprüfen Sie das EMRAmazon-Release-Drop-down-Menü, wenn Sie einen Cluster in der Konsole erstellen, oder verwenden Sie die1
list-release-labels
CLIAktionListReleaseLabels
APIoder. Um über neue Versionen informiert zu werden, abonnieren Sie den RSS Feed unter Was ist neu? Seite.OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen 2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary) 2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), Israel (Tel Aviv) 2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230719.0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230628.0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE) 2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE) 2.0.20230504,1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE) 2.0.20230418,0 4,14.311 3. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Zürich), Europa (Mailand), Europa (Spanien), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Jak-Pazifik) Arta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE) 2.0.20230404,1 4,14.311 18. April 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE) 2.0.20230404,0 4,14.311 10. April 2023 USA Ost (Nord-Virginia), Europa (Paris) 2.0.20230320.0 4,14.309 30. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE) 2.0.20230207,0 4,14.304 22. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE)
Version 6.9.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.9.0. Die Änderungen beziehen sich auf EMR Amazon-Version 6.8.0. Informationen zum Zeitplan der Veröffentlichung finden Sie im Änderungsprotokoll.
Neue Features
EMRAmazon-Version 6.9.0 unterstützt Apache Spark RAPIDS 22.08.0, Apache Hudi 0.12.1, Apache Iceberg 0.14.1, Trino 398 und Tez 0.10.2.
EMRAmazon-Version 6.9.0 enthält eine neue Open-Source-Anwendung, Delta Lake 2.1.0.
Die Amazon Redshift Redshift-Integration für Apache Spark ist in EMR Amazon-Versionen 6.9.0 und höher enthalten. Die native Integration war bisher ein Open-Source-Tool und ist ein Spark-Konnektor, mit dem Sie Apache-Spark-Anwendungen erstellen können, die Daten in Amazon Redshift und Amazon Redshift Serverless lesen und in diese schreiben. Weitere Informationen finden Sie unter Verwenden der Amazon Redshift Redshift-Integration für Apache Spark mit Amazon EMR .
Die EMR Amazon-Version 6.9.0 bietet Unterstützung für die Archivierung von Protokollen in Amazon S3 während der Cluster-Scale-Down. Bisher konnten Sie Protokolldateien nur während der Clusterbeendigung in Amazon S3 archivieren. Die neue Funktion stellt sicher, dass auf dem Cluster generierte Protokolldateien auch nach dem Beenden des Knotens auf Amazon S3 bestehen bleiben. Weitere Informationen finden Sie unter Konfigurieren der Cluster-Protokollierung und des Debuggings.
Um Abfragen mit langer Laufzeit zu unterstützen, verfügt Trino jetzt über einen fehlertoleranten Ausführungsmechanismus. Die fehlertolerante Ausführung minimiert Abfragefehler, indem fehlgeschlagene Abfragen oder deren Komponentenaufgaben wiederholt werden. Weitere Informationen finden Sie unter Fehlertolerante Ausführung in Trino.
Sie können Apache Flink on Amazon EMR für die Vereinheitlichung
BATCH
undSTREAM
Verarbeitung von Apache Hive-Tabellen oder Metadaten beliebiger Flink-Tabellenquellen wie Iceberg, Kinesis oder Kafka verwenden. Sie können den AWS Glue-Datenkatalog als Metastore für Flink angeben, indem Sie Amazon AWS Management Console, AWS CLI, oder verwenden. EMR API Weitere Informationen finden Sie unter Konfiguration von Flink in Amazon EMR.Sie können jetzt AWS Identity and Access Management (IAM) Runtime-Rollen und AWS Lake Formation basierte Zugriffskontrolle für Apache Spark-, Apache Hive- und Presto-Abfragen auf Amazon EMR auf EC2 Clustern mit Amazon SageMaker Studio angeben. Weitere Informationen finden Sie unter EMR Schritte zur Konfiguration von Runtime-Rollen für Amazon.
Bekannte Probleme
Für die EMR Amazon-Version 6.9.0 funktioniert Trino nicht auf Clustern, die für Apache Ranger aktiviert sind. Wenn Sie Trino mit Ranger verwenden müssen, wenden Sie sich an AWS Support
. Wenn Sie die Amazon-Redshift-Integration für Apache Spark verwenden und eine Zeit, timetz, timestamp oder timestamptz mit Mikrosekundengenauigkeit im Parquet-Format haben, rundet der Konnektor die Zeitwerte auf den nächstliegenden Millisekundenwert. Um das Problem zu umgehen, verwenden Sie den
unload_s3_format
-Formatparameter-Text-Unload.Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
Verbindungen zu EMR Amazon-Clustern von Amazon SageMaker Studio aus können zeitweise fehlschlagen und der Antwortcode 403 Forbidden wird angezeigt. Dieser Fehler tritt auf, wenn die Einrichtung der IAM Rolle im Cluster länger als 60 Sekunden dauert. Um das Problem zu umgehen, können Sie einen EMR Amazon-Patch installieren, um Wiederholungsversuche zu ermöglichen und das Timeout auf mindestens 300 Sekunden zu erhöhen. Verwenden Sie die folgenden Schritte, um die Bootstrap-Aktion anzuwenden, wenn Sie Ihren Cluster starten.
Laden Sie das Bootstrap-Skript und die RPM Dateien vom folgenden Amazon S3 URIs herunter.
s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/replace-rpms.sh s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/emr-secret-agent-1.18.0-SNAPSHOT20221121212949.noarch.rpm
Laden Sie die Dateien aus dem vorherigen Schritt in einen Amazon-S3-Bucket hoch, dessen Eigentümer Sie sind. Der Bucket muss sich in dem Bereich befinden AWS-Region , in dem Sie den Cluster starten möchten.
Schließen Sie beim Starten Ihres EMR Clusters die folgende Bootstrap-Aktion ein. Ersetzen
bootstrap_URI
andRPM_URI
mit dem entsprechenden URIs von Amazon S3.--bootstrap-actions "Path=
bootstrap_URI
,Args=[RPM_URI
]"
In den EMR Amazon-Versionen 5.36.0 und 6.6.0 bis 6.9.0 kann es bei
RecordServer
Servicekomponenten aufgrund einer falschen Konfiguration des Dateinamenmusters in den Log4j2-Eigenschaften zu einem Verlust von Protokolldaten kommen.SecretAgent
Die falsche Konfiguration führt dazu, dass die Komponenten nur eine Protokolldatei pro Tag generieren. Wenn die Rotationsstrategie angewendet wird, überschreibt sie die vorhandene Datei, anstatt wie erwartet eine neue Protokolldatei zu generieren. Um das Problem zu umgehen, verwenden Sie eine Bootstrap-Aktion, um jede Stunde Protokolldateien zu generieren, und fügen Sie eine automatisch inkrementierte Ganzzahl an den Dateinamen an, um die Rotation zu handhaben.Verwenden Sie für Amazon-Versionen EMR 6.6.0 bis 6.9.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Verwenden Sie für Amazon EMR 5.36.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
-
Apache Flink bietet native S3 FileSystem - und FileSystem Hadoop-Konnektoren, mit denen Anwendungen Daten erstellen FileSink und in Amazon S3 schreiben können. Dies FileSink schlägt mit einer der folgenden zwei Ausnahmen fehl.
java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS
Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryPolicies.retryOtherThanRemoteAndSaslException(Lorg/apache/hadoop/io/retry/RetryPolicy;Ljava/util/Map;)Lorg/apache/hadoop/io/retry/RetryPolicy; at org.apache.hadoop.yarn.client.RMProxy.createRetryPolicy(RMProxy.java:302) ~[hadoop-yarn-common-3.3.3-amzn-0.jar:?]
Als Workaround können Sie einen EMR Amazon-Patch installieren, der das oben genannte Problem in Flink behebt. Führen Sie die folgenden Schritte aus, um die Bootstrap-Aktion beim Start Ihres Clusters anzuwenden.
-
Laden Sie das flink-rpm in Ihren Amazon-S3-Bucket herunter. Ihr RPM Weg ist.
s3://
DOC-EXAMPLE-BUCKET
/rpms/flink/ -
Laden Sie das Bootstrap-Skript und die RPM Dateien wie folgt URI von Amazon S3 herunter.
Ersetzen Sie es durch den AWS-Region Ort, an dem Sie den Cluster starten möchten.regionName
s3://emr-data-access-control-
regionName
/customer-bootstrap-actions/gcsc/replace-rpms.sh Hadoop 3.3.3 führte eine Änderung in YARN (YARN-9608
) ein, die dafür sorgt, dass Knoten, auf denen Container liefen, außer Betrieb genommen werden, bis die Anwendung abgeschlossen ist. Diese Änderung stellt sicher, dass lokale Daten wie Shuffle-Daten nicht verloren gehen und Sie den Auftrag nicht erneut ausführen müssen. In Amazon EMR 6.8.0 und 6.9.0 kann dieser Ansatz auch zu einer Unterauslastung von Ressourcen auf Clustern mit oder ohne aktivierte verwaltete Skalierung führen. Mit Amazon EMR 6.10.0 gibt es eine Lösung für dieses Problem, indem Sie den Wert
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
auffalse
in setzen.yarn-site.xml
In den EMR Amazon-Versionen 6.11.0 und höher sowie 6.8.1, 6.9.1 und 6.10.1 ist die Konfigurationfalse
standardmäßig auf eingestellt, um dieses Problem zu beheben.
-
Änderungen, Verbesserungen und behobene Probleme
Für EMR Amazon-Version 6.9.0 und höher verwenden alle von Amazon installierten Komponenten, EMR die Log4j-Bibliotheken verwenden, Log4j Version 2.17.1 oder höher.
-
Wenn Sie den DynamoDB-Connector mit den EMR Versionen 6.6.0, 6.7.0 und 6.8.0 von Spark auf Amazon verwenden, geben alle Lesevorgänge aus Ihrer Tabelle ein leeres Ergebnis zurück, obwohl der Eingabe-Split auf nicht leere Daten verweist. EMRAmazon-Version 6.9.0 behebt dieses Problem.
Amazon EMR 6.9.0 bietet eingeschränkte Unterstützung für die auf Lake Formation basierende Zugriffskontrolle mit Apache Hudi beim Lesen von Daten mit Spark. SQL Die Unterstützung bezieht sich auf SELECT Abfragen, die Spark verwenden, SQL und ist auf die Zugriffskontrolle auf Spaltenebene beschränkt. Weitere Informationen finden Sie unter Hudi und Lake Formation.
Wenn Sie Amazon EMR 6.9.0 verwenden, um einen Hadoop-Cluster mit aktivierten Node Labels
zu erstellen, geben die YARNMetriken aggregierte Informationen für alle Partitionen statt der Standardpartition API zurück. Weitere Informationen finden Sie unter -11414. YARN Mit der EMR Amazon-Version 6.9.0 haben wir Trino auf Version 398 aktualisiert, die Java 17 verwendet. Die vorherige unterstützte Version von Trino für Amazon EMR 6.8.0 war Trino 388, das auf Java 11 lief. Weitere Informationen zu dieser Änderung finden Sie unter Trino-Updates für Java 17 im Trino-Blog
. Diese Version behebt ein Problem mit der Nichtübereinstimmung der Timing-Sequenz zwischen Apache BigTop und EMR Amazon bei der EC2 Cluster-Startsequenz. Diese Nichtübereinstimmung der Timing-Sequenz tritt auf, wenn ein System versucht, zwei oder mehr Operationen gleichzeitig auszuführen, anstatt sie in der richtigen Reihenfolge auszuführen. Infolgedessen kam es bei bestimmten Clusterkonfigurationen zu Timeouts beim Instance-Start und zu langsameren Cluster-Startup-Zeiten.
Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als EMR AMI Standard-Amazon-Version. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.
Anmerkung
Diese Version erhält keine automatischen AMI Updates mehr, da ihr eine weitere Patch-Version folgte. Die Patch-Version wird durch die Zahl nach dem zweiten Dezimalpunkt (
6.8.
) gekennzeichnet. Um zu sehen, ob Sie die neueste Patch-Version verwenden, überprüfen Sie die verfügbaren Versionen im Versionshandbuch oder überprüfen Sie das EMRAmazon-Release-Drop-down-Menü, wenn Sie einen Cluster in der Konsole erstellen, oder verwenden Sie die1
list-release-labels
CLIAktionListReleaseLabels
APIoder. Um über neue Versionen informiert zu werden, abonnieren Sie den RSS Feed unter Was ist neu? Seite.OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen 2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv), Kanada West (Calgary) 2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), Israel (Tel Aviv) 2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230719.0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral), Israel (Tel Aviv) 2.0.20230628.0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230504.1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230418,0 4,14.311 3. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230404.1 4,14.311 18. April 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230404.0 4,14.311 10. April 2023 USA Ost (Nord-Virginia), Europa (Paris) 2.0.20230320.0 4,14.309 30. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230307,0 4,14.305 15. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230207,0 4,14.304 22. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20221210.1 4.14.301 12. Januar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20221103.3 4,14.296 5. Dezember 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
Version 6.8.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.8.0. Änderungen beziehen sich auf Version 6.7.0.
Neue Features
-
Die Amazon EMR Steps-Funktion unterstützt jetzt Apache Livy-Endpunkte und JDBC ODBC /-Clients. Weitere Informationen finden Sie unter EMR Schritte zur Konfiguration von Runtime-Rollen für Amazon.
-
EMRAmazon-Version 6.8.0 wird mit Apache HBase Version 2.4.12 geliefert. Mit dieser HBase Version können Sie Ihre Tabellen sowohl archivieren als auch löschen. HBase Der Amazon-S3-Archivierungsprozess benennt alle Tabellendateien in das Archivverzeichnis um. Dies kann ein kostspieliger und langwieriger Prozess sein. Jetzt können Sie den Archivierungsvorgang überspringen und große Tabellen schnell löschen und löschen. Weitere Informationen finden Sie unter Verwenden der HBase Shell.
Bekannte Probleme
Hadoop 3.3.3 führte eine Änderung in YARN (YARN-9608
) ein, die dafür sorgt, dass Knoten, auf denen Container liefen, außer Betrieb genommen werden, bis die Anwendung abgeschlossen ist. Diese Änderung stellt sicher, dass lokale Daten wie Shuffle-Daten nicht verloren gehen und Sie den Auftrag nicht erneut ausführen müssen. In Amazon EMR 6.8.0 und 6.9.0 kann dieser Ansatz auch zu einer Unterauslastung von Ressourcen auf Clustern mit oder ohne aktivierte verwaltete Skalierung führen. Mit Amazon EMR 6.10.0 gibt es eine Lösung für dieses Problem, indem Sie den Wert
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
auffalse
in setzen.yarn-site.xml
In den EMR Amazon-Versionen 6.11.0 und höher sowie 6.8.1, 6.9.1 und 6.10.1 ist die Konfigurationfalse
standardmäßig auf eingestellt, um dieses Problem zu beheben.
Änderungen, Verbesserungen und behobene Probleme
-
Als Amazon EMR Version 6.5.0, 6.6.0 oder 6.7.0 Apache Phoenix-Tabellen über die Apache Spark-Shell las, produzierte Amazon EMR eine.
NoSuchMethodError
EMRAmazon-Version 6.8.0 behebt dieses Problem. -
Die EMR Amazon-Version 6.8.0 enthält Apache Hudi
0.11.1. Amazon EMR 6.8.0-Cluster sind jedoch auch mit der Open-Source-Version von Hudi 0.12.0 kompatibel. hudi-spark3.3-bundle_2.12
-
EMRAmazon-Version 6.8.0 wird mit Apache Spark 3.3.0 geliefert. Diese Spark-Version verwendet Apache Log4j 2 und die
log4j2.properties
-Datei zur Konfiguration von Log4j in Spark-Prozessen. Wenn Sie Spark im Cluster verwenden oder EMR Cluster mit benutzerdefinierten Konfigurationsparametern erstellen und ein Upgrade auf EMR Amazon-Version 6.8.0 durchführen möchten, müssen Sie auf die neuespark-log4j2
Konfigurationsklassifizierung und das neue Schlüsselformat für Apache Log4j 2 migrieren. Weitere Informationen finden Sie unter Migration von Apache Log4j 1.x zu Log4j 2.x. Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als EMR AMI Standard-Amazon-Version. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.
Anmerkung
Diese Version erhält keine automatischen AMI Updates mehr, da ihr eine weitere Patch-Version folgte. Die Patch-Version wird durch die Zahl nach dem zweiten Dezimalpunkt (
6.8.
) gekennzeichnet. Um zu sehen, ob Sie die neueste Patch-Version verwenden, überprüfen Sie die verfügbaren Versionen im Versionshandbuch oder überprüfen Sie das EMRAmazon-Release-Drop-down-Menü, wenn Sie einen Cluster in der Konsole erstellen, oder verwenden Sie die1
list-release-labels
CLIAktionListReleaseLabels
APIoder. Um über neue Versionen informiert zu werden, abonnieren Sie den RSS Feed unter Was ist neu? Seite.OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen 2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich), Asien-Pazifik (Melbourne), Israel (Tel Aviv) 2.0.20230808.0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral) 2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral), 2.0.20230719,0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Asien-Pazifik (Melbourne), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada ( Zentral) 2.0.20230628.0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230504.1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230418,0 4,14.311 3. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230404.1 4,14.311 18. April 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230404.0 4,14.311 10. April 2023 USA Ost (Nord-Virginia), Europa (Paris) 2.0.20230320.0 4,14.309 30. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230307,0 4,14.305 15. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230207,0 4,14.304 22. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230119.1 4,14.301 3. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20221210.1 4.14.301 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20221103.3 4,14.296 5. Dezember 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20221004,0 4,14.294 02. November 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20220912.1 4,14.291 6. September 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
Bekannte Probleme
-
Wenn Sie den DynamoDB-Connector mit den EMR Versionen 6.6.0, 6.7.0 und 6.8.0 von Spark auf Amazon verwenden, geben alle Lesevorgänge aus Ihrer Tabelle ein leeres Ergebnis zurück, obwohl der Eingabe-Split auf nicht leere Daten verweist. Das liegt daran, dass Spark 3.2.0 standardmäßig
spark.hadoopRDD.ignoreEmptySplits
auftrue
einstellt. Um das Problem zu umgehen, setzen Sie explizitspark.hadoopRDD.ignoreEmptySplits
auffalse
. EMRAmazon-Version 6.9.0 behebt dieses Problem. Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
In den EMR Amazon-Versionen 5.36.0 und 6.6.0 bis 6.9.0 kann es bei
RecordServer
Servicekomponenten aufgrund einer falschen Konfiguration des Dateinamenmusters in den Log4j2-Eigenschaften zu einem Verlust von Protokolldaten kommen.SecretAgent
Die falsche Konfiguration führt dazu, dass die Komponenten nur eine Protokolldatei pro Tag generieren. Wenn die Rotationsstrategie angewendet wird, überschreibt sie die vorhandene Datei, anstatt wie erwartet eine neue Protokolldatei zu generieren. Um das Problem zu umgehen, verwenden Sie eine Bootstrap-Aktion, um jede Stunde Protokolldateien zu generieren, und fügen Sie eine automatisch inkrementierte Ganzzahl an den Dateinamen an, um die Rotation zu handhaben.Verwenden Sie für Amazon-Versionen EMR 6.6.0 bis 6.9.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Verwenden Sie für Amazon EMR 5.36.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
Informationen zum Zeitplan der Veröffentlichung finden Sie im Änderungsprotokoll.
Version 6.7.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.7.0. Änderungen beziehen sich auf Version 6.6.0.
Erste Version: 15. Juli 2022
Neue Features
Amazon unterstützt EMR jetzt Apache Spark 3.2.1, Apache Hive 3.1.3, HUDI 0.11, PrestoDB 0.272 und Trino 0.378.
Unterstützt IAM Role- und Lake Formation Formation-basierte Zugriffskontrollen mit EMR Schritten (Spark, Hive) für Amazon EMR auf Clustern. EC2
Unterstützt Apache-Spark-Datendefinitionsanweisungen auf Apache-Ranger-fähigen Clustern. Dies beinhaltet jetzt die Unterstützung für Trino-Anwendungen, die Apache-Hive-Metadaten auf Apache-Ranger-fähigen Clustern lesen und schreiben. Weitere Informationen finden Sie unter Aktivieren von Federated Governance mit Trino und Apache Ranger
auf Amazon. EMR Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als EMR AMI Standard-Amazon-Version. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.
OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen 2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia), Asien Pazifik (Hyderabad), Naher Osten (UAE), Europa (Spanien), Europa (Zürich) 2.0.20240223.0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20240131,0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20240124,0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20240109,0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231218,0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231206,0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231116,0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231101,0 4,14.327 16. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231020,1 4,14.326 7. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231012,1 4,14.326 26. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20230926,0 4,14.322 19. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20230906,0 4,14.322 04. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral) 2.0.20230822.0 4,14.322 30. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral) 2.0.20230808,0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral) 2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral) 2.0.20230719,0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada (Zentral) 2.0.20230628,0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230504.1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230418,0 4,14.311 3. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230404.1 4,14.311 18. April 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230404.0 4,14.311 10. April 2023 USA Ost (Nord-Virginia), Europa (Paris) 2.0.20230320.0 4,14.309 30. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230307,0 4,14.305 15. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230207,0 4,14.304 22. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230119.1 4,14.301 3. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20221210.1 4.14.301 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20221103.3 4,14.296 5. Dezember 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20221004,0 4,14.294 02. November 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20220912.1 4,14.291 7. Oktober 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20220719.0 4,14.287 10. August 2022 us‑west‑1
,eu‑west‑3
,eu‑north‑1
,ap‑south‑1
,me‑south‑1
2.0.20220606.1 4,14.281 15. Juli 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain)
Bekannte Probleme
Wenn EMR Amazon-Version 6.5.0, 6.6.0 oder 6.7.0 Apache Phoenix-Tabellen über die Apache Spark-Shell liest,
NoSuchMethodError
tritt ein, weil Amazon ein falsches EMR verwendet.Hbase.compat.version
EMRAmazon-Version 6.8.0 behebt dieses Problem.-
Wenn Sie den DynamoDB-Connector mit den EMR Versionen 6.6.0, 6.7.0 und 6.8.0 von Spark auf Amazon verwenden, geben alle Lesevorgänge aus Ihrer Tabelle ein leeres Ergebnis zurück, obwohl der Eingabe-Split auf nicht leere Daten verweist. Das liegt daran, dass Spark 3.2.0 standardmäßig
spark.hadoopRDD.ignoreEmptySplits
auftrue
einstellt. Um das Problem zu umgehen, setzen Sie explizitspark.hadoopRDD.ignoreEmptySplits
auffalse
. EMRAmazon-Version 6.9.0 behebt dieses Problem. Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
In den EMR Amazon-Versionen 5.36.0 und 6.6.0 bis 6.9.0 kann es bei
RecordServer
Servicekomponenten aufgrund einer falschen Konfiguration des Dateinamenmusters in den Log4j2-Eigenschaften zu einem Verlust von Protokolldaten kommen.SecretAgent
Die falsche Konfiguration führt dazu, dass die Komponenten nur eine Protokolldatei pro Tag generieren. Wenn die Rotationsstrategie angewendet wird, überschreibt sie die vorhandene Datei, anstatt wie erwartet eine neue Protokolldatei zu generieren. Um das Problem zu umgehen, verwenden Sie eine Bootstrap-Aktion, um jede Stunde Protokolldateien zu generieren, und fügen Sie eine automatisch inkrementierte Ganzzahl an den Dateinamen an, um die Rotation zu handhaben.Verwenden Sie für Amazon-Versionen EMR 6.6.0 bis 6.9.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Verwenden Sie für Amazon EMR 5.36.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
Das wird bei Clustern, die auf Amazon EMR 6.7 oder niedriger ausgeführt werden,
GetClusterSessionCredentials
API nicht unterstützt.
Version 6.6.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.6.0. Änderungen beziehen sich auf Version 6.5.0.
Erste Version: 09. Mai 2022
Letzte Aktualisierung der Dokumentation: 15. Juni 2022
Neue Features
Amazon EMR 6.6 unterstützt jetzt Apache Spark 3.2, Apache Spark RAPIDS 22.02, CUDA 11, Apache Hudi 0.10.1, Apache Iceberg 0.13, Trino 0.367 und PrestoDB 0.267.
Wenn Sie einen Cluster mit der neuesten Patch-Version von Amazon EMR 5.36 oder höher, 6.6 oder höher oder 7.0 oder höher starten, EMR verwendet Amazon die neueste Version von Amazon Linux 2023 oder Amazon Linux 2 als EMR AMI Standard-Amazon-Version. Weitere Informationen finden Sie unter Verwenden des standardmäßigen Amazon Linux AMI für Amazon EMR.
OsReleaseLabel (Amazon Linux-Version) Amazon-Linux-Kernversion Verfügbarkeitsdatum Unterstützte Regionen 2.0.20240709.1 4,14.348 23. Juli 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20240223,0 4,14.336 8. März 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20240131,0 4,14.336 14. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20240124,0 4,14.336 7. Februar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20240109,0 4,14.334 24. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231218,0 4,14.330 2. Januar 2024 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten AWS GovCloud (Bahrain), Kanada (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231206,0 4,14.330 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231116,0 4,14.328 11. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231101,0 4,14.327 16. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231020,1 4,14.326 7. November 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20231012,1 4,14.326 26. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20230926,0 4,14.322 19. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada AWS GovCloud (Zentral), AWS GovCloud (US-West), (US-Ost), China (Peking), China (Ningxia) 2.0.20230906,0 4,14.322 04. Oktober 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral) 2.0.20230822.0 4,14.322 30. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral) 2.0.20230808,0 4,14.320 24. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral) 2.0.20230727.0 4,14.320 14. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Kanada (Zentral) 2.0.20230719,0 4,14.320 02. August 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Europa (Stockholm), Europa (Mailand), Europa (Spanien), Europa (Frankfurt), Europa (Zürich), Europa (Irland), Europa (London), Europa (Paris), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Hyderabad), Asien-Pazifik (Tokio), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Jakarta), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain), Naher Osten (UAE), Kanada (Zentral) 2.0.20230628,0 4,14.318 12. Juli 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230612,0 4,14.314 23. Juni 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230504.1 4,14.313 16. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230418,0 4,14.311 3. Mai 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230404.1 4,14.311 18. April 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230404.0 4,14.311 10. April 2023 USA Ost (Nord-Virginia), Europa (Paris) 2.0.20230320.0 4,14.309 30. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230307,0 4,14.305 15. März 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230207,0 4,14.304 22. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20230119.1 4,14.301 3. Februar 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20221210.1 4.14.301 22. Dezember 2023 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20221103.3 4,14.296 5. Dezember 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20221004,0 4,14.294 02. November 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20220912.1 4,14.291 7. Oktober 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20220805.0 4,14.287 30. August 2022 us‑west‑1
2.0.20220719.0 4,14.287 10. August 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20220426,0 4,14.281 10. Juni 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) 2.0.20220406.1 4,14.275 2. Mai 2022 USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Kanada (Zentral), Europa (Stockholm), Europa (Irland), Europa (London), Europa (Paris), Europa (Frankfurt), Europa (Mailand), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Jakarta), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Afrika (Kapstadt), Südamerika (São Paulo), Naher Osten (Bahrain) -
[Verwaltete Skalierung] Verwaltete Skalierungsoptimierung mit Spark-Shuffle-Daten — Für EMR Amazon-Versionen 5.34.0 und höher sowie EMR Versionen 6.4.0 und höher ist Managed Scaling jetzt Spark Shuffle-Datenerkennung (Daten, die Spark partitionsübergreifend verteilt, um bestimmte Operationen auszuführen). Weitere Informationen zu Shuffle-Vorgängen finden Sie unter Using EMR Managed Scaling in Amazon EMR im Amazon EMR Management Guide und im Spark Programming Guide
. Ab Amazon EMR 5.32.0 und 6.5.0 ist die dynamische Executor-Sizierung für Apache Spark standardmäßig aktiviert. Sie können dieses Feature ein- oder ausschalten, indem Sie den Konfigurationsparameter
spark.yarn.heterogeneousExecutors.enabled
verwenden.
Änderungen, Verbesserungen und behobene Probleme
Amazon EMR reduziert die Cluster-Startzeit für Cluster, die die EMR AMI Standardoption verwenden und nur gängige Anwendungen wie Apache Hadoop, Apache Spark und Apache Hive installieren, um durchschnittlich bis zu 80 Sekunden.
Bekannte Probleme
Wenn EMR Amazon-Version 6.5.0, 6.6.0 oder 6.7.0 Apache Phoenix-Tabellen über die Apache Spark-Shell liest,
NoSuchMethodError
tritt ein, weil Amazon ein falsches EMR verwendet.Hbase.compat.version
EMRAmazon-Version 6.8.0 behebt dieses Problem.-
Wenn Sie den DynamoDB-Connector mit den EMR Versionen 6.6.0, 6.7.0 und 6.8.0 von Spark auf Amazon verwenden, geben alle Lesevorgänge aus Ihrer Tabelle ein leeres Ergebnis zurück, obwohl der Eingabe-Split auf nicht leere Daten verweist. Das liegt daran, dass Spark 3.2.0 standardmäßig
spark.hadoopRDD.ignoreEmptySplits
auftrue
einstellt. Um das Problem zu umgehen, setzen Sie explizitspark.hadoopRDD.ignoreEmptySplits
auffalse
. EMRAmazon-Version 6.9.0 behebt dieses Problem. Auf Trino-Clustern mit langer Laufzeit aktiviert Amazon EMR 6.6.0 die Garbage-Collection-Logging-Parameter in der Trino jvm.config, um bessere Einblicke in die Garbage-Collection-Logs zu erhalten. Durch diese Änderung werden viele Garbage-Collection-Protokolle an die Datei launcher.log (/var/log/trino/launcher.log) angehängt. Wenn Sie Trino-Cluster in Amazon EMR 6.6.0 ausführen, kann es vorkommen, dass Knoten aufgrund der angehängten Protokolle nicht mehr genügend Festplattenspeicher haben, nachdem der Cluster einige Tage lang ausgeführt wurde.
Um dieses Problem zu umgehen, führen Sie das folgende Skript als Bootstrap-Aktion aus, um die Garbage-Collection-Logging-Parameter in jvm.config zu deaktivieren, während Sie den Cluster für Amazon 6.6.0 erstellen oder klonen. EMR
#!/bin/bash set -ex PRESTO_PUPPET_DIR='/var/aws/emr/bigtop-deploy/puppet/modules/trino' sudo bash -c "sed -i '/-Xlog/d' ${PRESTO_PUPPET_DIR}/templates/jvm.config"
Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
In den EMR Amazon-Versionen 5.36.0 und 6.6.0 bis 6.9.0 kann es bei
RecordServer
Servicekomponenten aufgrund einer falschen Konfiguration des Dateinamenmusters in den Log4j2-Eigenschaften zu einem Verlust von Protokolldaten kommen.SecretAgent
Die falsche Konfiguration führt dazu, dass die Komponenten nur eine Protokolldatei pro Tag generieren. Wenn die Rotationsstrategie angewendet wird, überschreibt sie die vorhandene Datei, anstatt wie erwartet eine neue Protokolldatei zu generieren. Um das Problem zu umgehen, verwenden Sie eine Bootstrap-Aktion, um jede Stunde Protokolldateien zu generieren, und fügen Sie eine automatisch inkrementierte Ganzzahl an den Dateinamen an, um die Rotation zu handhaben.Verwenden Sie für Amazon-Versionen EMR 6.6.0 bis 6.9.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Verwenden Sie für Amazon EMR 5.36.0 die folgende Bootstrap-Aktion, wenn Sie einen Cluster starten.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
Version 5.35.0
Dies ist der EMR Versionshinweis zu Amazon-Version 5.35.0.
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.35.0. Änderungen beziehen sich auf Version 5.34.0.
Erste Version: 30. März 2022
Neue Features
Amazon-Anwendungen der EMR Version 5.35, die Log4j 1.x und Log4j 2.x verwenden, werden auf Log4j 1.2.17 (oder höher) bzw. Log4j 2.17.1 (oder höher) aktualisiert und erfordern keine Bootstrap-Aktionen zur Behebung der Probleme in früheren Versionen. CVE Siehe Ansatz zur Minderung CVE -2021-44228.
Änderungen, Verbesserungen und behobene Probleme
Änderungen bei Flink | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Änderungstyp | Beschreibung | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Upgrades |
|
Hadoop-Änderungen | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Änderungstyp | Beschreibung | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Open-Source-Backports für Hadoop seit 5.34.0 EMR |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hadoop-Änderungen und Korrekturen |
|
Änderungen bei Hive | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Änderungstyp | Beschreibung | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hive wurde auf die Open-Source-Version 2.3.9 aktualisiert, einschließlich dieser |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hive Open-Source-Backports seit 5.34.0 EMR |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hive-Upgrades und -Korrekturen |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Neue Features |
|
Oozie-Änderungen | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Änderungstyp | Beschreibung | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Oozie Open-Source-Backports seit 5.34.0 EMR |
|
Pig-Änderungen | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Änderungstyp | Beschreibung | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Upgrades |
|
Bekannte Probleme
Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
Version 5.34.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.34.0. Änderungen beziehen sich auf Version 5.33.1.
Erste Version: 20. Januar 2022
Aktualisiertes Veröffentlichungsdatum: 21. März 2022
Neue Features
-
[Verwaltete Skalierung] Verwaltete Skalierungsoptimierung mit Spark-Shuffle-Daten — Für EMR Amazon-Versionen 5.34.0 und höher sowie EMR Versionen 6.4.0 und höher ist Managed Scaling jetzt Spark Shuffle-Datenerkennung (Daten, die Spark partitionsübergreifend verteilt, um bestimmte Operationen auszuführen). Weitere Informationen zu Shuffle-Vorgängen finden Sie unter Using EMR Managed Scaling in Amazon EMR im Amazon EMR Management Guide und im Spark Programming Guide
. [Hudi] Verbesserungen zur Vereinfachung der Hudi-Konfiguration. Optimistische Parallelitätssteuerung standardmäßig deaktiviert.
Änderungen, Verbesserungen und behobene Probleme
-
Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.
Bisher führte ein manueller Neustart des Resource Managers auf einem Multi-Master-Cluster dazu, dass EMR Amazon-On-Cluster-Daemons wie Zookeeper alle zuvor außer Betrieb genommenen oder verloren gegangenen Knoten in der Zookeeper-Znode-Datei neu luden. Dies führte dazu, dass die Standardgrenzwerte in bestimmten Situationen überschritten wurden. Amazon entfernt EMR jetzt die außer Betrieb genommenen oder verlorenen Knotendatensätze, die älter als eine Stunde sind, aus der Zookeeper-Datei und die internen Grenzwerte wurden erhöht.
Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR
Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.
SPARK-29683
. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen. YARN-9011
. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren. Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS
Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.
Zeppelin auf Version 0.10.0 upgegradet.
Livy Fix – auf 0.7.1 aktualisiert
Leistungsverbesserung bei Spark — Heterogene Executors werden deaktiviert, wenn bestimmte Spark-Konfigurationswerte in 5.34.0 außer Kraft gesetzt werden. EMR
Web HDFS - und HttpFS-Server sind standardmäßig deaktiviert. Sie können Web HDFS mithilfe der Hadoop-Konfiguration erneut aktivieren.
dfs.webhdfs.enabled
Der HttpFS-Server kann mitsudo systemctl start hadoop-httpfs
gestartet werden.
Bekannte Probleme
Die Amazon EMR Notebooks-Funktion, die mit dem Livy-Benutzerwechsel verwendet wird, funktioniert nicht, da HttpFS standardmäßig deaktiviert ist. In diesem Fall kann das EMR Notebook keine Verbindung zu dem Cluster herstellen, für den der Livy-Identitätswechsel aktiviert ist. Die Problemumgehung besteht darin, den HttpFS-Server zu starten, bevor Sie das Notebook mit dem EMR Cluster verbinden.
sudo systemctl start hadoop-httpfs
Hue-Abfragen funktionieren in Amazon EMR 6.4.0 nicht, da der Apache Hadoop HttpFS-Server standardmäßig deaktiviert ist. Um Hue auf Amazon EMR 6.4.0 zu verwenden, starten Sie den HttpFS-Server auf dem EMR primären Amazon-Node entweder manuell mithilfe
sudo systemctl start hadoop-httpfs
oder verwenden Sie einen Amazon-Schritt. EMRDie Amazon EMR Notebooks-Funktion, die mit dem Livy-Benutzerwechsel verwendet wird, funktioniert nicht, da HttpFS standardmäßig deaktiviert ist. In diesem Fall kann das EMR Notebook keine Verbindung zu dem Cluster herstellen, für den der Livy-Identitätswechsel aktiviert ist. Die Problemumgehung besteht darin, den HttpFS-Server zu starten, bevor Sie das Notebook mit dem EMR Cluster verbinden.
sudo systemctl start hadoop-httpfs
Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
Version 6.5.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.5.0. Änderungen beziehen sich auf Version 6.4.0.
Erste Version: 20. Januar 2022
Aktualisiertes Veröffentlichungsdatum: 21. März 2022
Neue Features
-
[Verwaltete Skalierung] Verwaltete Skalierungsoptimierung mit Spark-Shuffle-Daten — Für EMR Amazon-Versionen 5.34.0 und höher sowie EMR Versionen 6.4.0 und höher ist Managed Scaling jetzt Spark Shuffle-Datenerkennung (Daten, die Spark partitionsübergreifend verteilt, um bestimmte Operationen auszuführen). Weitere Informationen zu Shuffle-Vorgängen finden Sie unter Using EMR Managed Scaling in Amazon EMR im Amazon EMR Management Guide und im Spark Programming Guide
. Ab Amazon EMR 5.32.0 und 6.5.0 ist die dynamische Executor-Sizierung für Apache Spark standardmäßig aktiviert. Sie können dieses Feature ein- oder ausschalten, indem Sie den Konfigurationsparameter
spark.yarn.heterogeneousExecutors.enabled
verwenden.Support für das offene Tabellenformat von Apache Iceberg für riesige analytische Datensätze.
Support für ranger-trino-plugin 2.0.1-amzn-1
Support für toree 0.5.0
Änderungen, Verbesserungen und behobene Probleme
Die Release-Version von Amazon EMR 6.5 unterstützt jetzt Apache Iceberg 0.12.0 und bietet Laufzeitverbesserungen mit Amazon EMR Runtime for Apache Spark, Amazon EMR Runtime for Presto und Amazon EMR Runtime for Apache Hive.
Apache Iceberg
ist ein offenes Tabellenformat für große Datensätze in Amazon S3 und bietet schnelle Abfrageleistung bei großen Tabellen, atomare Commits, gleichzeitige Schreibvorgänge und SQL -kompatible Tabellenentwicklung. Mit EMR 6.5 können Sie Apache Spark 3.1.2 mit dem Iceberg-Tabellenformat verwenden. Apache Hudi 0.9 fügt Spark SQL DDL und Unterstützung hinzu. DML Auf diese Weise können Sie Hudi-Tabellen mit nur Anweisungen erstellen und aktualisieren. SQL Apache Hudi 0.9 beinhaltet auch Leistungsverbesserungen auf der Abfrageseite und auf der Writer-Seite.
Amazon EMR Runtime for Apache Hive verbessert die Leistung von Apache Hive auf Amazon S3, indem Umbenennungsvorgänge bei Staging-Vorgängen entfernt werden, und verbessert die Leistung von metastore check (MSCK) -Befehlen, die zur Reparatur von Tabellen verwendet werden.
Bekannte Probleme
Wenn EMR Amazon-Version 6.5.0, 6.6.0 oder 6.7.0 Apache Phoenix-Tabellen über die Apache Spark-Shell liest,
NoSuchMethodError
tritt ein, weil Amazon ein falsches EMR verwendet.Hbase.compat.version
EMRAmazon-Version 6.8.0 behebt dieses Problem.-
Hbase-Bundle-Cluster mit hoher Verfügbarkeit (HA) können nicht mit der Standard-Volume-Größe und dem Instance-Typ bereitgestellt werden. Dieses Problem lässt sich umgehen, indem Sie die Größe des Root-Volumes erhöhen.
Um Spark-Aktionen mit Apache Oozie zu verwenden, müssen Sie Ihrer Oozie-
workflow.xml
-Datei die folgende Konfiguration hinzufügen. Andernfalls fehlen mehrere wichtige Bibliotheken wie Hadoop und EMRFS E im Klassenpfad der Spark-Executoren, die Oozie startet.<spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
Version 6.4.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.4.0. Änderungen beziehen sich auf Version 6.3.0.
Erste Version: 20. September 2021
Aktualisiertes Veröffentlichungsdatum: 21. März 2022
Unterstützte Anwendungen
-
AWS SDK for Java Version 1.12.31
-
CloudWatch Version 2.2.0 senken
-
Version 4.16.0 von EMR DynamoDB Connector
-
EMRFSAusführung 2.47.0
-
Amazon EMR Goodies versie 3.2.0
-
Amazon EMR Kinesis Connector, Version 3.5.0
-
Amazon EMR Record Server, Version 2.1.0
-
Amazon EMR Scripts versie 2.5.0
-
Flink, Version 1.13.1
-
Ganglia Version 3.7.2
-
AWS Glue Hive Metastore Client Version 3.3.0
-
Hadoop Version 3.2.1-amzn-4
-
HBaseAusführung 2.4.4-amzn-0
-
HBase-Operator-Tools 1.1.0
-
HCatalogAusführung 3.1.2-amzn-5
-
Hive Version 3.1.2-amzn-5
-
Hudi Version 0.8.0-amzn-0
-
Hue Version 4.9.0
-
JDKJava-Version Corretto-8.302.08.1 (Build 1.8.0_302-b08)
-
JupyterHub Ausführung 1.4.1
-
Livy Version 0.7.1-incubating
-
MXNetAusführung 1.8.0
-
Oozie-Version 5.2.1
-
Phoenix Version 5.1.2
-
Pig Version 0.17.0
-
Presto Version 0.254.1-amzn-0
-
Trino Version 359
-
Apache Ranger KMS (transparente Multimaster-Verschlüsselung) Version 2.0.0
-
Ranger-Plugins 2.0.1-amzn-0
-
Ranger-S3-Plugin 1.2.0
-
SageMaker Spark-Version 1.4.1 SDK
-
Scala Version 2.12.10 (Offene JDK 64-Bit-Server-VM, Java 1.8.0_282)
-
Spark Version 3.1.2-amzn-0
-
Spark-Rapids 0.4.1
-
Sqoop-Version 1.4.7
-
TensorFlow Ausführung 2.4.1
-
Tez-Version 0.9.2
-
Zeppelin-Version 0.9.0
-
Zookeeper Version 3.5.7
-
Konnektoren und Treiber: DynamoDB Connector 4.16.0
Neue Features
-
[Verwaltete Skalierung] Verwaltete Skalierungsoptimierung mit Spark-Shuffle-Daten — Für EMR Amazon-Versionen 5.34.0 und höher sowie EMR Versionen 6.4.0 und höher ist Managed Scaling jetzt Spark Shuffle-Datenerkennung (Daten, die Spark partitionsübergreifend verteilt, um bestimmte Operationen auszuführen). Weitere Informationen zu Shuffle-Vorgängen finden Sie unter Using EMR Managed Scaling in Amazon EMR im Amazon EMR Management Guide und im Spark Programming Guide
. -
Auf Apache Ranger-fähigen EMR Amazon-Clustern können Sie Apache Spark verwenden, SQL um Daten mit, und in die Apache Hive-Metastore-Tabellen einzufügen oder diese zu aktualisieren.
INSERT INTO
INSERT OVERWRITE
ALTER TABLE
Bei der Verwendung ALTER TABLE mit Spark SQL muss ein Partitionsspeicherort das untergeordnete Verzeichnis eines Tabellenspeicherorts sein. Amazon unterstützt derzeit EMR nicht das Einfügen von Daten in eine Partition, bei der sich der Speicherort der Partition vom Speicherort der Tabelle unterscheidet. -
Presto SQL wurde in Trino umbenannt
. -
Hive: Die Ausführung einfacher SELECT Abfragen mit LIMIT Klausel wird beschleunigt, indem die Abfrageausführung gestoppt wird, sobald die in der LIMIT Klausel angegebene Anzahl von Datensätzen abgerufen wurde. Einfache SELECT Abfragen sind Abfragen ohne ORDER BY/BY-Klausel oder Abfragen, die nicht über eine Reducer-Stufe verfügen. GROUP Beispiel,
SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>
.
Hudi-Parallelitätskontrolle
-
Hudi unterstützt jetzt Optimistic Concurrency Control (OCC), das bei Schreiboperationen genutzt werden kann, z. B. UPSERT INSERT um Änderungen von mehreren Autoren an derselben Hudi-Tabelle zu ermöglichen. Dies ist auf DateiebeneOCC, sodass zwei beliebige Commits (oder Writer) in dieselbe Tabelle schreiben können, sofern ihre Änderungen nicht miteinander in Konflikt stehen. Weitere Informationen finden Sie unter Hudi-Parallelitätskontrolle.
. -
Amazon EMR Amazon-Clustern ist Zookeeper installiert, der als Sperranbieter für verwendet werden kann. OCC Um die Verwendung dieser Funktion zu vereinfachen, sind in EMR Amazon-Clustern die folgenden Eigenschaften vorkonfiguriert:
hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<
EMR Zookeeper URL
> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port
> hoodie.write.lock.zookeeper.base_path=/hudiZur Aktivierung OCC müssen Sie die folgenden Eigenschaften entweder mit ihren Hudi-Joboptionen oder auf Cluster-Ebene mithilfe der Amazon-Konfigurationen konfigurieren: EMR API
hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=
<Key to uniquely identify the Hudi table>
(Table Name is a good option)
Hudi Monitoring: CloudWatch Amazon-Integration zur Berichterstattung über Hudi-Metriken
-
Amazon EMR unterstützt die Veröffentlichung von Hudi Metrics auf Amazon CloudWatch. Es wird aktiviert, indem die folgenden erforderlichen Konfigurationen festgelegt werden:
hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
Im Folgenden finden Sie optionale Hudi-Konfigurationen, die Sie ändern können:
Einstellung Beschreibung Wert hoodie.metrics.cloudwatch.report.period.seconds
Häufigkeit (in Sekunden), mit der Kennzahlen an Amazon gemeldet werden CloudWatch
Der Standardwert ist 60s, was für die von Amazon angebotene Standardauflösung von einer Minute in Ordnung ist CloudWatch
hoodie.metrics.cloudwatch.metric.prefix
Präfix, das jedem Metriknamen hinzugefügt werden soll
Der Standardwert ist leer (kein Präfix)
hoodie.metrics.cloudwatch.namespace
CloudWatch Amazon-Namespace, unter dem Metriken veröffentlicht werden
Der Standardwert ist Hudi
hoodie.metrics.cloudwatch. maxDatumsPerAnfrage
Maximale Anzahl von Daten, die in einer Anfrage an Amazon enthalten sein können CloudWatch
Der Standardwert ist 20, was dem CloudWatch Amazon-Standard entspricht
Unterstützung und Verbesserungen von Amazon EMR Hudi-Konfigurationen
-
Kunden können jetzt die Funktion „EMRKonfigurationen API und Neukonfiguration“ nutzen, um Hudi-Konfigurationen auf Cluster-Ebene zu konfigurieren. Eine neue dateibasierte Konfigurationsunterstützung wurde über /etc/hudi/conf/hudi-defaults.conf eingeführt, ähnlich wie bei anderen Anwendungen wie Spark, Hive usw. EMRkonfiguriert einige Standardeinstellungen, um die Benutzererfahrung zu verbessern:
—
hoodie.datasource.hive_sync.jdbcurl
ist für den Cluster-Hive-Server konfiguriert URL und muss nicht mehr angegeben werden. Dies ist besonders nützlich, wenn Sie einen Job im Spark-Cluster-Modus ausführen, wo Sie zuvor die EMR Amazon-Master-IP angeben mussten.— HBase spezifische Konfigurationen, die für die Verwendung des HBase Index mit Hudi nützlich sind.
— Spezifische Konfiguration des Zookeeper-Sperranbieters, wie unter Parallelitätskontrolle beschrieben, was die Verwendung von Optimistic Concurrency Control () erleichtert. OCC
-
Zusätzliche Änderungen wurden eingeführt, um die Anzahl der Konfigurationen zu reduzieren, die Sie bestehen müssen, und um nach Möglichkeit automatische Schlüsse zu ziehen:
– Das
partitionBy
-Schlüsselwort kann verwendet werden, um die Partitionsspalte zu spezifizieren.– Bei der Aktivierung von Hive Sync ist es nicht mehr erforderlich, den Vorgang
HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY
zu bestehen. Diese Werte können aus dem Hudi-Tabellennamen und dem Partitionsfeld abgeleitet werden.–
KEYGENERATOR_CLASS_OPT_KEY
ist nicht zwingend erforderlich und kann aus einfacheren Fällen vonSimpleKeyGenerator
undComplexKeyGenerator
abgeleitet werden.
Vorbehalte von Hudi
-
Hudi unterstützt keine vektorisierte Ausführung in Hive für Merge on Read (MoR)- und Bootstrap-Tabellen. So schlägt beispielsweise
count(*)
mit der Hudi-Echtzeittabelle fehl, wennhive.vectorized.execution.enabled
auf „wahr“ gesetzt ist. Um das Problem zu umgehen, können Sie das vektorisierte Lesen deaktivieren, indem Siehive.vectorized.execution.enabled
auffalse
setzen. -
Die Multi-Writer-Unterstützung ist nicht mit dem Hudi-Bootstrap-Feature kompatibel.
-
Flink Streamer und Flink SQL sind experimentelle Funktionen in dieser Version. Diese Features werden nicht zur Verwendung in Produktionsbereitstellungen empfohlen.
Änderungen, Verbesserungen und behobene Probleme
Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.
Bisher führte ein manueller Neustart des Resource Managers auf einem Multi-Master-Cluster dazu, dass EMR Amazon-On-Cluster-Daemons wie Zookeeper alle zuvor außer Betrieb genommenen oder verloren gegangenen Knoten in der Zookeeper-Znode-Datei neu luden. Dies führte dazu, dass die Standardgrenzwerte in bestimmten Situationen überschritten wurden. Amazon entfernt EMR jetzt die außer Betrieb genommenen oder verlorenen Knotendatensätze, die älter als eine Stunde sind, aus der Zookeeper-Datei und die internen Grenzwerte wurden erhöht.
Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR
Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.
SPARK-29683
. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen. YARN-9011
. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren. Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS
Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.
-
Konfiguration eines Clusters zur Behebung von Leistungsproblemen mit Apache YARN Timeline Server Version 1 und 1.5
Apache YARN Timeline Server Version 1 und 1.5 können bei sehr aktiven, großen EMR Clustern zu Leistungsproblemen führen, insbesondere bei
yarn.resourcemanager.system-metrics-publisher.enabled=true
, was die Standardeinstellung in Amazon istEMR. Ein YARN Open-Source-Timeline Server v2 löst das Leistungsproblem im Zusammenhang mit der Skalierbarkeit von YARN Timeline Server.Weitere Lösungen für dieses Problem umfassen:
Konfiguration von yarn.resourcemanager. system-metrics-publisher.enabled=false in yarn-site.xml.
Aktivieren des Fixes für dieses Problem beim Erstellen eines Clusters, wie unten beschrieben.
Die folgenden EMR Amazon-Versionen enthalten eine Lösung für dieses Leistungsproblem mit dem YARN Timeline-Server.
EMR5.30.2, 5.31.1, 5.32.1, 5.33.1, 5.34.x, 6.0.1, 6.1.1, 6.2.1, 6.3.1, 6.4.x
Um den Fix für eine der oben angegebenen EMR Amazon-Versionen zu aktivieren, legen Sie diese Eigenschaften
true
in einer JSON Konfigurationsdatei fest, die mit demaws emr create-cluster
Befehlsparameter übergeben wird:--configurations file://./configurations.json
. Oder aktivieren Sie den Fix über die Benutzeroberfläche der Rekonfigurationskonsole.Beispiel für den Inhalt der Datei configurations.json:
[ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
Web HDFS - und HttpFS-Server sind standardmäßig deaktiviert. Sie können Web HDFS mithilfe der Hadoop-Konfiguration erneut aktivieren.
dfs.webhdfs.enabled
Der HttpFS-Server kann mitsudo systemctl start hadoop-httpfs
gestartet werden.-
HTTPSist jetzt standardmäßig für Amazon Linux-Repositorys aktiviert. Wenn Sie eine Amazon S3 VPCE S3-Richtlinie verwenden, um den Zugriff auf bestimmte Buckets zu beschränken, müssen Sie den neuen Amazon Linux-Bucket ARN
arn:aws:s3:::amazonlinux-2-repos-$region/*
zu Ihrer Richtlinie hinzufügen ($region
ersetzen Sie ihn durch die Region, in der sich der Endpunkt befindet). Weitere Informationen finden Sie unter diesem Thema in den AWS Diskussionsforen. Ankündigung: Amazon Linux 2 unterstützt jetzt die Verwendung HTTPS beim Herstellen einer Verbindung zu Paket-Repositorys. -
Hive: Die Leistung bei Schreibabfragen wurde verbessert, indem die Verwendung eines Scratch-Verzeichnisses HDFS für den letzten Job aktiviert wurde. Die temporären Daten für den endgültigen Job werden HDFS nicht in Amazon S3 geschrieben, und die Leistung wird verbessert, da die Daten vom HDFS Speicherort der endgültigen Tabelle (Amazon S3) und nicht zwischen Amazon S3 S3-Geräten verschoben werden.
-
Hive: Verbesserung der Kompilierungszeit von Abfragen um das 2,5-fache mit Glue Metastore Partition Pruning.
-
Wenn Built-In von Hive an den Hive Metastore Server übergeben UDFs werden, wird standardmäßig nur ein Teil der UDFs Built-In an den Glue Metastore übergeben, da Glue nur begrenzte Ausdrucksoperatoren unterstützt. Wenn Sie
hive.glue.partition.pruning.client=true
festlegen, erfolgt das gesamte Partitionsbereinigen auf der Clientseite. Wenn Siehive.glue.partition.pruning.server=true
festlegen, erfolgt das gesamte Bereinigen von Partitionen auf der Serverseite.
Bekannte Probleme
Hue-Abfragen funktionieren in Amazon EMR 6.4.0 nicht, da der Apache Hadoop HttpFS-Server standardmäßig deaktiviert ist. Um Hue auf Amazon EMR 6.4.0 zu verwenden, starten Sie den HttpFS-Server auf dem EMR primären Amazon-Node entweder manuell mithilfe
sudo systemctl start hadoop-httpfs
oder verwenden Sie einen Amazon-Schritt. EMRDie Amazon EMR Notebooks-Funktion, die mit dem Livy-Benutzerwechsel verwendet wird, funktioniert nicht, da HttpFS standardmäßig deaktiviert ist. In diesem Fall kann das EMR Notebook keine Verbindung zu dem Cluster herstellen, für den der Livy-Identitätswechsel aktiviert ist. Die Problemumgehung besteht darin, den HttpFS-Server zu starten, bevor Sie das Notebook mit dem EMR Cluster verbinden.
sudo systemctl start hadoop-httpfs
In EMR Amazon-Version 6.4.0 unterstützt Phoenix die Komponente Phoenix Connectors nicht.
Um Spark-Aktionen mit Apache Oozie zu verwenden, müssen Sie Ihrer Oozie-
workflow.xml
-Datei die folgende Konfiguration hinzufügen. Andernfalls fehlen mehrere wichtige Bibliotheken wie Hadoop und EMRFS E im Klassenpfad der Spark-Executoren, die Oozie startet.<spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
Version 5.32.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.32.0. Änderungen beziehen sich auf Version 5.31.0.
Erste Version: 8. Januar 2021
Upgrades
Der Amazon-Glue-Konnektor wurde auf Version 1.14.0 aktualisiert
Amazon SageMaker Spark wurde SDK auf Version 1.4.1 aktualisiert
Auf Version AWS SDK for Java 1.11.890 aktualisiert
EMRDynamoDB Connector Version 4.16.0 wurde aktualisiert
Auf Version 2.45.0 aktualisiert EMRFS
EMRLog Analytics-Metriken wurden auf Version 1.18.0 aktualisiert
EMR MetricsAndEventsApiGateway Der Client wurde auf Version 1.5.0 aktualisiert
EMRRecord Server wurde auf Version 1.8.0 aktualisiert
EMRS3 Dist CP wurde auf Version 2.17.0 aktualisiert
EMRSecret Agent wurde auf Version 1.7.0 aktualisiert
Flink auf Version 1.11.2 aktualisiert
Hadoop wurde auf Version 2.10.1-amzn-0 aktualisiert
Upgrade von Hive auf Version 2.3.7-amzn-3
Hue auf Version 4.8.0 aktualisiert
Mxnet wurde auf Version 1.7.0 aktualisiert
OpenCV wurde auf Version 4.4.0 aktualisiert
Presto auf Version 0.240.1-amzn-0 aktualisiert
Spark auf Version 2.4.7-amzn-0 aktualisiert
Auf Version TensorFlow 2.3.1 aktualisiert
Änderungen, Verbesserungen und behobene Probleme
-
Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.
Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR
Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.
SPARK-29683
. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen. YARN-9011
. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren. Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS
Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.
Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.
Aktualisierte Komponentenversionen.
Eine Liste der Komponentenversionen finden Sie unter About Amazon EMR Releases in diesem Handbuch.
Neue Features
Ab Amazon EMR 5.32.0 und 6.5.0 ist die dynamische Executor-Sizierung für Apache Spark standardmäßig aktiviert. Sie können dieses Feature ein- oder ausschalten, indem Sie den Konfigurationsparameter
spark.yarn.heterogeneousExecutors.enabled
verwenden.Unterstützungsstatus von Instance Metadata Service (IMDS) V2: Die Komponenten Amazon EMR 5.23.1, 5.27.1 und 5.32 oder höher werden für alle Aufrufe verwendet. IMDSv2 IMDS Für IMDS Aufrufe in Ihrem Anwendungscode können Sie sowohl als auch IMDSv1 verwenden oder die Option so konfigurierenIMDSv2, dass sie nur für zusätzliche Sicherheit IMDS verwendet wird. IMDSv2 Bei anderen EMR 5.x-Versionen IMDSv1 führt die Deaktivierung zu einem Fehler beim Starten des Clusters.
Ab Amazon EMR 5.32.0 können Sie einen Cluster starten, der nativ in Apache Ranger integriert ist. Apache Ranger ist ein Open-Source-Framework zur Aktivierung, Überwachung und Verwaltung einer umfassenden Datensicherheit auf der gesamten Hadoop-Plattform. Weitere Informationen finden Sie unter Apache Ranger
. Dank der nativen Integration können Sie Ihren eigenen Apache Ranger verwenden, um eine detaillierte Datenzugriffskontrolle auf Amazon durchzusetzen. EMR Weitere Informationen finden Sie unter Integrieren von Amazon EMR mit Apache Ranger im EMRAmazon-Versionshandbuch. Amazon EMR Release 5.32.0 unterstützt Amazon EMR on. EKS Weitere Informationen zu den ersten Schritten mit EMR on EKS finden Sie unter Was ist Amazon EMR auf EKS.
Amazon EMR Release 5.32.0 unterstützt Amazon EMR Studio (Preview). Weitere Informationen zu den ersten Schritten mit EMR Studio finden Sie unter Amazon EMR Studio (Vorversion).
Verwaltete Richtlinien mit Geltungsbereich: Um den AWS bewährten Methoden zu entsprechen, EMR hat Amazon EMR verwaltete Standardrichtlinien mit Geltungsbereich v2 eingeführt, die als Ersatz für Richtlinien dienen, die nicht mehr unterstützt werden. Weitere Informationen finden Sie unter EMRVon Amazon verwaltete Richtlinien.
Bekannte Probleme
Für private Subnetz-Cluster von Amazon EMR 6.3.0 und 6.2.0 können Sie nicht auf die Ganglia-Webbenutzeroberfläche zugreifen. Sie erhalten die Fehlermeldung „Zugriff verweigert (403)“. Andere Websites wie SparkUIs, Hue, Zeppelin JupyterHub, Livy und Tez funktionieren normal. Der Zugriff auf die Ganglia-Web-Benutzeroberfläche auf öffentlichen Subnetzclustern funktioniert ebenfalls normal. Um dieses Problem zu beheben, starten Sie den httpd-Service auf dem Primärknoten mit
sudo systemctl restart httpd
neu. Dieses Problem wurde in Amazon EMR 6.4.0 behoben.-
Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.
Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.
Explizit ein ulimit über die Befehlszeile setzen
Bearbeiten Sie
/etc/systemd/system/instance-controller.service
, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.LimitNOFILE=65536
LimitNPROC=65536
Starten Sie neu InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen
Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
Wichtig
EMRCluster, auf denen Amazon Linux oder Amazon Linux 2 Amazon Machine Images (AMIs) ausgeführt werden, verwenden das Standardverhalten von Amazon Linux und laden wichtige und kritische Kernel-Updates, die einen Neustart erfordern, nicht automatisch herunter und installieren sie. Dies ist dasselbe Verhalten wie bei anderen EC2 Amazon-Instances, auf denen das standardmäßige Amazon Linux ausgeführt wirdAMI. Wenn neue Amazon Linux-Softwareupdates, die einen Neustart erfordern (wie Kernel und CUDA Updates)NVIDIA, verfügbar werden, nachdem eine EMR Amazon-Version verfügbar wird, laden EMR Cluster-Instances, die standardmäßig ausgeführt werden, diese Updates AMI nicht automatisch herunter und installieren sie. Um Kernel-Updates zu erhalten, können Sie Ihr Amazon so anpassen EMR AMI, dass es das neueste Amazon Linux verwendet AMI.
Die Konsolenunterstützung zur Erstellung einer Sicherheitskonfiguration, die die AWS Ranger-Integrationsoption spezifiziert, wird derzeit in der GovCloud Region nicht unterstützt. Die Sicherheitskonfiguration kann mit dem CLI vorgenommen werden. Weitere Informationen finden Sie unter EMR Sicherheitskonfiguration erstellen im Amazon EMR Management Guide.
Wenn AtRestEncryption die HDFS Verschlüsselung auf einem Cluster aktiviert ist, der Amazon EMR 5.31.0 oder 5.32.0 verwendet, führen Hive-Abfragen zu der folgenden Laufzeitausnahme.
TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
Version 6.2.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.2.0. Änderungen beziehen sich auf Version 6.1.0.
Veröffentlichungsdatum: 9. Dezember 2020
Letzte Aktualisierung: 4. Oktober 2021
Unterstützte Anwendungen
AWS SDK for Java Version 1.11.828
emr-record-server Ausführung 1.7.0
Flink-Version 1.11.2
Ganglia Version 3.7.2
Hadoop-Version 3.2.1-amzn-1
HBaseAusführung 2.2.6-amzn-0
HBase-Operator-Tools 1.0.0
HCatalogAusführung 3.1.2-amzn-0
Hive Version 3.1.2-amzn-3
Hudi Version 0.6.0-amzn-1
Hue Version 4.8.0
JupyterHub Ausführung 1.1.0
Livy-Version 0.7.0
MXNetAusführung 1.7.0
Oozie-Version 5.2.0
Phoenix Version 5.0.0
Pig Version 0.17.0
Presto Version 0.238.3-amzn-1
Presto, Version 3.4.3 SQL
Spark Version 3.0.1-amzn-0
Spark-Rapids 0.2.0
TensorFlow Ausführung 2.3.1
Zeppelin-Version 0.9.0-preview1
Zookeeper Version 3.4.14
Konnektoren und Treiber: DynamoDB Connector 4.16.0
Neue Features
HBase: Die Umbenennung in der Commit-Phase wurde entfernt und persistentes HFile Tracking hinzugefügt. Weitere Informationen finden Sie unter Persistent HFile Tracking im Amazon EMR Release Guide.
HBase: Backported Erstellen Sie eine Konfiguration, die das Zwischenspeichern von Blöcken bei der Komprimierung erzwingt
. PrestoDB: Verbesserungen beim dynamischen Partitionsbereinigen. Die regelbasierte Join Reorder funktioniert mit nicht partitionierten Daten.
Verwaltete Richtlinien mit Geltungsbereich: Um den AWS bewährten Methoden zu entsprechen, EMR hat Amazon EMR verwaltete Standardrichtlinien mit Geltungsbereich v2 eingeführt, die als Ersatz für Richtlinien dienen, die nicht mehr unterstützt werden. Weitere Informationen finden Sie unter EMRVon Amazon verwaltete Richtlinien.
Support-Status für Instance Metadata Service (IMDS) V2: Für Amazon EMR 6.2 oder höher werden EMR Amazon-Komponenten IMDSv2 für alle IMDS Aufrufe verwendet. Für IMDS Aufrufe in Ihrem Anwendungscode können Sie IMDSv1 sowohl als auch verwenden oder das so konfigurierenIMDSv2, IMDS dass es nur aus IMDSv2 Sicherheitsgründen verwendet wird. Wenn Sie die Option IMDSv1 in früheren Versionen von Amazon EMR 6.x deaktivieren, führt dies zu einem Fehler beim Starten des Clusters.
Änderungen, Verbesserungen und behobene Probleme
-
Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.
Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR
Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.
SPARK-29683
. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen. YARN-9011
. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren. Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS
Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.
Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.
Spark: Leistungsverbesserungen in der Spark-Laufzeit.
Bekannte Probleme
Amazon EMR 6.2 hat falsche Berechtigungen für die Datei libinstance-controller-java /etc/cron.d/ in 6.2.0 festgelegt. EMR Die Berechtigungen für die Datei sind 645 (-rw-r--r-x), obwohl sie 644 (-rw-r--r--) sein sollten. Aus diesem Grund protokolliert Amazon EMR Version 6.2 keine Instance-State-Logs und das Verzeichnis /emr/instance-logs ist leer. Dieses Problem wurde in Amazon EMR 6.3.0 und höher behoben.
Zur Umgehung dieses Problems führen Sie das folgende Skript als Bootstrap-Aktion beim Clusterstart aus.
#!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
Für private Subnetz-Cluster von Amazon EMR 6.2.0 und 6.3.0 können Sie nicht auf die Ganglia-Webbenutzeroberfläche zugreifen. Sie erhalten die Fehlermeldung „Zugriff verweigert (403)“. Andere Websites wie SparkUIs, Hue, Zeppelin JupyterHub, Livy und Tez funktionieren normal. Der Zugriff auf die Ganglia-Web-Benutzeroberfläche auf öffentlichen Subnetzclustern funktioniert ebenfalls normal. Um dieses Problem zu beheben, starten Sie den httpd-Service auf dem Primärknoten mit
sudo systemctl restart httpd
neu. Dieses Problem wurde in Amazon EMR 6.4.0 behoben.In Amazon EMR 6.2.0 gibt es ein Problem, bei dem httpd kontinuierlich ausfällt, wodurch Ganglia nicht verfügbar ist. Sie erhalten die Fehlermeldung „Es kann keine Verbindung zum Server hergestellt werden“. Um einen Cluster zu reparieren, der bereits mit diesem Problem läuft, gehen Sie SSH zum primären Clusterknoten und fügen Sie die Zeile
Listen 80
zu der Dateihttpd.conf
hinzu, die sich unter befindet./etc/httpd/conf/httpd.conf
Dieses Problem wurde in Amazon EMR 6.3.0 behoben.HTTPDschlägt auf EMR 6.2.0-Clustern fehl, wenn Sie eine Sicherheitskonfiguration verwenden. Dadurch ist die Benutzeroberfläche der Ganglia-Webanwendung nicht verfügbar. Um auf die Benutzeroberfläche der Ganglia-Webanwendung zuzugreifen, fügen Sie
Listen 80
der/etc/httpd/conf/httpd.conf
-Datei auf dem Primärknoten Ihres Clusters etwas hinzu. Informationen zum Herstellen einer Verbindung mit Ihrem Cluster finden Sie unter Herstellen einer Verbindung zum Primärknoten mithilfe von SSH.EMRNotebooks können auch keine Verbindung zu EMR 6.2.0-Clustern herstellen, wenn Sie eine Sicherheitskonfiguration verwenden. Das Notebook kann keine Kernel auflisten und Spark-Aufträge nicht weiterleiten. Wir empfehlen, EMR Notebooks EMR stattdessen mit einer anderen Version von Amazon zu verwenden.
-
Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.
Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.
Explizit ein ulimit über die Befehlszeile setzen
Bearbeiten Sie
/etc/systemd/system/instance-controller.service
, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.LimitNOFILE=65536
LimitNPROC=65536
Starten Sie neu InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen
Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
Wichtig
Amazon EMR 6.1.0 und 6.2.0 beinhalten ein Leistungsproblem, das sich entscheidend auf alle Hudi-Einfüge-, Upsert- und Löschvorgänge auswirken kann. Wenn Sie Hudi mit Amazon EMR 6.1.0 oder 6.2.0 verwenden möchten, sollten Sie sich an den AWS Support wenden, um ein gepatchtes Hudi zu erhalten. RPM
-
Wichtig
EMRCluster, auf denen Amazon Linux oder Amazon Linux 2 Amazon Machine Images (AMIs) ausgeführt werden, verwenden das Standardverhalten von Amazon Linux und laden wichtige und kritische Kernel-Updates, die einen Neustart erfordern, nicht automatisch herunter und installieren sie. Dies ist dasselbe Verhalten wie bei anderen EC2 Amazon-Instances, auf denen das standardmäßige Amazon Linux ausgeführt wirdAMI. Wenn neue Amazon Linux-Softwareupdates, die einen Neustart erfordern (wie Kernel und CUDA Updates)NVIDIA, verfügbar werden, nachdem eine EMR Amazon-Version verfügbar wird, laden EMR Cluster-Instances, die standardmäßig ausgeführt werden, diese Updates AMI nicht automatisch herunter und installieren sie. Um Kernel-Updates zu erhalten, können Sie Ihr Amazon so anpassen EMR AMI, dass es das neueste Amazon Linux verwendet AMI.
Amazon EMR 6.2.0 Maven-Artefakte werden nicht veröffentlicht. Sie werden mit einer future Version von Amazon veröffentlichtEMR.
Die persistente HFile Nachverfolgung mithilfe der HBase Storefile-Systemtabelle unterstützt die Funktion zur HBase Regionsreplikation nicht. Weitere Informationen zur HBase Regionsreplikation finden Sie unter Timeline-consistent
High Available Reads. Unterschiede zwischen den Bucketing-Versionen von Amazon EMR EMR 6.x und 5.x Hive
EMR5.x verwendet OOS Apache Hive 2, während in EMR 6.x Apache Hive 3 verwendet wird. OOS Die Open-Source-Version Hive2 verwendet Bucketing Version 1, während die Open-Source-Version Hive3 Bucketing Version 2 verwendet. Dieser Unterschied zwischen Hive 2 (EMR5.x) und Hive 3 (EMR6.x) bedeutet, dass Hive Bucketing-Hashing anders funktioniert. Sehen Sie sich das folgende Beispiel an.
Die folgende Tabelle ist ein Beispiel, das in 6.x bzw. 5.x erstellt wurde. EMR EMR
-- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';
Dieselben Daten werden sowohl in EMR 6.x als auch in 5.x eingefügt. EMR
INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');
Die Überprüfung des S3-Speicherorts zeigt, dass der Name der Bucketing-Datei unterschiedlich ist, da sich die Hashing-Funktion zwischen EMR 6.x (Hive 3) und 5.x (Hive 2) unterscheidet. EMR
[hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0
Sie können den Versionsunterschied auch erkennen, indem Sie den folgenden Befehl in Hive in 6.x ausführen. CLI EMR Beachten Sie, dass die Bucketing-Version 2 zurückgegeben wird.
hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
Version 5.31.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.31.0. Änderungen beziehen sich auf Version 5.30.1.
Erste Version: 09. Oktober 2020
Letzte Aktualisierung: 15. Oktober 2020
Upgrades
Der Amazon-Glue-Konnektor wurde auf Version 1.13.0 aktualisiert
Amazon SageMaker Spark wurde SDK auf Version 1.4.0 aktualisiert
Der Amazon-Kinesis-Konnektor wurde auf Version 3.5.9 aktualisiert
Auf Version AWS SDK for Java 1.11.852 aktualisiert
BigTop-Tomcat wurde auf Version 8.5.56 aktualisiert
EMRFS wurde auf Version 2.43.0 aktualisiert
EMR MetricsAndEventsApiGateway Der Client wurde auf Version 1.4.0 aktualisiert
EMRS3 Dist CP wurde auf Version 2.15.0 aktualisiert
EMRS3 Select wurde auf Version 1.6.0 aktualisiert
Flink wurde auf Version 1.11.0 aktualisiert
Hadoop wurde auf Version 2.10.0 aktualisiert
Hive wurde auf Version 2.3.7 aktualisiert
Hudi wurde auf Version 0.6.0 aktualisiert
Hue wurde auf Version 4.7.1 aktualisiert
Auf Version JupyterHub 1.1.0 aktualisiert
Mxnet wurde auf Version 1.6.0 aktualisiert
OpenCV wurde auf Version 4.3.0 aktualisiert
Presto wurde auf Version 0.238.3 aktualisiert
Auf Version TensorFlow 2.1.0 aktualisiert
Änderungen, Verbesserungen und behobene Probleme
-
Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.
Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR
Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.
SPARK-29683
. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen. YARN-9011
. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren. Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS
Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.
Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.
Hive-Spaltenstatistiken
werden für EMR Amazon-Versionen 5.31.0 und höher unterstützt. Aktualisierte Komponentenversionen.
EMRFSS3EC V2-Unterstützung in Amazon EMR 5.31.0. In den SDK S3-Java-Versionen 1.11.837 und höher wurde der Verschlüsselungsclient Version 2 (S3EC V2) mit verschiedenen Sicherheitsverbesserungen eingeführt. Weitere Informationen finden Sie hier:
S3 Blogbeitrag: Updates für den Amazon S3 Encryption Client
. AWS SDK for Java Entwicklerhandbuch: Migrieren Sie Verschlüsselungs- und Entschlüsselungsclients auf V2.
EMRVerwaltungshandbuch: Clientseitige Amazon S3 S3-Verschlüsselung.
Der Encryption Client V1 ist aus SDK Gründen der Abwärtskompatibilität weiterhin in der verfügbar.
Neue Features
-
Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.
Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.
Explizit ein ulimit über die Befehlszeile setzen
Bearbeiten Sie
/etc/systemd/system/instance-controller.service
, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.LimitNOFILE=65536
LimitNPROC=65536
Starten Sie neu InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen
Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
Mit Amazon EMR 5.31.0 können Sie einen Cluster starten, der in Lake Formation integriert ist. Diese Integration ermöglicht eine detaillierte Datenfilterung auf Spaltenebene für Datenbanken und Tabellen im Glue-Datenkatalog. AWS Sie ermöglicht auch föderiertes Single Sign-On für EMR Notebooks oder Apache Zeppelin von einem Unternehmensidentitätssystem aus. Weitere Informationen finden Sie unter Integration von Amazon EMR mit AWS Lake Formation im Amazon EMR Management Guide.
Amazon EMR with Lake Formation ist derzeit in 16 AWS Regionen verfügbar: USA Ost (Ohio und Nord-Virginia), USA West (Nordkalifornien und Oregon), Asien-Pazifik (Mumbai, Seoul, Singapur, Sydney und Tokio), Kanada (Zentral), Europa (Frankfurt, Irland, London, Paris und Stockholm), Südamerika (São Paulo).
Bekannte Probleme
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Wenn AtRestEncryption die HDFS Verschlüsselung auf einem Cluster aktiviert ist, der Amazon EMR 5.31.0 oder 5.32.0 verwendet, führen Hive-Abfragen zu der folgenden Laufzeitausnahme.
TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
Version 6.1.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 6.1.0. Änderungen beziehen sich auf Version 6.0.0.
Erste Version: 4. September 2020
Letzte Aktualisierung: 15. Oktober 2020
Unterstützte Anwendungen
AWS SDK for Java Version 1.11.828
Flink-Version 1.11.0
Ganglia Version 3.7.2
Hadoop-Version 3.2.1-amzn-1
HBaseAusführung 2.2.5
HBase-Operator-Tools 1.0.0
HCatalogAusführung 3.1.2-amzn-0
Hive-Version 3.1.2-amzn-1
Hudi-Version 0.5.2-incubating
Hue-Version 4.7.1
JupyterHub Ausführung 1.1.0
Livy-Version 0.7.0
MXNetAusführung 1.6.0
Oozie-Version 5.2.0
Phoenix Version 5.0.0
Presto-Version 0.232
Presto, Version 3.38 SQL
Spark-Version 3.0.0-amzn-0
TensorFlow Ausführung 2.1.0
Zeppelin-Version 0.9.0-preview1
Zookeeper Version 3.4.14
Anschlüsse und Treiber: DynamoDB Connector 4.14.0
Neue Features
ARMInstance-Typen werden ab EMR Amazon-Version 5.30.0 und EMR Amazon-Version 6.1.0 unterstützt.
Allzweck-Instance-Typen von M6g werden ab den EMR Amazon-Versionen 6.1.0 und 5.30.0 unterstützt. Weitere Informationen finden Sie unter Unterstützte Instance-Typen im Amazon EMR Management Guide.
Die EC2 Platzierungsgruppenfunktion wird ab EMR Amazon-Version 5.23.0 als Option für Cluster mit mehreren primären Knoten unterstützt. Derzeit werden nur Primärknoten-Typen von des Platzierungsgruppenfeatures unterstützt, und die
SPREAD
-Strategie wird auf diese Primärknoten angewendet. Bei dieserSPREAD
-Strategie wird eine kleine Gruppe von Instances auf separater zugrundeliegender Hardware platziert, um den Verlust mehrerer Primärknoten im Falle eines Hardwarefehlers zu verhindern. Weitere Informationen finden Sie unter EMRIntegration mit EC2 Placement Group im Amazon EMR Management Guide.Verwaltete Skalierung — Mit EMR Amazon-Version 6.1.0 können Sie Amazon EMR Managed Scaling aktivieren, um die Anzahl der Instances oder Einheiten in Ihrem Cluster je nach Arbeitslast automatisch zu erhöhen oder zu verringern. Amazon wertet EMR kontinuierlich Cluster-Metriken aus, um Skalierungsentscheidungen zu treffen, die Ihre Cluster im Hinblick auf Kosten und Geschwindigkeit optimieren. Managed Scaling ist auch auf EMR Amazon-Version 5.30.0 und höher verfügbar, außer 6.0.0. Weitere Informationen finden Sie unter Scaling Cluster Resources im Amazon EMR Management Guide.
Presto SQL Version 338 wird mit EMR 6.1.0 unterstützt. Weitere Informationen finden Sie unter Presto.
Presto SQL wird nur in EMR 6.1.0 und späteren Versionen unterstützt, nicht in 6.0.0 oder 5.x. EMR EMR
Der Anwendungsname
Presto
wird weiterhin verwendet, um PrestoDB auf Clustern zu installieren. Verwenden Sie den Anwendungsnamen, um Presto SQL auf Clustern zu installieren.PrestoSQL
Sie können entweder PrestoDB oder Presto installierenSQL, aber Sie können nicht beide auf einem einzigen Cluster installieren. Wenn beim Versuch, einen Cluster zu erstellen, sowohl PrestoDB als auch Presto angegeben SQL werden, tritt ein Validierungsfehler auf und die Anfrage zur Clustererstellung schlägt fehl.
Presto SQL wird sowohl auf Single-Master- als auch auf Multi-Master-Clustern unterstützt. Auf Multi-Master-Clustern ist ein externer Hive-Metastore erforderlich, um Presto oder SQL PrestoDB auszuführen. Weitere Informationen finden Sie unter Unterstützte Anwendungen in einem EMR Cluster mit mehreren Primärknoten.
ECRUnterstützung der auto Authentifizierung auf Apache Hadoop und Apache Spark mit Docker: Spark-Benutzer können Docker-Images von Docker Hub und Amazon Elastic Container Registry (AmazonECR) verwenden, um Umgebungs- und Bibliotheksabhängigkeiten zu definieren.
Konfigurieren Sie Docker und führen Sie Spark-Anwendungen mit Docker mithilfe von Amazon EMR 6.x aus.
EMRunterstützt Apache ACID Hive-Transaktionen: Amazon EMR 6.1.0 bietet Unterstützung für ACID Hive-Transaktionen, sodass es den ACID Eigenschaften einer Datenbank entspricht. Mit diesem Feature können Sie
INSERT, UPDATE, DELETE,
- undMERGE
-Operationen in Hive-Tabellen mit Daten in Amazon Simple Storage Service (Amazon S3) ausführen. Dies ist eine wichtige Funktion für Anwendungsfälle wie Streaming-Erfassung, Neuformulierung von Daten, Verwendung MERGE von Massenaktualisierungen und langsam ändernde Dimensionen. Weitere Informationen, einschließlich Konfigurationsbeispielen und Anwendungsfällen, finden Sie unter Amazon EMR unterstützt Apache ACID Hive-Transaktionen.
Änderungen, Verbesserungen und behobene Probleme
-
Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.
Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR
Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.
SPARK-29683
. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen. YARN-9011
. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren. Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS
Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.
Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.
Apache Flink wird auf 6.0.0 nicht unterstützt, aber es wird auf 6.1.0 mit Flink 1.11.0 unterstützt. EMR EMR Dies ist die erste Version von Flink, die Hadoop 3 offiziell unterstützt. Siehe Ankündigung der Veröffentlichung von Apache Flink 1.11.0
. Ganglia wurde aus den Standard-6.1.0-Paketpaketen entfernt. EMR
Bekannte Probleme
-
Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.
Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.
Explizit ein ulimit über die Befehlszeile setzen
Bearbeiten Sie
/etc/systemd/system/instance-controller.service
, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.LimitNOFILE=65536
LimitNPROC=65536
Starten Sie neu InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen
Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
Wichtig
Amazon EMR 6.1.0 und 6.2.0 beinhalten ein Leistungsproblem, das sich entscheidend auf alle Hudi-Einfüge-, Upsert- und Löschvorgänge auswirken kann. Wenn Sie Hudi mit Amazon EMR 6.1.0 oder 6.2.0 verwenden möchten, sollten Sie sich an den AWS Support wenden, um ein gepatchtes Hudi zu erhalten. RPM
Wenn Sie eine benutzerdefinierte Garbage-Collection-Konfiguration mit
spark.driver.extraJavaOptions
und festlegen, führt dies dazuspark.executor.extraJavaOptions
, dass der Start von Treiber/Executor mit 6.1 aufgrund einer widersprüchlichen Garbage-Collection-Konfiguration fehlschlägt. EMR In EMR Version 6.1.0 sollten Sie stattdessen eine benutzerdefinierte Spark-Garbage-Collection-Konfiguration für Treiber und Executors mit den Eigenschaften und angeben.spark.driver.defaultJavaOptions
spark.executor.defaultJavaOptions
Weitere Informationen finden Sie unter Apache Spark Runtime Environmentund Konfiguration von Spark Garbage Collection auf Amazon EMR 6.1.0. -
Die Verwendung von Pig mit Oozie (und innerhalb von Hue, da Hue Oozie-Aktionen zur Ausführung von Pig-Skripten verwendet) generiert den Fehler, dass eine native LZO-Bibliothek nicht geladen werden kann. Diese Fehlermeldung ist informativ und verhindert nicht, dass Pig ausgeführt wird.
Hudi-Parallelitätsunterstützung: Derzeit unterstützt Hudi keine gleichzeitigen Schreibvorgänge in eine einzelne Hudi-Tabelle. Darüber hinaus macht Hudi alle Änderungen rückgängig, die von in Bearbeitung befindlichen Autoren vorgenommen wurden, bevor ein neuer Writer beginnen kann. Gleichzeitige Schreibvorgänge können diesen Mechanismus stören und zu Wettlaufbedingungen führen, was zu Datenbeschädigungen führen kann. Sie sollten sicherstellen, dass im Rahmen Ihres Datenverarbeitungs-Workflows immer nur ein einziger Hudi-Writer mit einer Hudi-Tabelle arbeitet. Hudi unterstützt mehrere gleichzeitige Lesegeräte, die mit derselben Hudi-Tabelle arbeiten.
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
In Amazon EMR 6.1.0 gibt es ein Problem, das Cluster betrifft, auf denen Presto ausgeführt wird. Nach einem längeren Zeitraum (Tage) kann der Cluster Fehler wie „su: failed to execute /bin/bash: Resource temporarily unavailable“ oder „Shell-Anfrage auf Kanal 0 fehlgeschlagen“ ausgeben. Dieses Problem wird durch einen internen EMR Amazon-Prozess (InstanceController) verursacht, der zu viele Light-Weight-Prozesse (LWP) erzeugt, was letztendlich dazu führt, dass der Hadoop-Benutzer sein Nproc-Limit überschreitet. Dadurch wird verhindert, dass der Benutzer zusätzliche Prozesse öffnet. Die Lösung für dieses Problem ist ein Upgrade auf 6.2.0. EMR
Version 6.0.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 6.0.0.
Erste Version: 10. März 2020
Unterstützte Anwendungen
AWS SDK for Java Version 1.11.711
Ganglia Version 3.7.2
Hadoop Version 3.2.1
HBaseAusführung 2.2.3
HCatalogAusführung 3.1.2
Hive Version 3.1.2
Hudi Version 0.5.0-incubating
Hue Version 4.4.0
JupyterHub Ausführung 1.0.0
Livy Version 0.6.0
MXNetAusführung 1.5.1
Oozie Version 5.1.0
Phoenix Version 5.0.0
Presto Version 0.230
Spark Version 2.4.4
TensorFlow Ausführung 1.14.0
Zeppelin versie 0.9.0- SNAPSHOT
Zookeeper Version 3.4.14
Anschlüsse und Treiber: DynamoDB Connector 4.14.0
Anmerkung
Flink, Sqoop, Pig und Mahout sind in der EMR Amazon-Version 6.0.0 nicht verfügbar.
Neue Features
YARNDocker Runtime Support — YARN Anwendungen wie Spark-Jobs können jetzt im Kontext eines Docker-Containers ausgeführt werden. Auf diese Weise können Sie auf einfache Weise Abhängigkeiten in einem Docker-Image definieren, ohne benutzerdefinierte Bibliotheken auf Ihrem EMR Amazon-Cluster installieren zu müssen. Weitere Informationen finden Sie unter Docker-Integration konfigurieren und Spark-Anwendungen mit Docker mithilfe von Amazon EMR 6.0.0 ausführen.
-
LLAPHive-Unterstützung — Hive unterstützt jetzt den LLAP Ausführungsmodus für eine verbesserte Abfrageleistung. Weitere Informationen finden Sie unter Hive verwenden. LLAP
Änderungen, Verbesserungen und behobene Probleme
-
Dies ist eine Version zur Behebung von Problemen mit Amazon EMR Scaling, wenn ein Cluster nicht erfolgreich hoch-/herunterskaliert werden kann oder wenn es zu Anwendungsausfällen kommt.
Es wurde ein Problem behoben, bei dem Skalierungsanforderungen für einen großen, stark ausgelasteten Cluster fehlschlugen, wenn EMR Amazon-On-Cluster-Daemons Aktivitäten zur Integritätsprüfung durchführten, z. B. das Erfassen von YARN Knotenstatus und HDFS Knotenstatus. Dies geschah, weil On-Cluster-Daemons nicht in der Lage waren, die Gesundheitsstatusdaten eines Knotens an interne Amazon-Komponenten zu übermitteln. EMR
Die EMR Cluster-Daemons wurden verbessert, um den Knotenstatus bei der Wiederverwendung von IP-Adressen korrekt nachzuverfolgen, um die Zuverlässigkeit bei Skalierungsvorgängen zu erhöhen.
SPARK-29683
. Es wurde ein Problem behoben, bei dem während der Cluster-Skalierung Auftragsfehler auftraten, da Spark davon ausging, dass alle verfügbaren Knoten auf der Verweigern-Liste standen. YARN-9011
. Es wurde ein Problem behoben, bei dem Jobfehler aufgrund eines Fehlers bei der YARN Außerbetriebnahme auftraten, wenn der Cluster versuchte, nach oben oder unten zu skalieren. Das Problem mit Schritt- oder Jobfehlern bei der Cluster-Skalierung wurde behoben, indem sichergestellt wurde, dass die Knotenstatus zwischen den EMR Amazon-On-Cluster-Daemons und/immer konsistent sind. YARN HDFS
Es wurde ein Problem behoben, bei dem Clustervorgänge wie Herunterskalierung und Schrittübermittlung für EMR Amazon-Cluster, die mit Kerberos-Authentifizierung aktiviert waren, fehlschlugen. Dies lag daran, dass der EMR Amazon-On-Cluster-Daemon das Kerberos-Ticket nicht erneuert hat, das für die sichere Kommunikation HDFS YARN mit/auf dem primären Knoten erforderlich ist.
Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.
Amazon Linux
Amazon Linux 2 ist das Betriebssystem für die EMR 6.x-Release-Serie.
systemd
wird anstelle von inAmazon Linux 1 für das Servicemanagementupstart
verwendet.
Java-Entwicklungskit (JDK)
Corretto JDK 8 ist der Standard JDK für die EMR 6.x-Release-Serie.
Scala
Scala 2.12 wird mit Apache Spark und Apache Livy verwendet.
Python 3
Python 3 ist jetzt die Standardversion von Python inEMR.
YARNKnotenbeschriftungen
Ab der Amazon EMR 6.x-Release-Serie ist die Funktion YARN Node Labels standardmäßig deaktiviert. Die Anwendungs-Master-Prozesse können standardmäßig sowohl auf Kern- als auch auf Aufgabenknoten ausgeführt werden. Sie können die Funktion „YARNNode Labels“ aktivieren, indem Sie die folgenden Eigenschaften konfigurieren:
yarn.node-labels.enabled
undyarn.node-labels.am.default-node-label-expression
. Weitere Informationen finden Sie unter Grundlegendes zu Primär-, Kern- und Aufgabenknoten.
Bekannte Probleme
-
Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.
Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.
Explizit ein ulimit über die Befehlszeile setzen
Bearbeiten Sie
/etc/systemd/system/instance-controller.service
, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.LimitNOFILE=65536
LimitNPROC=65536
Starten Sie neu InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen
Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
Die interaktive Spark-Shell PySpark, einschließlich SparkR und Spark-Shell, unterstützt die Verwendung von Docker mit zusätzlichen Bibliotheken nicht.
-
Um Python 3 mit Amazon EMR Version 6.0.0 zu verwenden, müssen Sie Folgendes
PATH
hinzufügenyarn.nodemanager.env-whitelist
. -
Die Funktionen Live Long und Process (LLAP) werden nicht unterstützt, wenn Sie den AWS Glue-Datenkatalog als Metastore für Hive verwenden.
-
Wenn Sie Amazon EMR 6.0.0 mit Spark- und Docker-Integration verwenden, müssen Sie die Instances in Ihrem Cluster mit demselben Instance-Typ und derselben Anzahl von EBS Volumes konfigurieren, um Fehler beim Senden eines Spark-Jobs mit Docker-Laufzeit zu vermeiden.
-
In Amazon EMR 6.0.0 ist der Speichermodus HBase auf Amazon S3 vom Problem HBASE-24286
. betroffen. HBaseMaster kann nicht initialisiert werden, wenn der Cluster mit vorhandenen S3-Daten erstellt wird. -
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.30.1
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.30.1. Änderungen beziehen sich auf Version 5.30.0.
Erstveröffentlichungsdatum: 30. Juni 2020
Letzte Aktualisierung: 24. August 2020
Änderungen, Verbesserungen und behobene Probleme
Neuere EMR Amazon-Versionen beheben das Problem mit einem niedrigeren Limit für „Max. Anzahl geöffneter Dateien“ für ältere Versionen AL2 in AmazonEMR. Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten jetzt einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“.
Es wurde ein Problem behoben, bei dem der Instance-Controller-Prozess unendlich viele Prozesse ausgelöst hat.
Es wurde ein Problem behoben, bei dem Hue keine Hive-Abfrage ausführen konnte, die Meldung „Datenbank ist gesperrt“ angezeigt wurde und die Ausführung von Abfragen verhindert wurde.
Es wurde ein Spark-Problem behoben, durch das mehr Aufgaben gleichzeitig auf dem Cluster ausgeführt werden konnten. EMR
Es wurde ein Problem mit dem Jupyter Notebook behoben, das den Fehler „Zu viele Dateien öffnen“ auf dem Jupyter-Server verursachte.
Ein Problem mit den Startzeiten von Clustern wurde behoben.
Neue Features
Die persistenten Anwendungsschnittstellen der Tez-Benutzeroberfläche und des YARN Timeline-Servers sind in den EMR Amazon-Versionen 6.x und 5.30.1 und EMR höher verfügbar. Durch den Linkzugriff mit einem Klick auf den persistenten Anwendungsverlauf können Sie schnell auf den Jobverlauf zugreifen, ohne einen Web-Proxy über eine Verbindung einrichten zu müssen. SSH Protokolle für aktive und beendete Cluster sind 30 Tage nach Ende der Anwendung verfügbar. Weitere Informationen finden Sie unter Benutzerschnittstellen für persistente Anwendungen anzeigen im Amazon EMR Management Guide.
EMRNotebook Execution APIs ist verfügbar, um EMR Notebooks über ein Skript oder eine Befehlszeile auszuführen. Durch die Möglichkeit, EMR Notebook-Ausführungen ohne die AWS Konsole zu starten, zu beenden, aufzulisten und zu beschreiben, können Sie ein Notebook programmgesteuert steuern. EMR Mithilfe einer parametrisierten Notebook-Zelle können Sie verschiedene Parameterwerte an ein Notebook übergeben, ohne für jeden neuen Satz von Parameterwerten eine Kopie des Notebooks erstellen zu müssen. Siehe Aktionen. EMR API Beispielcode finden Sie unter Beispielbefehle zur programmgesteuerten Ausführung von EMR Notebooks.
Bekannte Probleme
-
Niedrigerer Grenzwert für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.
Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.
Explizit ein ulimit über die Befehlszeile setzen
Bearbeiten Sie
/etc/systemd/system/instance-controller.service
, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.LimitNOFILE=65536
LimitNPROC=65536
Starten Sie neu InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen
Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
EMRNotizbücher
Die Funktion, mit der Sie Kernel und zusätzliche Python-Bibliotheken auf dem primären Clusterknoten installieren können, ist in EMR Version 5.30.1 standardmäßig deaktiviert. Weitere Informationen zu diesem Feature finden Sie unter Installation von Kernels und Python-Bibliotheken auf einem Cluster-Primärknoten.
Um das Feature zu aktivieren, gehen Sie wie folgt vor:
Stellen Sie sicher, dass die der Servicerolle für EMR Notebooks zugeordnete Berechtigungsrichtlinie die folgende Aktion zulässt:
elasticmapreduce:ListSteps
Weitere Informationen finden Sie unter Servicerolle für EMR Notebooks.
Verwenden Sie den AWS CLI , um einen Schritt auf dem Cluster auszuführen, der EMR Notebooks einrichtet, wie im folgenden Beispiel gezeigt. Ersetzen
us-east-1
mit der Region, in der sich Ihr Cluster befindet. Weitere Informationen finden Sie unter Hinzufügen von Schritten zu einem Cluster mithilfe AWS CLI.aws emr add-steps --cluster-id
MyClusterID
--steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1
.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
-
Verwaltete Skalierung
Verwaltete Skalierungsvorgänge auf Clustern der Versionen 5.30.0 und 5.30.1, ohne dass Presto installiert ist, können zu Anwendungsausfällen führen oder dazu führen, dass eine einheitliche Instance-Gruppe oder Instance-Flotte unverändert im Status
ARRESTED
bleibt, insbesondere wenn auf einen Herunterskalierungsvorgang schnell ein Skalierungsvorgang folgt.Um dieses Problem zu umgehen, wählen Sie Presto als zu installierende Anwendung, wenn Sie einen Cluster mit den EMR Amazon-Versionen 5.30.0 und 5.30.1 erstellen, auch wenn Ihr Job Presto nicht benötigt.
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
Version 5.30.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.30.0. Änderungen beziehen sich auf Version 5.29.0.
Erste Version: 13. Mai 2020
Letzte Aktualisierung: 25. Juni 2020
Upgrades
Auf Version AWS SDK for Java 1.11.759 aktualisiert
Amazon SageMaker Spark wurde SDK auf Version 1.3.0 aktualisiert
EMRRecord Server wurde auf Version 1.6.0 aktualisiert
Flink auf Version 1.10.0 aktualisiert
Ganglia auf Version 3.7.2 aktualisiert
Auf Version HBase 1.4.13 aktualisiert
Hudi auf Version 0.5.2-incubating aktualisiert
Hue auf Version 4.6.0 aktualisiert
Auf Version JupyterHub 1.1.0 aktualisiert
Livy auf Version 0.7.0-incubating aktualisiert
Oozie auf Version 5.2.0 aktualisiert
Presto auf Version 0.232 aktualisiert
Spark auf Version 2.4.5 aktualisiert
Aktualisierte Konnektoren und Treiber: Amazon Glue Connector 1.12.0; Amazon Kinesis Connector 3.5.0; DynamoDB Connector 4.14.0 EMR
Neue Features
EMRNotebooks — Bei Verwendung mit EMR Clustern, die mit 5.30.0 erstellt wurden, werden Notebook-Kernel auf dem Cluster ausgeführt. EMR Dies verbessert die Notebook-Leistung und ermöglicht es Ihnen, Kernel zu installieren und anzupassen. Sie können Python-Bibliotheken auch auf dem Cluster-Primärknoten installieren. Weitere Informationen finden Sie unter Installation und Verwendung von Kernels and Libraries im Management Guide. EMR
Verwaltete Skalierung — Mit EMR Amazon-Version 5.30.0 und höher können Sie EMR Managed Scaling aktivieren, um die Anzahl der Instances oder Einheiten in Ihrem Cluster je nach Arbeitslast automatisch zu erhöhen oder zu verringern. Amazon wertet EMR kontinuierlich Cluster-Metriken aus, um Skalierungsentscheidungen zu treffen, die Ihre Cluster im Hinblick auf Kosten und Geschwindigkeit optimieren. Weitere Informationen finden Sie unter Scaling Cluster Resources im Amazon EMR Management Guide.
In Amazon S3 gespeicherte Protokolldateien verschlüsseln — Mit Amazon EMR Version 5.30.0 und höher können Sie in Amazon S3 gespeicherte Protokolldateien mit einem AWS KMS vom Kunden verwalteten Schlüssel verschlüsseln. Weitere Informationen finden Sie unter Verschlüsseln von in Amazon S3 gespeicherten Protokolldateien im Amazon EMR Management Guide.
Amazon Linux 2-Unterstützung — In EMR Version 5.30.0 und höher, EMR usesAmazon Linux 2-Betriebssystem. Das neue benutzerdefinierte AMIs (Amazon Machine Image) muss auf theAmazon Linux 2 basierenAMI. Weitere Informationen finden Sie unter Benutzerdefiniert verwenden AMI.
Presto Graceful Auto Scale — Für EMR Cluster, die 5.30.0 verwenden, kann ein Timeout für die automatische Skalierung festgelegt werden, sodass Presto-Aufgaben Zeit haben, ihre Ausführung zu beenden, bevor ihr Knoten außer Betrieb genommen wird. Weitere Informationen finden Sie unter Auto Scaling von Presto mit ordnungsgemäßer Stilllegung verwenden.
Erstellung einer Flotteninstanz mit neuer Zuweisungsstrategieoption — Eine neue Zuweisungsstrategieoption ist in Version 5.12.1 und höher verfügbar. EMR Sie bietet eine schnellere Cluster-Bereitstellung, eine genauere Spot-Zuweisung und weniger Unterbrechungen von Spot Instances. Aktualisierungen für nicht standardmäßige EMR Servicerollen sind erforderlich. Sehen Sie unter Konfigurieren von Instance-Flotten.
Befehle sudo systemctl stop und sudo systemctl start — In EMR Version 5.30.0 und höher, die das Betriebssystem useAmazon Linux 2 verwendet, und Befehle, um Dienste neu zu starten. EMR
sudo systemctl stop
sudo systemctl start
Weitere Informationen finden Sie unter Wie starte ich einen Service bei Amazon neuEMR?.
Änderungen, Verbesserungen und behobene Probleme
EMRVersion 5.30.0 installiert Ganglia nicht standardmäßig. Sie können Ganglia explizit für die Installation auswählen, wenn Sie einen Cluster erstellen.
Spark-Leistungsoptimierungen.
Presto-Leistungsoptimierungen.
Python 3 ist der Standard für EMR Amazon-Version 5.30.0 und höher.
Die standardmäßige verwaltete Sicherheitsgruppe für den Zugriff auf Services in privaten Subnetzen wurde mit neuen Regeln aktualisiert. Wenn Sie benutzerdefinierte Sicherheitsgruppe für den Servicezugriff verwenden, müssen Sie dieselben Regeln wie die standardmäßige verwaltete Sicherheitsgruppe einschließen. Weitere Informationen finden Sie unter Amazon EMR -Managed Security Group for Service Access (Private Subnets). Wenn Sie eine benutzerdefinierte Servicerolle für Amazon verwendenEMR, müssen Sie die entsprechenden Berechtigungen erteilen,
ec2:describeSecurityGroups
damit überprüft werden EMR kann, ob die Sicherheitsgruppen korrekt erstellt wurden. Wenn SieEMR_DefaultRole
verwenden, ist diese Berechtigung bereits in der standardmäßigen verwalteten Richtlinie enthalten.
Bekannte Probleme
-
Niedrigeres Limit für die maximale Anzahl geöffneter Dateien bei älteren Versionen AL2 [in neueren Versionen behoben]. EMRAmazon-Versionen: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 und emr-6.2.0 basieren auf älteren Versionen von ofAmazon Linux 2 (AL2), die eine niedrigere Ulimit-Einstellung für „Max. Geöffnete Dateien“ haben, wenn Amazon-Cluster mit der Standardeinstellung erstellt werden. EMR AMI Die EMR Amazon-Versionen 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 und höher enthalten einen dauerhaften Fix mit einer höheren Einstellung für „Max. Anzahl geöffneter Dateien“. Versionen mit einem niedrigeren Limit für geöffnete Dateien verursachen beim Senden des Spark-Jobs den Fehler „Zu viele offene Dateien“. In den betroffenen Versionen AMI hat die EMR Amazon-Standardeinstellung eine Ulimit-Standardeinstellung von 4096 für „Max. Geöffnete Dateien“, was unter dem Dateilimit von 65536 in Linux 2 liegt. latestAmazon AMI Die niedrigere Ulimit-Einstellung für „Max. Anzahl geöffneter Dateien“ führt dazu, dass der Spark-Job fehlschlägt, wenn der Spark-Treiber und der Executor versuchen, mehr als 4 096 Dateien zu öffnen. Um das Problem zu beheben, EMR verfügt Amazon über ein Bootstrap Action (BA) -Skript, das die Ulimit-Einstellung bei der Cluster-Erstellung anpasst.
Wenn Sie eine ältere EMR Amazon-Version verwenden, die nicht über die permanente Lösung für dieses Problem verfügt, können Sie mit der folgenden Problemumgehung das Instance-Controller-Ulimit explizit auf maximal 65536 Dateien festlegen.
Explizit ein ulimit über die Befehlszeile setzen
Bearbeiten Sie
/etc/systemd/system/instance-controller.service
, um die folgenden Parameter zum Abschnitt Service hinzuzufügen.LimitNOFILE=65536
LimitNPROC=65536
Starten Sie neu InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Mithilfe der Bootstrap-Aktion (BA) ein Ulimit festlegen
Sie können auch ein Bootstrap-Aktionsskript (BA) verwenden, um das Ulimit für den Instance-Controller bei der Clustererstellung auf 65 536 Dateien zu konfigurieren.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
Verwaltete Skalierung
Verwaltete Skalierungsvorgänge auf Clustern der Versionen 5.30.0 und 5.30.1, ohne dass Presto installiert ist, können zu Anwendungsausfällen führen oder dazu führen, dass eine einheitliche Instance-Gruppe oder Instance-Flotte unverändert im Status
ARRESTED
bleibt, insbesondere wenn auf einen Herunterskalierungsvorgang schnell ein Skalierungsvorgang folgt.Um dieses Problem zu umgehen, wählen Sie Presto als zu installierende Anwendung, wenn Sie einen Cluster mit den EMR Amazon-Versionen 5.30.0 und 5.30.1 erstellen, auch wenn Ihr Job Presto nicht benötigt.
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Die Standard-Datenbank-Engine für Hue 4.6.0 istSQLite, was zu Problemen führt, wenn Sie versuchen, Hue mit einer externen Datenbank zu verwenden. Um dieses Problem zu beheben, setzen Sie
engine
in Ihrerhue-ini
Konfigurationsklassifizierung aufmysql
. Dieses Problem wurde in EMR Amazon-Version 5.30.1 behoben.Wenn Sie Spark mit der Formatierung des Hive-Partitionsspeicherorts verwenden, um Daten in Amazon S3 zu lesen, und Sie Spark auf den EMR Amazon-Versionen 5.30.0 bis 5.36.0 und 6.2.0 bis 6.9.0 ausführen, kann ein Problem auftreten, das verhindert, dass Ihr Cluster Daten korrekt liest. Dies kann passieren, wenn Ihre Partitionen alle der folgenden Eigenschaften aufweisen:
-
Zwei oder mehr Partitionen werden aus derselben Tabelle gescannt.
-
Mindestens ein Partitionsverzeichnispfad ist ein Präfix für mindestens einen anderen Partitionsverzeichnispfad, z. B. ist
s3://bucket/table/p=a
ein Präfix vons3://bucket/table/p=a b
. -
Das erste Zeichen, das auf das Präfix im anderen Partitionsverzeichnis folgt, hat einen Wert von UTF -8, der kleiner als das Zeichen (U+002F) ist.
/
Beispielsweise fällt das Leerzeichen (U+0020), das ins3://bucket/table/p=a b
zwischen a und b vorkommt, in diese Kategorie. Beachten Sie, dass es 14 weitere Zeichen gibt, die keine Kontrollzeichen sind:!"#$%&‘()*+,-
. Weitere Informationen finden Sie unter Kodierungstabelle UTF -8und Unicode-Zeichen.
Um dieses Problem zu umgehen, stellen Sie die
spark.sql.sources.fastS3PartitionDiscovery.enabled
-Konfiguration auffalse
in derspark-defaults
-Klassifizierung ein.-
Version 5.29.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.29.0. Änderungen beziehen sich auf Version 5.28.1.
Erste Version: 17. Januar 2020
Upgrades
Auf Version AWS SDK for Java 1.11.682 aktualisiert
Upgrade von Hive auf Version 2.3.6
Flink wurde auf Version 1.9.1 aktualisiert
EmrFS wurde auf Version 2.38.0 aktualisiert
EMRDynamoDB Connector wurde auf Version 4.13.0 aktualisiert
Änderungen, Verbesserungen und behobene Probleme
Spark
Spark-Leistungsoptimierungen.
EMRFS
Management Guide aktualisiert die Standardeinstellungen von emrfs-site.xml für eine konsistente Ansicht.
Bekannte Probleme
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.28.1
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.28.1. Änderungen beziehen sich auf Version 5.28.0.
Erste Version: 10. Januar 2020
Änderungen, Verbesserungen und behobene Probleme
Spark
Spark-Kompatibilitätsprobleme behoben.
CloudWatch Metriken
Fehler bei der Veröffentlichung von Amazon CloudWatch Metrics auf einem EMR Cluster mit mehreren Primärknoten behoben.
Deaktivierte Protokollnachricht
Falsche Protokollnachricht „… verwendet die alte Version (<4.5.8) des Apache-HTTP-Clients“ deaktiviert.
Bekannte Probleme
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.28.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.28.0. Änderungen beziehen sich auf Version 5.27.0.
Erste Version: 12. November 2019
Upgrades
Upgrade von Flink auf Version 1.9.0
Upgrade von Hive auf Version 2.3.6
Auf Version MXNet 1.5.1 aktualisiert
Upgrade von Phoenix auf Version 4.14.3
Upgrade von Presto auf Version 0.227
Upgrade von Zeppelin auf Version 0.8.2
Neue Features
Apache Hudi
kann jetzt von Amazon installiert EMR werden, wenn Sie einen Cluster erstellen. Weitere Informationen finden Sie unter Hudi. (25. November 2019) Sie können jetzt auf Wunsch mehrere Schritte gleichzeitig ausführen, um die Cluster-Nutzung zu verbessern und Kosten zu sparen. Außerdem können Sie sowohl anstehende als auch laufende Schritte stornieren. Weitere Informationen finden Sie unter Arbeiten mit Schritten mithilfe der AWS CLI AND-Konsole.
(3. Dezember 2019) Sie können jetzt EMR Cluster auf erstellen und ausführen AWS Outposts. AWS Outposts ermöglicht native AWS Dienste, Infrastrukturen und Betriebsmodelle in lokalen Einrichtungen. In AWS Outposts Umgebungen können Sie dieselben AWS APIs Tools und dieselbe Infrastruktur verwenden wie in der AWS Cloud. Weitere Informationen finden Sie unter EMRCluster on AWS Outposts.
(11. März 2020) Ab EMR Amazon-Version 5.28.0 können Sie EMR Amazon-Cluster in einem Local Zones-Subnetz als logische Erweiterung einer AWS Region, die AWS Local Zones unterstützt, erstellen und ausführen. Eine lokale Zone ermöglicht es, EMR Amazon-Funktionen und eine Untergruppe von AWS Diensten, wie Rechen- und Speicherdienste, näher an den Benutzern zu platzieren, wodurch der Zugriff auf lokal ausgeführte Anwendungen mit sehr geringer Latenz ermöglicht wird. Eine Liste der verfügbaren Local Zones finden Sie unter AWS Local Zones
. Informationen zum Zugriff auf verfügbare AWS Local Zones finden Sie unter Regionen, Availability Zones und Local Zones. Local Zones unterstützen derzeit keine EMR Amazon-Notebooks und unterstützen keine direkten Verbindungen zu Amazon EMR über den VPC Schnittstellenendpunkt (AWS PrivateLink).
Änderungen, Verbesserungen und behobene Probleme
Erweiterter Anwendungssupport für Cluster mit hoher Verfügbarkeit
Weitere Informationen finden Sie unter Unterstützte Anwendungen in einem EMR Cluster mit mehreren Primärknoten im Amazon EMR Management Guide.
Spark
Leistungsoptimierungen
Hive
Leistungsoptimierungen
Presto
Leistungsoptimierungen
Bekannte Probleme
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Veröffentlichung 5.27.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.27.0. Änderungen beziehen sich auf Version 5.26.0.
Erste Version: 23. September 2019
Upgrades
AWS SDK for Java 1.11.615
Flink 1.8.1
JupyterHub 1.0.0
Spark 2.4.4
Tensorflow 1,14.0
-
Konnektoren und Treiber:
DynamoDB Connector 4.12.0
Neue Features
(24. Oktober 2019) Die folgenden neuen Funktionen in EMR Notizbüchern sind in allen EMR Amazon-Versionen verfügbar.
Sie können jetzt Git-Repositorys mit EMR Notizbüchern verknüpfen, um Ihre Notizbücher in einer versionskontrollierten Umgebung zu speichern. Sie können Code mit Kollegen teilen und vorhandene Jupyter Notebooks über Remote-Git-Repositorys wiederverwenden. Weitere Informationen finden Sie unter Git-Repositorys mit Amazon EMR Notebooks verknüpfen im Amazon EMR Management Guide.
Das Hilfsprogramm nbdime
ist jetzt in EMR Notebooks verfügbar, um das Vergleichen und Zusammenführen von Notizbüchern zu vereinfachen. EMRNotebooks werden jetzt unterstützt. JupyterLab JupyterLab ist eine webbasierte interaktive Entwicklungsumgebung, die vollständig mit Jupyter-Notebooks kompatibel ist. Sie können jetzt wählen, ob Sie Ihr Notizbuch entweder im JupyterLab Jupyter-Notebook-Editor öffnen möchten.
(30. Oktober 2019) Mit den EMR Amazon-Versionen 5.25.0 und höher können Sie über die Cluster-Übersichtsseite oder den Tab Anwendungsverlauf in der Konsole eine Verbindung zur Benutzeroberfläche des Spark-Verlaufs herstellen. Anstatt einen Web-Proxy über eine SSH Verbindung einzurichten, können Sie schnell auf die Benutzeroberfläche des Spark-History-Servers zugreifen, um Anwendungsmetriken einzusehen und auf relevante Protokolldateien für aktive und beendete Cluster zuzugreifen. Weitere Informationen finden Sie unter Off-Cluster-Zugriff auf persistente Anwendungsbenutzeroberflächen im Amazon EMR Management Guide.
Änderungen, Verbesserungen und behobene Probleme
-
EMRAmazon-Cluster mit mehreren Primärknoten
-
Sie können Flink auf einem EMR Amazon-Cluster mit mehreren Primärknoten installieren und ausführen. Weitere Informationen finden Sie unter Unterstützte Anwendungen und Features.
-
Sie können HDFS transparente Verschlüsselung auf einem EMR Amazon-Cluster mit mehreren Primärknoten konfigurieren. Weitere Informationen finden Sie unter HDFSTransparente Verschlüsselung auf EMR Clustern mit mehreren Primärknoten.
-
Sie können jetzt die Konfiguration von Anwendungen ändern, die auf einem EMR Amazon-Cluster mit mehreren Primärknoten ausgeführt werden. Weitere Informationen finden Sie unter Angeben einer Konfiguration für eine Instance-Gruppe in einem aktiven Cluster.
-
-
EMRAmazon-DynamoDB-Konnektor
-
Amazon EMR -DynamoDB Connector unterstützt jetzt die folgenden DynamoDB-Datentypen: boolean, list, map, item, null. Weitere Informationen finden Sie unter Eine Hive-Tabelle zur Ausführung von Hive-Befehlen einrichten.
-
Bekannte Probleme
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.26.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.26.0. Änderungen beziehen sich auf Version 5.25.0.
Erste Version: 8. August 2019
Letzte Aktualisierung: 19. August 2019
Upgrades
AWS SDK for Java 1.11.595
HBase1.4,10
Phoenix 4.14.2
-
Konnektoren und Treiber:
DynamoDB Connector 4.11.0
MariaDB Connector 2.4.2
Amazon Redshift JDBC Redshift-Treiber 1.2.32.1056
Neue Features
(Beta) Mit Amazon EMR 5.26.0 können Sie einen Cluster starten, der in Lake Formation integriert ist. Diese Integration bietet einen detaillierten Zugriff auf Spaltenebene auf Datenbanken und Tabellen im Glue-Datenkatalog. AWS Sie ermöglicht auch föderiertes Single Sign-On für EMR Notebooks oder Apache Zeppelin von einem Unternehmensidentitätssystem aus. Weitere Informationen finden Sie unter Integration von Amazon EMR mit AWS Lake Formation (Beta).
(19. August 2019) Amazon EMR Block Public Access ist jetzt in allen EMR Amazon-Versionen verfügbar, die Sicherheitsgruppen unterstützen. Den öffentlichen Zugriff blockieren ist eine kontoweite Einstellung, die für jede AWS Region gilt. Den öffentlichen Zugriff blockieren verhindert, dass ein Cluster gestartet wird, wenn eine dem Cluster zugeordnete Sicherheitsgruppe über eine Regel verfügt, die eingehenden Datenverkehr von IPv4 0.0.0.0/0 oderIPv6:: /0 (öffentlicher Zugriff) auf einem Port zulässt, sofern kein Port als Ausnahme angegeben ist. Port 22 ist standardmäßig eine Ausnahme. Weitere Informationen finden Sie unter Using Amazon EMR Block Public Access im Amazon EMR Management Guide.
Änderungen, Verbesserungen und behobene Probleme
-
EMRNotizbücher
-
Ab Version EMR 5.26.0 unterstützt EMR Notebooks zusätzlich zu den Standard-Python-Bibliotheken auch Python-Bibliotheken für Notebooks. Sie können Bibliotheken für Notebooks vom Notebook-Editor aus installieren, ohne einen Cluster neu erstellen oder ein Notebook erneut an einen Cluster anhängen zu müssen. Notebook-bezogene Bibliotheken werden in einer virtuellen Python-Umgebung erstellt und gelten daher nur für die aktuelle Notebook-Sitzung. Auf diese Weise können Sie Abhängigkeiten zwischen Notebooks isolieren. Weitere Informationen finden Sie unter Using Notebook Scoped Libraries im Amazon EMR Management Guide.
-
-
EMRFS
-
Sie können eine ETag Bestätigungsfunktion (Beta) aktivieren, indem Sie auf einstellen
fs.s3.consistent.metadata.etag.verification.enabled
.true
Mit dieser Funktion überprüft Amazon EMRFS S3, ob ETags es sich bei den gelesenen Objekten um die neueste verfügbare Version handelt. Diese Funktion ist hilfreich für read-after-update Anwendungsfälle, in denen Dateien auf Amazon S3 überschrieben werden, während derselbe Name beibehalten wird. Diese ETag Überprüfungsfunktion funktioniert derzeit nicht mit S3 Select. Weitere Informationen finden Sie unter Konfigurieren der konsistenten Ansicht.
-
Spark
Die folgenden Optimierungen sind jetzt standardmäßig aktiviert: dynamisches Bereinigen von Partitionen DISTINCT zuvorINTERSECT, Verbesserungen bei der Ableitung von SQL Planstatistiken für JOIN nachfolgende DISTINCT Abfragen, Reduzierung skalarer Unterabfragen, optimierte Neureihenfolge von Verknüpfungen und Bloom-Filter-Join. Weitere Informationen finden Sie unter Optimieren der Spark-Leistung.
Die Codegenerierung für die gesamte Phase für Sort Merge Join wurde verbessert.
Die Wiederverwendung von Abfragefragmenten und Unterabfragen wurde verbessert.
Verbesserungen bei der Vorabzuweisung von Executoren beim Start von Spark.
Bloom-Filter-Joins werden nicht mehr angewendet, wenn die kleinere Seite der Verknüpfung einen Broadcast-Hinweis enthält.
-
Tez
-
Ein Problem mit Tez wurde behoben. Tez UI funktioniert jetzt auf einem EMR Amazon-Cluster mit mehreren Primärknoten.
-
Bekannte Probleme
-
Die verbesserten Funktionen zur Codegenerierung in der gesamten Phase für Sort Merge Join können den Speicherdruck erhöhen, wenn sie aktiviert sind. Diese Optimierung verbessert die Leistung, kann jedoch zu Wiederholungsversuchen oder Fehlschlägen führen, wenn der nicht so eingestellt
spark.yarn.executor.memoryOverheadFactor
ist, dass er genügend Speicher zur Verfügung stellt. Um dieses Feature zu deaktivieren, setzen Siespark.sql.sortMergeJoinExec.extendedCodegen.enabled
auf „false“. -
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.25.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.25.0. Änderungen beziehen sich auf Version 5.24.1.
Erste Version: 17. Juli 2019
Letzte Aktualisierung: 30. Oktober 2019
Amazon EMR 5,25,0
Upgrades
AWS SDK for Java 1,11.566
Hive 2.3.5
Presto 0.220
Spark 2.4.3
TensorFlow 1,13,1
Tez 0.9.2
Zookeeper 3.4.14
Neue Features
(30. Oktober 2019) Ab EMR Amazon-Version 5.25.0 können Sie über die Cluster-Übersichtsseite oder den Tab Anwendungsverlauf in der Konsole eine Verbindung zur Benutzeroberfläche des Spark-Verlaufs herstellen. Anstatt einen Web-Proxy über eine SSH Verbindung einzurichten, können Sie schnell auf die Benutzeroberfläche des Spark-History-Servers zugreifen, um Anwendungsmetriken einzusehen und auf relevante Protokolldateien für aktive und beendete Cluster zuzugreifen. Weitere Informationen finden Sie unter Off-Cluster-Zugriff auf persistente Anwendungsbenutzeroberflächen im Amazon EMR Management Guide.
Änderungen, Verbesserungen und behobene Probleme
-
Spark
Die Leistung einiger Verknüpfungen wurde verbessert, indem Bloom-Filter zum Vorfiltern von Eingaben verwendet wurden. Die Optimierung ist standardmäßig deaktiviert und kann aktiviert werden, indem der Spark-Konfigurationsparameter
spark.sql.bloomFilterJoin.enabled
auftrue
gesetzt wird.Die Leistung bei der Gruppierung nach Spalten vom Typ Zeichenfolge wurde verbessert.
-
Die standardmäßige Speicher- und Kernkonfiguration von Spark Executor für R4-Instance-Typen für Cluster ohne Installation wurde verbessert. HBase
Es wurde ein früheres Problem mit dem Feature zum dynamischen Bereinigen von Partitionen behoben, bei dem sich die bereinigte Tabelle auf der linken Seite des Joins befinden musste.
DISTINCTVor der INTERSECT Optimierung verbessert und gilt nun auch für weitere Fälle, in denen Aliase involviert sind.
-
Die Inferenz von SQL Planstatistiken für Abfragen, JOIN denen gefolgt von DISTINCT Abfragen, wurde verbessert. Diese Verbesserung ist standardmäßig deaktiviert und kann aktiviert werden, indem der Spark-Konfigurationsparameter
spark.sql.statsImprovements.enabled
auftrue
gesetzt wird. Diese Optimierung ist für das Feature „Unterscheiden vor Überschneiden“ erforderlich und wird automatisch aktiviert, wennspark.sql.optimizer.distinctBeforeIntersect.enabled
auftrue
gesetzt ist. Optimierte Verbindungsreihenfolge basierend auf Tabellengröße und Filtern. Diese Optimierung ist standardmäßig deaktiviert und kann aktiviert werden, indem der Spark-Konfigurationsparameter
spark.sql.optimizer.sizeBasedJoinReorder.enabled
auftrue
gesetzt wird.
Weitere Informationen finden Sie unter Optimieren der Spark-Leistung.
-
EMRFS
-
Die EMRFS Einstellung,
fs.s3.buckets.create.enabled
, ist jetzt standardmäßig deaktiviert. Bei Tests haben wir festgestellt, dass die Deaktivierung dieser Einstellung die Leistung verbessert und die unbeabsichtigte Erstellung von S3-Buckets verhindert. Wenn Ihre Anwendung auf dieser Funktionalität basiert, können Sie sie aktivieren, indem Sie die Eigenschafttrue
in der Konfigurationsklassifizierung vonfs.s3.buckets.create.enabled
aufemrfs-site
setzen. Weitere Informationen finden Sie unter Angeben einer Konfiguration beim Erstellen eines Clusters.
-
Verbesserungen der lokalen Festplattenverschlüsselung und der S3-Verschlüsselung in Sicherheitskonfigurationen (5. August 2019)
Die Amazon-S3-Verschlüsselungseinstellungen wurden im Sicherheitskonfigurations-Setup von den Einstellungen für die lokale Festplattenverschlüsselung getrennt.
Es wurde eine Option hinzugefügt, um die EBS Verschlüsselung mit Version 5.24.0 und höher zu aktivieren. Bei Auswahl dieser Option wird zusätzlich zu den Speichervolumes auch das Root-Geräte-Volume verschlüsselt. Frühere Versionen erforderten die Verwendung eines benutzerdefinierten Datenträgers AMI zur Verschlüsselung des Root-Geräte-Volumes.
Weitere Informationen finden Sie unter Verschlüsselungsoptionen im Amazon EMR Management Guide.
Bekannte Probleme
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.24.1
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.24.1. Änderungen beziehen sich auf Version 5.24.0.
Erste Version: 26. Juni 2019
Änderungen, Verbesserungen und behobene Probleme
Die Standardversion von Amazon Linux AMI für Amazon wurde aktualisiert und enthält EMR nun wichtige Sicherheitsupdates für den Linux-Kernel, einschließlich des TCP SACK Denial-of-Service-Problems (AWS-2019-005
).
Bekannte Probleme
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.24.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.24.0. Änderungen beziehen sich auf Version 5.23.0.
Erste Version: 11. Juni 2019
Letzte Aktualisierung: 5. August 2019
Upgrades
Flink 1.8.0
Hue 4.4.0
JupyterHub 0.9.6
Livy 0.6.0
MxNet 1.4.0
Presto 0.219
Spark 2.4.2
AWS SDK for Java 1,11.546
-
Konnektoren und Treiber:
DynamoDB Connector 4.9.0
MariaDB Connector 2.4.1
Amazon Redshift JDBC Redshift-Treiber 1.2.27.1051
Änderungen, Verbesserungen und behobene Probleme
Spark
Es wurde eine Optimierung für das dynamische Bereinigen von Partitionen hinzugefügt. Die Optimierung ist standardmäßig deaktiviert. Um es zu aktivieren, setzen Sie den Spark-Konfigurationsparameter
spark.sql.dynamicPartitionPruning.enabled
auftrue
.Die Leistung von
INTERSECT
-Anfragen wurde verbessert. Diese Optimierung ist standardmäßig deaktiviert. Um es zu aktivieren, setzen Sie den Spark-Konfigurationsparameterspark.sql.optimizer.distinctBeforeIntersect.enabled
auftrue
.Es wurde eine Optimierung hinzugefügt, um skalare Unterabfragen mit Aggregaten, die dieselbe Beziehung verwenden, zu vereinfachen. Die Optimierung ist standardmäßig deaktiviert. Um es zu aktivieren, setzen Sie den Spark-Konfigurationsparameter
spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled
auftrue
.Die Codegenerierung für die gesamte Phase wurde verbessert.
Weitere Informationen finden Sie unter Optimieren der Spark-Leistung.
Verbesserungen der lokalen Festplattenverschlüsselung und der S3-Verschlüsselung in Sicherheitskonfigurationen (5. August 2019)
Die Amazon-S3-Verschlüsselungseinstellungen wurden im Sicherheitskonfigurations-Setup von den Einstellungen für die lokale Festplattenverschlüsselung getrennt.
Es wurde eine Option hinzugefügt, um die Verschlüsselung zu aktivieren. EBS Bei Auswahl dieser Option wird zusätzlich zu den Speichervolumes auch das Root-Geräte-Volume verschlüsselt. Frühere Versionen erforderten die Verwendung eines benutzerdefinierten VolumesAMI, um das Root-Geräte-Volume zu verschlüsseln.
Weitere Informationen finden Sie unter Verschlüsselungsoptionen im Amazon EMR Management Guide.
Bekannte Probleme
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.23.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.23.0. Änderungen beziehen sich auf Version 5.22.0.
Erste Version: 01. April 2019
Letzte Aktualisierung: 30. April 2019
Upgrades
AWS SDK for Java 1.11.519
Neue Features
(30. April 2019) Mit Amazon EMR 5.23.0 und höher können Sie einen Cluster mit drei primären Knoten starten, um die Hochverfügbarkeit von Anwendungen wie YARN Resource Manager, Spark HDFS NameNode, Hive und Ganglia zu unterstützen. Der Primärknoten ist mit diesem Feature keine potenzielle einzelne Fehlerquelle mehr. Wenn einer der Primärknoten ausfällt, wechselt Amazon EMR automatisch zu einem Standby-Primärknoten und ersetzt den ausgefallenen Primärknoten durch einen neuen mit derselben Konfiguration und denselben Bootstrap-Aktionen. Weitere Informationen finden Sie unter Primärknoten planen und konfigurieren.
Bekannte Probleme
-
Tez UI (In EMR Amazon-Version 5.26.0 behoben)
Die Tez-Benutzeroberfläche funktioniert nicht auf einem EMR Cluster mit mehreren Primärknoten.
-
Farbton (In EMR Amazon-Version 5.24.0 behoben)
-
Hue, das auf Amazon EMR läuft, unterstützt Solr nicht. Ab EMR Amazon-Version 5.20.0 führt ein Problem mit der Fehlkonfiguration dazu, dass Solr aktiviert wird und eine harmlose Fehlermeldung ähnlich der folgenden angezeigt wird:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
So wird verhindert, dass die Solr-Fehlermeldung angezeigt wird:
Stellen Sie mit der Befehlszeile des primären Knotens eine ConnectSSH.
Verwenden Sie einen Texteditor zum Öffnen der
hue.ini
-Datei. Beispielsweise:sudo vim /etc/hue/conf/hue.ini
Suchen Sie nach dem Begriff
appblacklist
und ändern Sie die Zeile wie folgt:appblacklist = search
Speichern Sie Ihre Änderungen und starten Sie Hue wie im folgenden Beispiel gezeigt:
sudo stop hue; sudo start hue
-
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.22.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.22.0. Änderungen beziehen sich auf Version 5.21.0.
Wichtig
Ab EMR Amazon-Version 5.22.0 EMR verwendet Amazon AWS Signature Version 4 ausschließlich zur Authentifizierung von Anfragen an Amazon S3. Frühere EMR Amazon-Versionen verwenden in einigen Fällen AWS Signature Version 2, sofern in den Versionshinweisen nicht angegeben ist, dass ausschließlich Signature Version 4 verwendet wird. Weitere Informationen finden Sie unter Authentifizieren von Anfragen (AWS Signature Version 4) und Authentifizieren von Anfragen (AWS Signature Version 2) im Amazon Simple Storage Service Developer Guide.
Erste Version: 20. März 2019
Upgrades
Flink 1.7.1
HBase1.4.9
Oozie 5.1.0
Phoenix 4.14.1
Zeppelin 0.8.1
-
Konnektoren und Treiber:
DynamoDB Connector 4.8.0
MariaDB Connector 2.2.6
Amazon Redshift JDBC Redshift-Treiber 1.2.20.1043
Neue Features
Die EBS Standardkonfiguration für EC2 Instance-Typen mit -only-Speicher wurde geändert. EBS Wenn Sie einen Cluster mit Amazon EMR Version 5.22.0 und höher erstellen, erhöht sich die EBS Standardspeichermenge je nach Größe der Instance. Darüber hinaus haben wir den erhöhten Speicherplatz auf mehrere Volumes aufgeteilt, um die Leistung zu erhöhenIOPS. Wenn Sie eine andere EBS Instance-Speicherkonfiguration verwenden möchten, können Sie diese angeben, wenn Sie einen EMR Cluster erstellen oder Knoten zu einem vorhandenen Cluster hinzufügen. Weitere Informationen zur Speichermenge und Anzahl der standardmäßig zugewiesenen Volumes für jeden Instance-Typ finden Sie unter EBSStandardspeicher für Instances im Amazon EMR Management Guide.
Änderungen, Verbesserungen und behobene Probleme
Spark
Es wurde eine neue Konfigurationseigenschaft für Spark aufYARN, eingeführt
spark.yarn.executor.memoryOverheadFactor
. Der Wert dieser Eigenschaft ist ein Skalierungsfaktor, der den Wert des Speicher-Overheads auf einen Prozentsatz des Executor-Speichers festlegt, mit einem Minimum von 384 MB. Wenn der Speicher-Overhead explizit mitspark.yarn.executor.memoryOverhead
festgelegt wird, hat diese Eigenschaft keine Auswirkung. Der Standardwert ist0.1875
, was 18.75 % entspricht. Dieser Standard für Amazon EMR lässt mehr Platz in YARN Containern für den Executor-Speicheraufwand übrig als der intern von Spark festgelegte Standard von 10%. Der EMR Amazon-Standard von 18,75% ergab empirisch weniger speicherbedingte Ausfälle in -DS-Benchmarks. TPC-26316 wurde zurückportiert, um die Leistung zu verbessern. SPARK
In den EMR Amazon-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN Knotenbezeichnungen in einem Verzeichnis gespeichert. HDFS In einigen Situationen führt dies zu Verzögerungen beim Startup des Core-Knotens und dann zu einem Cluster-Timeout und einem Startfehler. Ab Amazon EMR 5.22.0 ist dieses Problem behoben. YARNKnotenbezeichnungen werden auf der lokalen Festplatte jedes Clusterknotens gespeichert, wodurch Abhängigkeiten von vermieden werden. HDFS
Bekannte Probleme
-
Farbton (In EMR Amazon-Version 5.24.0 behoben)
-
Hue, das auf Amazon EMR läuft, unterstützt Solr nicht. Ab EMR Amazon-Version 5.20.0 führt ein Problem mit der Fehlkonfiguration dazu, dass Solr aktiviert wird und eine harmlose Fehlermeldung ähnlich der folgenden angezeigt wird:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
So wird verhindert, dass die Solr-Fehlermeldung angezeigt wird:
Stellen Sie mit der Befehlszeile des primären Knotens eine ConnectSSH.
Verwenden Sie einen Texteditor zum Öffnen der
hue.ini
-Datei. Beispielsweise:sudo vim /etc/hue/conf/hue.ini
Suchen Sie nach dem Begriff
appblacklist
und ändern Sie die Zeile wie folgt:appblacklist = search
Speichern Sie Ihre Änderungen und starten Sie Hue wie im folgenden Beispiel gezeigt:
sudo stop hue; sudo start hue
-
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.21.1
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.21.1. Änderungen beziehen sich auf Version 5.21.0.
Erste Version: 18. Juli 2019
Änderungen, Verbesserungen und behobene Probleme
Die Standardversion von Amazon Linux AMI für Amazon wurde aktualisiert und enthält EMR nun wichtige Sicherheitsupdates für den Linux-Kernel, einschließlich des TCP SACK Denial-of-Service-Problems (AWS-2019-005
).
Bekannte Probleme
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.21.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.21.0. Änderungen beziehen sich auf Version 5.20.0.
Veröffentlichungsdatum: 18. Februar 2019
Letzte Aktualisierung: 3. April 2019
Upgrades
Flink 1.7.0
Presto 0.215
AWS SDK for Java 1.11.479
Neue Features
(3. April 2019) Mit EMR Amazon-Version 5.21.0 und höher können Sie Cluster-Konfigurationen überschreiben und zusätzliche Konfigurationsklassifizierungen für jede Instance-Gruppe in einem laufenden Cluster angeben. Sie tun dies, indem Sie die EMR Amazon-Konsole, die AWS Command Line Interface (AWS CLI) oder die verwenden AWS SDK. Weitere Informationen finden Sie unter Angeben einer Konfiguration für eine Instance-Gruppe in einem aktiven Cluster.
Änderungen, Verbesserungen und behobene Probleme
-
Zeppelin
-
Rückportiert ZEPPELIN-3878
.
-
Bekannte Probleme
-
Farbton (In EMR Amazon-Version 5.24.0 behoben)
-
Hue, das auf Amazon EMR läuft, unterstützt Solr nicht. Ab EMR Amazon-Version 5.20.0 führt ein Problem mit der Fehlkonfiguration dazu, dass Solr aktiviert wird und eine harmlose Fehlermeldung ähnlich der folgenden angezeigt wird:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
So wird verhindert, dass die Solr-Fehlermeldung angezeigt wird:
Stellen Sie mit der Befehlszeile des primären Knotens eine ConnectSSH.
Verwenden Sie einen Texteditor zum Öffnen der
hue.ini
-Datei. Beispielsweise:sudo vim /etc/hue/conf/hue.ini
Suchen Sie nach dem Begriff
appblacklist
und ändern Sie die Zeile wie folgt:appblacklist = search
Speichern Sie Ihre Änderungen und starten Sie Hue wie im folgenden Beispiel gezeigt:
sudo stop hue; sudo start hue
-
-
Tez
-
Dieses Problem wurde in Amazon EMR 5.22.0 behoben.
Wenn Sie unter http://eine Verbindung zur Tez-Benutzeroberfläche herstellen
MasterDNS
:8080/tez-ui über eine SSH Verbindung zum primären Clusterknoten wird der Fehler „Adaptervorgang fehlgeschlagen - Timeline-Server () ATS ist außer Reichweite“ angezeigt. Entweder ist er ausgefallen oder nicht aktiviert“ CORS wird angezeigt, oder Aufgaben zeigen unerwartet „N/A“ an.Dies wird dadurch verursacht, dass die Tez-Benutzeroberfläche Anfragen an den YARN Timeline Server sendet und
localhost
nicht den Hostnamen des primären Knotens verwendet. Um dieses Problem zu umgehen, steht ein Skript zur Verfügung, das als Bootstrap-Aktion oder als Bootstrap-Schritt ausgeführt werden kann. Das Skript aktualisiert den Hostnamen in derconfigs.env
Tez-Datei. Weitere Informationen und den Speicherort des Skripts finden Sie in den Bootstrap-Anweisungen.
-
In den EMR Amazon-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN Knotenbezeichnungen in einem Verzeichnis gespeichert. HDFS In einigen Situationen führt dies zu Verzögerungen beim Startup des Core-Knotens und dann zu einem Cluster-Timeout und einem Startfehler. Ab Amazon EMR 5.22.0 ist dieses Problem behoben. YARNKnotenbezeichnungen werden auf der lokalen Festplatte jedes Clusterknotens gespeichert, wodurch Abhängigkeiten von vermieden werden. HDFS
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.20.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.20.0. Änderungen beziehen sich auf Version 5.19.0.
Veröffentlichungsdatum: 18. Dezember 2018
Letzte Aktualisierung: 22. Januar 2019
Upgrades
Flink 1.6.2
HBase1.4.8
Hive 2.3.4
Hue 4.3.0
MXNet1.3.1
Presto 0.214
Spark 2.4.0
TensorFlow 1.12.0
Tez 0.9.1
AWS SDK for Java 1.11.461
Neue Features
(22. Januar 2019) Kerberos in Amazon EMR wurde verbessert und unterstützt nun die Authentifizierung von Principals von einem externen System aus. KDC Dadurch wird die Prinzipalverwaltung zentralisiert, da sich mehrere Cluster einen einzigen externen Cluster teilen können. KDC Darüber hinaus KDC kann das externe System eine bereichsübergreifende Vertrauensstellung mit einer Active Directory-Domäne haben. Auf diese Weise können alle Cluster Prinzipale von Active Directory authentifizieren. Weitere Informationen finden Sie unter Verwenden der Kerberos-Authentifizierung im Amazon EMR Management Guide.
Änderungen, Verbesserungen und behobene Probleme
-
Standard Amazon Linux AMI für Amazon EMR
-
Das Python3-Paket wurde von Python 3.4 auf 3.6 aktualisiert.
-
-
Der EMRFS S3-optimierte Committer
-
Der EMRFS S3-optimierte Committer ist jetzt standardmäßig aktiviert, was die Schreibleistung verbessert. Weitere Informationen finden Sie unter Verwenden Sie den EMRFS S3-optimierten Committer.
-
-
Hive
-
Mit Spark und Hive Glue
In Version EMR 5.20.0 oder höher wird die parallel Partitionsbereinigung automatisch für Spark und Hive aktiviert, wenn AWS Glue Data Catalog als Metastore verwendet wird. Diese Änderung reduziert die Zeit für die Abfrageplanung erheblich, da mehrere Anfragen parallel ausgeführt werden, um Partitionen abzurufen. Die Gesamtzahl der Segmente, die gleichzeitig ausgeführt werden können, liegt zwischen 1 und 10. Der Standardwert ist 5, was eine empfohlene Einstellung ist. Sie können dies ändern, indem Sie die Eigenschaft
aws.glue.partition.num.segments
in derhive-site
-Konfigurationsklassifizierung angeben. Wenn eine Drosselung auftritt, können Sie das Feature ausschalten, indem Sie den Wert auf 1 ändern. Weitere Informationen finden Sie unter AWS -Glue-Segmentstruktur.
Bekannte Probleme
-
Farbton (In EMR Amazon-Version 5.24.0 behoben)
-
Hue, das auf Amazon EMR läuft, unterstützt Solr nicht. Ab EMR Amazon-Version 5.20.0 führt ein Problem mit der Fehlkonfiguration dazu, dass Solr aktiviert wird und eine harmlose Fehlermeldung ähnlich der folgenden angezeigt wird:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
So wird verhindert, dass die Solr-Fehlermeldung angezeigt wird:
Stellen Sie mit der Befehlszeile des primären Knotens eine ConnectSSH.
Verwenden Sie einen Texteditor zum Öffnen der
hue.ini
-Datei. Beispielsweise:sudo vim /etc/hue/conf/hue.ini
Suchen Sie nach dem Begriff
appblacklist
und ändern Sie die Zeile wie folgt:appblacklist = search
Speichern Sie Ihre Änderungen und starten Sie Hue wie im folgenden Beispiel gezeigt:
sudo stop hue; sudo start hue
-
-
Tez
-
Dieses Problem wurde in Amazon EMR 5.22.0 behoben.
Wenn Sie unter http://eine Verbindung zur Tez-Benutzeroberfläche herstellen
MasterDNS
:8080/tez-ui über eine SSH Verbindung zum primären Clusterknoten wird der Fehler „Adaptervorgang fehlgeschlagen - Timeline-Server () ATS ist außer Reichweite“ angezeigt. Entweder ist er ausgefallen oder nicht aktiviert“ CORS wird angezeigt, oder Aufgaben zeigen unerwartet „N/A“ an.Dies wird dadurch verursacht, dass die Tez-Benutzeroberfläche Anfragen an den YARN Timeline Server sendet und
localhost
nicht den Hostnamen des primären Knotens verwendet. Um dieses Problem zu umgehen, steht ein Skript zur Verfügung, das als Bootstrap-Aktion oder als Bootstrap-Schritt ausgeführt werden kann. Das Skript aktualisiert den Hostnamen in derconfigs.env
Tez-Datei. Weitere Informationen und den Speicherort des Skripts finden Sie in den Bootstrap-Anweisungen.
-
In den EMR Amazon-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN Knotenbezeichnungen in einem Verzeichnis gespeichert. HDFS In einigen Situationen führt dies zu Verzögerungen beim Startup des Core-Knotens und dann zu einem Cluster-Timeout und einem Startfehler. Ab Amazon EMR 5.22.0 ist dieses Problem behoben. YARNKnotenbezeichnungen werden auf der lokalen Festplatte jedes Clusterknotens gespeichert, wodurch Abhängigkeiten von vermieden werden. HDFS
-
Bekanntes Problem in Clustern mit mehreren Primärknoten und Kerberos-Authentifizierung
Wenn Sie Cluster mit mehreren Primärknoten und Kerberos-Authentifizierung in EMR Amazon-Versionen 5.20.0 und höher ausführen, können Probleme mit Cluster-Vorgängen wie Scale-Down oder Step-Submission auftreten, nachdem der Cluster einige Zeit lang ausgeführt wurde. Der Zeitraum hängt von der Gültigkeitsdauer des Kerberos-Tickets ab, die Sie definiert haben. Das Herunterskalierungs-Problem wirkt sich sowohl auf automatische als auch auf explizite Herunterskalierungs-Anfragen aus, die Sie eingereicht haben. Weitere Clustervorgänge können ebenfalls beeinträchtigt werden.
Workaround:
-
SSHals
hadoop
Benutzer des führenden Primärknotens des EMR Clusters mit mehreren Primärknoten. -
Führen Sie den folgenden Befehl aus, um das Kerberos-Ticket für den
hadoop
-Benutzer zu erneuern.kinit -kt <keytab_file> <principal>
In der Regel befindet sich die Keytab-Datei unter
/etc/hadoop.keytab
und der Prinzipal hat das Format vonhadoop/<hostname>@<REALM>
.
Anmerkung
Diese Problemumgehung gilt für den Zeitraum, in dem das Kerberos-Ticket gültig ist. Diese Dauer beträgt standardmäßig 10 Stunden, kann aber anhand Ihrer Kerberos-Einstellungen konfiguriert werden. Sie müssen den obigen Befehl erneut ausführen, sobald das Kerberos-Ticket abgelaufen ist.
-
Version 5.19.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.19.0. Änderungen beziehen sich auf Version 5.18.0.
Erste Version: 7. November 2018
Letzte Aktualisierung: 19. November 2018
Upgrades
Hadoop 2.8.5
Flink 1.6.1
JupyterHub 0.9.4
MXNet1.3.0
Presto 0.212
TensorFlow 1.11.0
Zookeeper 3.4.13
AWS SDK for Java 1.11.433
Neue Features
(19. November 2018) EMR Notebooks ist eine verwaltete Umgebung, die auf Jupyter Notebook basiert. Es unterstützt Spark-Magic-Kernel für Spark PySparkSQL, Spark R und Scala. EMRNotebooks können mit Clustern verwendet werden, die mit Amazon EMR Version 5.18.0 und höher erstellt wurden. Weitere Informationen finden Sie unter Using EMR Notebooks im Amazon EMR Management Guide.
Der EMRFS S3-optimierte Committer ist verfügbar, wenn Sie Parquet-Dateien mit Spark und schreiben. EMRFS Dieser Committer verbessert die Schreibleistung. Weitere Informationen finden Sie unter Verwenden Sie den EMRFS S3-optimierten Committer.
Änderungen, Verbesserungen und behobene Probleme
-
YARN
-
Die Logik, die den Anwendungsmasterprozess auf die Ausführung auf Core-Knoten beschränkt, wurde geändert. Diese Funktion verwendet jetzt die Funktion und Eigenschaften von YARN Knotenbeschriftungen in den Klassifizierungen
yarn-site
undcapacity-scheduler
der Konfiguration. Weitere Informationen finden Sie unter https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-instances-guidelines.html#emr-plan-spot-YARN.
-
-
Standard Amazon Linux AMI für Amazon EMR
-
ruby18
,php56
undgcc48
sind nicht mehr standardmäßig installiert. Diese können auf Wunsch mityum
installiert werden. -
Das aws-sdk Ruby Gem ist standardmäßig nicht mehr installiert. Es kann, falls gewünscht, mit
gem install aws-sdk
installiert werden. Bestimmte Komponenten können ebenfalls installiert werden. Beispiel,gem install aws-sdk-s3
.
-
Bekannte Probleme
-
EMRNotebooks — Unter bestimmten Umständen kann es vorkommen, dass der Notebook-Editor bei mehreren geöffneten Notebook-Editoren keine Verbindung zum Cluster herstellen kann. Löschen Sie in diesem Fall die Browser-Cookies und öffnen Sie die Notebook-Editoren erneut.
-
CloudWatch ContainerPending Metrische und automatische Skalierung — (In 5.20.0 behoben) Amazon gibt EMR möglicherweise einen negativen Wert für aus.
ContainerPending
WennContainerPending
in einer Auto-Scaling-Regel verwendet wird, verhält sich das Auto Scaling nicht wie erwartet. Vermeiden Sie die Verwendung vonContainerPending
mit automatischer Skalierung. In den EMR Amazon-Versionen 5.19.0, 5.20.0 und 5.21.0 werden YARN Knotenbezeichnungen in einem Verzeichnis gespeichert. HDFS In einigen Situationen führt dies zu Verzögerungen beim Startup des Core-Knotens und dann zu einem Cluster-Timeout und einem Startfehler. Ab Amazon EMR 5.22.0 ist dieses Problem behoben. YARNKnotenbezeichnungen werden auf der lokalen Festplatte jedes Clusterknotens gespeichert, wodurch Abhängigkeiten von vermieden werden. HDFS
Version 5.18.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.18.0. Änderungen beziehen sich auf Version 5.17.0.
Veröffentlichungsdatum: 24. Oktober 2018
Upgrades
Flink 1.6.0
HBase1.4.7
Presto 0.210
Spark 2.3.2
Zeppelin 0.8.0
Neue Features
Ab Amazon EMR 5.18.0 können Sie das Amazon EMR Artifact Repository verwenden, um Ihren Jobcode anhand der genauen Versionen von Bibliotheken und Abhängigkeiten zu erstellen, die in bestimmten Amazon-Versionen verfügbar sind. EMR Weitere Informationen finden Sie unter Überprüfen von Abhängigkeiten mithilfe des Amazon-EMR-Artefakt-Repositorys.
Änderungen, Verbesserungen und behobene Probleme
Hive
Unterstützung für S3 Select hinzugefügt. Weitere Informationen finden Sie unter Verwendung von S3 Select mit Hive zur Verbesserung der Leistung.
Presto
Unterstützung für S3 Select
Pushdown hinzugefügt. Weitere Informationen finden Sie unter S3-Select-Pushdown mit Presto zur Verbesserung der Leistung verwenden.
Spark
Die standardmäßige log4j-Konfiguration für Spark wurde dahingehend geändert, dass Container-Logs für Spark-Streaming-Aufträge stündlich angezeigt werden. Dadurch wird verhindert, dass Logs für Spark-Streaming-Aufträge mit langer Laufzeit gelöscht werden.
Version 5.17.1
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.17.1. Änderungen beziehen sich auf Version 5.17.0.
Erste Version: 18. Juli 2019
Änderungen, Verbesserungen und behobene Probleme
Die Standardversion von Amazon Linux AMI für Amazon wurde aktualisiert und enthält EMR nun wichtige Sicherheitsupdates für den Linux-Kernel, einschließlich des TCP SACK Denial-of-Service-Problems (AWS-2019-005
).
Version 5.17.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.17.0. Änderungen beziehen sich auf Version 5.16.0.
Erste Version: 30. August 2018
Upgrades
Flink 1.5.2
HBase1.4.6
Presto 0.206
Neue Features
Unterstützung für Tensorflow hinzugefügt. Weitere Informationen finden Sie unter TensorFlow.
Änderungen, Verbesserungen und behobene Probleme
JupyterHub
Unterstützung für Notebook-Persistenz in Amazon S3 hinzugefügt. Weitere Informationen finden Sie unter Konfigurieren von Persistenz für Notebooks in Amazon S3.
Spark
Unterstützung für S3 Select
hinzugefügt. Weitere Informationen finden Sie unter S3 Select mit Spark zur Verbesserung der Leistung bei Abfragen verwenden.
Die Probleme mit den Cloudwatch-Metriken und der automatischen Skalierungsfunktion in EMR Amazon-Version 5.14.0, 5.15.0 oder 5.16.0 wurden behoben.
Bekannte Probleme
-
Wenn Sie einen kerberisierten Cluster mit installiertem Livy erstellen, schlägt Livy mit der Fehlermeldung fehl, dass die einfache Authentifizierung nicht aktiviert ist. Ein Neustart des Livy-Servers behebt das Problem. Um das Problem zu umgehen, fügen Sie während der Clustererstellung einen Schritt
sudo restart livy-server
hinzu, der auf dem Primärknoten ausgeführt wird. Wenn Sie ein benutzerdefiniertes Amazon Linux verwenden, das auf einem Amazon Linux AMI mit einem Erstellungsdatum vom 11.08.2018 AMI basiert, kann der Oozie-Server nicht gestartet werden. Wenn Sie Oozie verwenden, erstellen Sie eine benutzerdefinierte Version, die auf einer Amazon AMI Linux-ID mit einem anderen Erstellungsdatum AMI basiert. Sie können den folgenden AWS CLI Befehl verwenden, um eine Liste mit Images IDs für alle HVM Amazon Linux-Versionen AMIs mit einer Version 2018.03 zusammen mit dem Veröffentlichungsdatum zurückzugeben, sodass Sie ein geeignetes Amazon Linux AMI als Basis auswählen können. MyRegion Ersetzen Sie es durch Ihre Regionskennung, z. B. us-west-2.
aws ec2 --region
MyRegion
describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1
Version 5.16.0
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.16.0. Änderungen beziehen sich auf Version 5.15.0.
Erste Version: 19. Juli 2018
Upgrades
Hadoop 2.8.4
Flink 1.5.0
Livy 0.5.0
MXNet1.2.0
Phoenix 4.14.0
Presto 0.203
Spark 2.3.1
AWS SDK for Java 1.11.336
CUDA9.2
JDBCRedshift-Treiber 1.2.15.1025
Änderungen, Verbesserungen und behobene Probleme
HBase
Presto
Konfigurationsänderungen zur Unterstützung der Authentifizierung. LDAP Weitere Informationen finden Sie unter LDAPAuthentifizierung für Presto bei Amazon verwenden EMR.
Spark
Apache Spark Version 2.3.1, verfügbar ab EMR Amazon-Version 5.16.0, adressiert CVE-2018-8024 und -2018-1334
. CVE Wir empfehlen, dass Sie frühere Versionen von Spark zu Spark-Version 2.3.1 oder höher migrieren.
Bekannte Probleme
-
Diese Release-Version unterstützt die Instance-Typen c1.medium oder m1.small nicht. Cluster, die einen dieser Instance-Typen verwenden, können nicht gestartet werden. Um das Problem zu umgehen, geben Sie einen anderen Instance-Typ an oder verwenden Sie eine andere Release-Version.
-
Wenn Sie einen kerberisierten Cluster mit installiertem Livy erstellen, schlägt Livy mit der Fehlermeldung fehl, dass die einfache Authentifizierung nicht aktiviert ist. Ein Neustart des Livy-Servers behebt das Problem. Um das Problem zu umgehen, fügen Sie während der Clustererstellung einen Schritt
sudo restart livy-server
hinzu, der auf dem Primärknoten ausgeführt wird. -
Nach dem Neustart des Primärknotens oder des Instance-Controllers werden die CloudWatch Metriken nicht erfasst und die automatische Skalierungsfunktion ist in EMR Amazon-Version 5.14.0, 5.15.0 oder 5.16.0 nicht verfügbar. Dieses Problem wurde in Amazon EMR 5.17.0 behoben.
Version 5.15.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.15.0. Änderungen beziehen sich auf Version 5.14.0.
Erste Version: 21. Juni 2018
Upgrades
Auf 1.4.4 aktualisiert HBase
Upgrade auf Hive 2.3.3
Upgrade auf Hue 4.2.0
Upgrade auf Oozie 5.0.0
Upgrade auf ZooKeeper 3.4.12.
Auf AWS SDK 1.11.333 aktualisiert
Änderungen, Verbesserungen und behobene Probleme
Hive
Hue
Hue wurde aktualisiert, um sich korrekt bei Livy zu authentifizieren, wenn Kerberos aktiviert ist. Livy wird jetzt unterstützt, wenn Kerberos mit Amazon verwendet wird. EMR
JupyterHub
Aktualisiert, JupyterHub sodass Amazon standardmäßig LDAP Client-Bibliotheken EMR installiert.
Ein Fehler im Skript, das selbstsignierte Zertifikate generiert, wurde behoben.
Bekannte Probleme
-
Diese Release-Version unterstützt die Instance-Typen c1.medium oder m1.small nicht. Cluster, die einen dieser Instance-Typen verwenden, können nicht gestartet werden. Um das Problem zu umgehen, geben Sie einen anderen Instance-Typ an oder verwenden Sie eine andere Release-Version.
-
Nach dem Neustart des Primärknotens oder des Instance-Controllers werden die CloudWatch Metriken nicht erfasst und die automatische Skalierungsfunktion ist in EMR Amazon-Version 5.14.0, 5.15.0 oder 5.16.0 nicht verfügbar. Dieses Problem wurde in Amazon EMR 5.17.0 behoben.
Version 5.14.1
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.14.1. Änderungen beziehen sich auf Version 5.14.0.
Veröffentlichungsdatum: 17. Oktober 2018
Die Standardeinstellung AMI für Amazon wurde aktualisiertEMR, um potenzielle Sicherheitslücken zu beheben.
Version 5.14.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.14.0. Änderungen beziehen sich auf Version 5.13.0.
Erste Version: 4. Juni 2018
Upgrades
Upgrade auf Apache Flink 1.4.2
Apache wurde auf 1.1.0 MXnet aktualisiert
Apache Sqoop auf 1.4.7 aktualisiert
Neue Features
JupyterHub Unterstützung hinzugefügt. Weitere Informationen finden Sie unter JupyterHub.
Änderungen, Verbesserungen und behobene Probleme
EMRFS
Die userAgent Zeichenfolge in Anfragen an Amazon S3 wurde aktualisiert und enthält nun die Benutzer- und Gruppeninformationen des aufrufenden Prinzipals. Dies kann zusammen mit AWS CloudTrail Protokollen für eine umfassendere Nachverfolgung von Anfragen verwendet werden.
HBase
Enthalten ist HBASE-20447
, das ein Problem behebt, das zu Cache-Problemen führen könnte, insbesondere bei geteilten Regionen.
-
MXnet
OpenCV-Plattformversion.
Spark
-
Wenn Spark Parquet-Dateien mit an einen Amazon S3 S3-Speicherort schreibtEMRFS, wurde der FileOutputCommitter Algorithmus aktualisiert, sodass er Version 2 statt Version 1 verwendet. Dies reduziert die Anzahl der Umbenennungen, was die Anwendungsleistung verbessert. Diese Änderung beeinträchtigt nicht:
-
Andere Anwendungen als Spark.
-
Anwendungen, die in andere Dateisysteme schreiben, z. B. HDFS (die immer noch Version 1 von verwenden FileOutputCommitter).
-
Anwendungen, die andere Ausgabeformate wie Text oder CSV verwenden, die bereits EMRFS Direct Write verwenden.
-
-
Bekannte Probleme
-
JupyterHub
-
Die Verwendung von Konfigurationsklassifizierungen zur Einrichtung JupyterHub und individuellen Einrichtung von Jupyter-Notebooks beim Erstellen eines Clusters wird nicht unterstützt. Bearbeiten Sie die Dateien jupyterhub_config.py und jupyter_notebook_config.py für jeden Benutzer manuell. Weitere Informationen finden Sie unter Konfiguration JupyterHub.
-
JupyterHub kann auf Clustern innerhalb eines privaten Subnetzes nicht gestartet werden und schlägt mit der Meldung fehl.
Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt'
Dies wird durch einen Fehler im Skript verursacht, das selbstsignierte Zertifikate generiert. Verwenden Sie die folgende Problemumgehung zum Generieren selbstsignierter Zertifikate. Alle Befehle werden ausgeführt, während Sie mit dem Primärknoten verbunden sind.Kopieren Sie das Skript zur Zertifikatsgenerierung aus dem Container auf den Primärknoten:
sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
Verwenden Sie einen Texteditor, um Zeile 23 zu ändern, um den öffentlichen Hostnamen in den lokalen Hostnamen zu ändern, wie unten gezeigt:
local
hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local
-hostname)Führen Sie das Skript aus, um selbstsignierte Zertifikate zu generieren:
sudo bash ./gen_self_signed_cert.sh
Verschieben Sie die Zertifikatsdateien, die das Skript generiert, in das
/etc/jupyter/conf/
-Verzeichnis:sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/
Sie können
tail
diejupyter.log
Datei überprüfen, um zu überprüfen, ob sie JupyterHub neu gestartet wurde und einen 200-Antwortcode zurückgibt. Beispielsweise:tail -f /var/log/jupyter/jupyter.log
Dadurch sollte eine Antwort ähnlich der folgenden ausgegeben:
# [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
-
-
Nach dem Neustart des Primärknotens oder des Instance-Controllers werden die CloudWatch Metriken nicht erfasst und die automatische Skalierungsfunktion ist in EMR Amazon-Version 5.14.0, 5.15.0 oder 5.16.0 nicht verfügbar. Dieses Problem wurde in Amazon EMR 5.17.0 behoben.
Version 5.13.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.13.0. Änderungen beziehen sich auf Version 5.12.0.
Upgrades
-
Upgrade auf Spark 2.3.0
-
Auf 1.4.2 aktualisiert HBase
-
Upgrade auf Presto 0.194
-
Auf AWS SDK for Java 1.11.297 aktualisiert
Änderungen, Verbesserungen und behobene Probleme
Hive
-
Rückportiert -15436HIVE.
Hive APIs wurde dahingehend verbessert, dass nur Ansichten zurückgegeben werden.
-
Bekannte Probleme
-
MXNethat derzeit keine OpenCV-Bibliotheken.
Version 5.12.2
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.12.2. Änderungen beziehen sich auf Version 5.12.1
Erste Version: 29. August 2018
Änderungen, Verbesserungen und behobene Probleme
Diese Version behebt eine potenzielle Schwachstellen.
Version 5.12.1
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.12.1. Änderungen beziehen sich auf Version 5.12.0.
Erste Version: 29. März 2018
Änderungen, Verbesserungen und behobene Probleme
Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiertEMR, um potenzielle Sicherheitslücken zu beheben.
Version 5.12.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.12.0. Änderungen beziehen sich auf Version 5.11.1.
Upgrades
AWS SDKfür Java 1.11.238 ⇒ 1.11.267. Weitere Informationen finden Sie im Change Log on AWS SDKfür Java
. GitHub Hadoop 2.7.3 ⇒ 2.8.3. Weitere Informationen finden Sie unter Apache Hadoop im Releases
. Flink 1.3.2 ⇒ 1.4.0. Weitere Informationen finden Sie in der Versionsankündigung zu Apache Flink 1.4.0
. HBase1.3.1 ⇒ 1.4.0. Weitere Informationen finden Sie in der HBaseVersionsankündigung
. Hue 4.0.1 ⇒ 4.1.0. Weitere Informationen finden Sie in den Versionshinweisen
. MxNet 0.12.0 ⇒ 1.0.0. Weitere Informationen finden Sie im MXNetChange
Log on. GitHub Presto 0.187 ⇒ 0.188. Weitere Informationen finden Sie in den Versionshinweisen
.
Änderungen, Verbesserungen und behobene Probleme
Hadoop
Die
yarn.resourcemanager.decommissioning.timeout
-Eigenschaft wurde zuyarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs
geändert. Sie können diese Eigenschaft verwenden, um die Cluster-Skalierung anzupassen. Weitere Informationen finden Sie unter Cluster Scale-Down im Amazon EMR Management Guide.Hadoop CLI hat die
-d
Option zum Befehlcp
(copy) hinzugefügt, der das direkte Kopieren spezifiziert. Sie können dies verwenden, um die Erstellung einer.COPYING
-Zwischendatei zu vermeiden, wodurch das Kopieren von Daten zwischen Amazon S3 beschleunigt wird. Weitere Informationen finden Sie unter HADOOP-12384.
Pig
Die
pig-env
-Konfigurationsklassifizierung wurde hinzugefügt, die die Konfiguration der Pig-Umgebungseigenschaften vereinfacht. Weitere Informationen finden Sie unter Anwendungen konfigurieren.
Presto
Die Konfigurationsklassifizierung
presto-connector-redshift
wurde hinzugefügt, mit der Sie Werte in der Prestoredshift.properties
konfigurieren können. Weitere Informationen finden Sie unter Redshift Connectorin der Presto-Dokumentation und Anwendungen konfigurieren. Presto-Unterstützung für EMRFS wurde hinzugefügt und ist die Standardkonfiguration. Frühere EMR Amazon-Versionen verwendeten PrestoS3FileSystem, was die einzige Option war. Weitere Informationen finden Sie unter EMRFSund PrestoS3-Konfiguration FileSystem.
Anmerkung
Wenn Sie die zugrunde liegenden Daten in Amazon S3 mit Amazon EMR Version 5.12.0 abfragen, können Presto-Fehler auftreten. Dies liegt daran, dass Presto die Konfigurationsklassifizierungswerte von
emrfs-site.xml
nicht abruft. Um dieses Problem zu umgehen, erstellen Sie einemrfs
-Unterverzeichnis unterusr/lib/presto/plugin/hive-hadoop2/
und erstellen einen Symlinkusr/lib/presto/plugin/hive-hadoop2/emrfs
zu der vorhandenen Datei/usr/share/aws/emr/emrfs/conf/emrfs-site.xml
. Starten Sie dann den Presto-Server-Prozess neu (sudo presto-server stop
gefolgt vonsudo presto-server start
).
Spark
Backported SPARK-22036
: Die Multiplikation gibt manchmal Null zurück. BigDecimal
Bekannte Probleme
MXNetenthält keine OpenCV-Bibliotheken.
SparkR ist nicht für Cluster verfügbar, die mit einem benutzerdefinierten System erstellt wurdenAMI, da R nicht standardmäßig auf Clusterknoten installiert ist.
Version 5.11.3
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.11.3. Änderungen beziehen sich auf Version 5.11.2.
Erste Version: 18. Juli 2019
Änderungen, Verbesserungen und behobene Probleme
Die Standardversion von Amazon Linux AMI für Amazon wurde aktualisiert und enthält EMR nun wichtige Sicherheitsupdates für den Linux-Kernel, einschließlich des TCP SACK Denial-of-Service-Problems (AWS-2019-005
).
Version 5.11.2
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.11.2. Änderungen beziehen sich auf Version 5.11.1.
Erste Version: 29. August 2018
Änderungen, Verbesserungen und behobene Probleme
Diese Version behebt eine potenzielle Schwachstellen.
Version 5.11.1
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.11.1. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.11.0.
Erste Version: 22. Januar 2018
Änderungen, Verbesserungen und behobene Probleme
Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiert, EMR um Sicherheitslücken im Zusammenhang mit spekulativer Ausführung zu beheben (CVE-2017-5715, -2017-5753 und CVE -2017-5754). CVE Weitere Informationen finden Sie unter https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Bekannte Probleme
-
MXNetenthält keine OpenCV-Bibliotheken.
-
Hive 2.3.2 setzt
hive.compute.query.using.stats=true
standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mithive.compute.query.using.stats=true
verfügen und neue Dateien in die TabelleLOCATION
hochladen, gibt die AbfrageSELECT COUNT(*)
in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.Um dieses Problem zu umgehen, verwenden Sie den Befehl
ANALYZE TABLE
, um neue Statistiken zu sammeln, oder legen Siehive.compute.query.using.stats=false
fest. Weitere Informationen finden Sie unter Statistics in Hivein der Apache Hive-Dokumentation.
Version 5.11.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.11.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.10.0.
Upgrades
Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen.
-
Hive 2.3.2
-
Spark 2.2.1
-
SDKfür Java 1.11.238
Neue Features
-
Spark
-
Die Einstellung
spark.decommissioning.timeout.threshold
wurde hinzugefügt, was das Verhalten von Spark bei der Außerbetriebnahme bei Verwendung von Spot-Instances verbessert. Weitere Informationen finden Sie unter Verhalten der Außerbetriebnahme von Knoten konfigurieren. -
Die
aws-sagemaker-spark-sdk
Komponente wurde zu Spark hinzugefügt, die Amazon SageMaker Spark und zugehörige Abhängigkeiten für die Spark-Integration mit Amazoninstalliert SageMaker. Sie können Amazon SageMaker Spark verwenden, um Spark-Pipelines für maschinelles Lernen (ML) mithilfe von SageMaker Amazon-Stufen zu erstellen. Weitere Informationen finden Sie in der SageMaker Spark-Readme-Datei GitHub und unter Using Apache Spark with Amazon SageMaker im Amazon SageMaker Developer Guide.
-
Bekannte Probleme
-
MXNetenthält keine OpenCV-Bibliotheken.
-
Hive 2.3.2 setzt
hive.compute.query.using.stats=true
standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mithive.compute.query.using.stats=true
verfügen und neue Dateien in die TabelleLOCATION
hochladen, gibt die AbfrageSELECT COUNT(*)
in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.Um dieses Problem zu umgehen, verwenden Sie den Befehl
ANALYZE TABLE
, um neue Statistiken zu sammeln, oder legen Siehive.compute.query.using.stats=false
fest. Weitere Informationen finden Sie unter Statistics in Hivein der Apache Hive-Dokumentation.
Version 5.10.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.10.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.9.0.
Upgrades
Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen.
-
AWS SDK for Java 1.11.221
-
Hive 2.3.1
-
Presto 0.187
Neue Features
-
Die Kerberos-Authentifizierung wird jetzt unterstützt. Weitere Informationen finden Sie unter Verwenden der Kerberos-Authentifizierung im Amazon Management Guide EMR
-
Unterstützung für IAM Rollen für EMRFS Anfragen an Amazon S3 hinzugefügt. Weitere Informationen finden Sie unter IAM Rollen für EMRFS Anfragen an Amazon S3 konfigurieren im Amazon EMR Management Guide.
-
Unterstützung für GPU basierte P2- und P3-Instance-Typen hinzugefügt. Weitere Informationen finden Sie unter Amazon EC2 P2-Instances
und Amazon EC2 P3-Instances . NVIDIATreiber 384.81 und CUDA Treiber 9.0.176 sind standardmäßig auf diesen Instance-Typen installiert. -
Unterstützung für Apache MXNet hinzugefügt.
Änderungen, Verbesserungen und behobene Probleme
-
Presto
-
Unterstützung für die Verwendung des AWS Glue-Datenkatalogs als Standard-Hive-Metastore hinzugefügt. Weitere Informationen finden Sie unter Presto mit dem AWS Glue-Datenkatalog verwenden.
-
Unterstützung von koordinatenbasierten Funktionen
hinzugefügt. -
Unterstützung eines Überlaufs auf die Festplatte
für Joins hinzugefügt. -
Unterstützung für den Redshift-Connector
hinzugefügt.
-
-
Spark
-
SPARK-20640
wurde zurückportiert, wodurch das RPC-Timeout und die Wiederholungsversuche für Shuffle-Registrierungswerte mithilfe von Eigenschaften konfiguriert werden können. spark.shuffle.registration.timeout
spark.shuffle.registration.maxAttempts
-
SPARK-21549
wurde zurückportiert, wodurch ein Fehler behoben wird, der beim Schreiben von benutzerdefinierten Daten an andere Speicherorte auftritt. OutputFormat HDFS
-
-
Rückportierung von Hadoop-13270
-
Die Bibliotheken Numpy, Scipy und Matplotlib wurden aus dem Basis-Amazon entfernt. EMR AMI Wenn diese Bibliotheken für Ihre Anwendung erforderlich sind, werden sie im folgenden Repository bereitgestellt, sodass Sie sie unter Verwendung einer Bootstrap-Aktion mit
yum install
auf allen Knoten installieren können. -
In der EMR Amazon-Basis sind AMI keine RPM Anwendungspakete mehr enthalten, sodass die RPM Pakete nicht mehr auf Clusterknoten vorhanden sind. Custom AMIs und Amazon EMR Base verweisen AMI jetzt auf das RPM Paket-Repository in Amazon S3.
-
Aufgrund der Einführung der sekundengenauen Abrechnung in Amazon EC2 lautet das Standardverhalten beim Herunterfahren jetzt bei Abschluss der Aufgabe beenden und nicht mehr bei Instance-Stunde beenden. Weitere Informationen finden Sie unter Konfigurieren eines Cluster-Scale-Downs.
Bekannte Probleme
-
MXNetenthält keine OpenCV-Bibliotheken.
-
Hive 2.3.1 setzt
hive.compute.query.using.stats=true
standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mithive.compute.query.using.stats=true
verfügen und neue Dateien in die TabelleLOCATION
hochladen, gibt die AbfrageSELECT COUNT(*)
in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.Um dieses Problem zu umgehen, verwenden Sie den Befehl
ANALYZE TABLE
, um neue Statistiken zu sammeln, oder legen Siehive.compute.query.using.stats=false
fest. Weitere Informationen finden Sie unter Statistics in Hivein der Apache Hive-Dokumentation.
Version 5.9.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.9.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.8.0.
Veröffentlichungsdatum: 5. Oktober 2017
Letzte Aktualisierung der Funktionen: 12. Oktober 2017
Upgrades
Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen.
-
AWS SDK for Java Version 1.11.183
-
Flink 1.3.2
-
Hue 4.0.1
-
Pig 0.17.0
-
Presto 0.184
Neue Features
-
Livy-Support hinzugefügt (Version 0.4.0-incubating). Weitere Informationen finden Sie unter Apache Livy.
-
Support für Hue-Notebooks für Spark hinzugefügt.
-
Unterstützung für EC2 Amazon-Instances der i3-Serie hinzugefügt (12. Oktober 2017).
Änderungen, Verbesserungen und behobene Probleme
-
Spark
-
Neue Funktionen hinzugefügt, die sicherstellen, dass Spark die Knotenbeendigung infolge einer manuellen Größenänderung oder einer Anforderung einer Auto Scaling-Richtlinie zuverlässiger ausführt. Weitere Informationen finden Sie unter Verhalten der Außerbetriebnahme von Knoten konfigurieren.
-
SSLwird anstelle von 3 DES für die Verschlüsselung während der Übertragung für den Blocktransfer-Service verwendet, wodurch die Leistung bei der Verwendung von EC2 Amazon-Instance-Typen mit AES -NI verbessert wird.
-
-
Zeppelin
-
HBase
-
Patch HBASE-18533
wurde hinzugefügt, der zusätzliche Werte für die Konfiguration mithilfe der HBase BucketCache Konfigurationsklassifizierung ermöglicht. hbase-site
-
-
Hue
-
AWS Glue Data Catalog-Unterstützung für den Hive-Abfrageeditor in Hue hinzugefügt.
-
Standardmäßig können Superuser in Hue auf alle Dateien zugreifen, auf die EMR IAM Amazon-Rollen zugreifen dürfen. Neu erstellte Benutzer verfügen nicht automatisch über Zugriffsberechtigungen auf den Amazon-S3-Filebrowser und für ihre Gruppen müssen die
filebrowser.s3_access
-Berechtigungen aktiviert sein.
-
-
Es wurde ein Problem behoben, das dazu führte, dass auf die zugrunde liegenden JSON Daten, die mit dem AWS Glue-Datenkatalog erstellt wurden, nicht zugegriffen werden konnte.
Bekannte Probleme
-
Der Clusterstart schlägt fehl, wenn alle Anwendungen installiert sind und die Standardgröße des EBS Amazon-Root-Volumes nicht geändert wird. Um das Problem zu umgehen, verwenden Sie den
aws emr create-cluster
Befehl von AWS CLI und geben Sie einen größeren--ebs-root-volume-size
Parameter an. -
Hive 2.3.0 setzt
hive.compute.query.using.stats=true
standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mithive.compute.query.using.stats=true
verfügen und neue Dateien in die TabelleLOCATION
hochladen, gibt die AbfrageSELECT COUNT(*)
in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.Um dieses Problem zu umgehen, verwenden Sie den Befehl
ANALYZE TABLE
, um neue Statistiken zu sammeln, oder legen Siehive.compute.query.using.stats=false
fest. Weitere Informationen finden Sie unter Statistics in Hivein der Apache Hive-Dokumentation.
Version 5.8.2
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.8.2. Änderungen beziehen sich auf Version 5.8.1.
Erste Version: 29. März 2018
Änderungen, Verbesserungen und behobene Probleme
Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiertEMR, um potenzielle Sicherheitslücken zu beheben.
Version 5.8.1
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.8.1. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.8.0.
Erste Version: 22. Januar 2018
Änderungen, Verbesserungen und behobene Probleme
Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiert, EMR um Sicherheitslücken im Zusammenhang mit spekulativer Ausführung zu beheben (CVE-2017-5715, -2017-5753 und CVE -2017-5754). CVE Weitere Informationen finden Sie unter https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Version 5.8.0
Die folgenden Versionshinweise enthalten Informationen zur EMR Amazon-Version 5.8.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.7.0.
Erste Version: 10. August 2017
Letzte Aktualisierung der Funktionen: 25. September 2017
Upgrades
Die folgenden Anwendungen und Komponenten wurden in dieser Version aktualisiert, um die folgenden Versionen einzufügen:
-
AWS SDK1.11.160
-
Flink 1.3.1
-
Hive 2.3.0. Weitere Informationen finden Sie in den Versionshinweisen
auf der Apache-Hive-Website. -
Spark 2.2.0. Weitere Informationen finden Sie in den Versionshinweisen
auf der Apache-Spark-Website.
Neue Features
-
Support zur Anzeige des Anwendungsverlaufs hinzugefügt (25. September 2017). Weitere Informationen finden Sie unter Anwendungsverlauf anzeigen im Amazon EMR Management Guide.
Änderungen, Verbesserungen und behobene Probleme
-
Integration mit dem AWS Glue-Datenkatalog
-
Hive und Spark haben jetzt die MöglichkeitSQL, AWS Glue Data Catalog als Hive-Metadatenspeicher zu verwenden. Weitere Informationen erhalten Sie unter Den AWS Glue-Datenkatalog als Metastore für Hive verwenden und Verwenden Sie den AWS Glue-Datenkatalog als Metastore für Spark SQL.
-
-
Der Anwendungsverlauf wurde zu den Cluster-Details hinzugefügt, sodass Sie historische Daten für YARN Anwendungen und zusätzliche Details für Spark-Anwendungen anzeigen können. Weitere Informationen finden Sie unter Anwendungsverlauf anzeigen im Amazon EMR Management Guide.
-
Oozie
-
Rückportiert OOZIE-2748
.
-
-
Hue
-
Rückportiert HUE-5859
-
-
HBase
-
Es wurde ein Patch hinzugefügt, um die Startzeit des HBase Masterservers mithilfe von Java Management Extensions () JMX anzuzeigen.
getMasterInitializedTime
-
Patch zur Verbesserung der Cluster-Startzeit hinzugefügt.
-
Bekannte Probleme
-
Der Clusterstart schlägt fehl, wenn alle Anwendungen installiert sind und die Standardgröße des EBS Amazon-Root-Volumes nicht geändert wird. Um das Problem zu umgehen, verwenden Sie den
aws emr create-cluster
Befehl von AWS CLI und geben Sie einen größeren--ebs-root-volume-size
Parameter an. -
Hive 2.3.0 setzt
hive.compute.query.using.stats=true
standardmäßig. Dies bewirkt, dass Abfragen Daten aus vorhandenen Statistiken und nicht direkt aus den Daten abrufen, da diese unübersichtlich sein können. Wenn Sie beispielsweise über eine Tabelle mithive.compute.query.using.stats=true
verfügen und neue Dateien in die TabelleLOCATION
hochladen, gibt die AbfrageSELECT COUNT(*)
in der Tabelle die Anzahl aus den Statistiken zurück, anstatt die hinzugefügten Zeilen abzurufen.Um dieses Problem zu umgehen, verwenden Sie den Befehl
ANALYZE TABLE
, um neue Statistiken zu sammeln, oder legen Siehive.compute.query.using.stats=false
fest. Weitere Informationen finden Sie unter Statistics in Hivein der Apache Hive-Dokumentation. -
Spark – Bei der Verwendung von Spark tritt bei dem apppusher-Daemon bei Spark-Aufträgen mit langer Ausführungsdauer nach einigen Stunden oder Tagen möglicherweise ein Speicherleck-Problem bei dem Datei-Handler auf. Um das Problem zu beheben, stellen Sie eine Verbindung mit dem Master-Knoten her und geben
sudo /etc/init.d/apppusher stop
ein. Dadurch wird der Appusher-Daemon gestoppt, den Amazon EMR automatisch neu startet. -
Application history
-
Es sind keine Verlaufsdaten für beendete Spark-Executors verfügbar.
-
Der Anwendungsverlauf ist nicht für Cluster verfügbar, die eine Sicherheitskonfiguration verwenden, um die Verschlüsselung bei der Übertragung zu aktivieren.
-
Version 5.7.0
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.7.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.6.0.
Veröffentlichungsdatum: 13. Juli 2017
Upgrades
-
Flink 1.3.0
-
Phoenix 4.11.0
-
Zeppelin 0.7.2
Neue Features
-
Es wurde die Möglichkeit hinzugefügt, ein benutzerdefiniertes Amazon Linux anzugebenAMI, wenn Sie einen Cluster erstellen. Weitere Informationen finden Sie unter Benutzerdefiniert verwenden AMI.
Änderungen, Verbesserungen und behobene Probleme
-
HBase
-
Es wurde die Möglichkeit hinzugefügt, HBase Read-Replica-Cluster zu konfigurieren. Weitere Informationen finden Sie unter Verwenden eines Read-Replica-Clusters.
-
Mehrere Fehlerbehebungen und Verbesserungen
-
-
Presto – neue Konfigurationsfunktion
node.properties
hinzugefügt. -
YARN- Fähigkeit zur Konfiguration hinzugefügt
container-log4j.properties
-
Sqoop - rückportiert SQOOP-2880
, was ein Argument einführt, mit dem Sie das temporäre Sqoop-Verzeichnis festlegen können.
Version 5.6.0
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.6.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.5.0.
Veröffentlichungsdatum: 5. Juni 2017
Upgrades
-
Flink 1.2.1
-
HBase1.3.1
-
Mahout 0.13.0. Dies ist die erste Version von Mahout, die Spark 2.x in EMR Amazon-Version 5.0 und höher unterstützt.
-
Spark 2.1.1
Änderungen, Verbesserungen und behobene Probleme
-
Presto
-
Es wurde die Möglichkeit hinzugefügt, die Kommunikation zwischen Presto-Knoten zu SSL aktivieren/zu TLS sichern, indem die Verschlüsselung während der Übertragung mithilfe einer Sicherheitskonfiguration aktiviert wird. Weitere Informationen finden Sie unter Datenverschlüsselung während der Übertragung.
-
Presto 7661
wurde rückportiert, wodurch der Anweisung EXPLAIN ANALYZE
die OptionVERBOSE
hinzugefügt wurde, um detailliertere Low-Level-Statistiken über einen Abfrageplan bereitzustellen.
-
Version 5.5.3
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.5.3. Änderungen beziehen sich auf Version 5.5.2.
Erste Version: 29. August 2018
Änderungen, Verbesserungen und behobene Probleme
Diese Version behebt eine potenzielle Schwachstellen.
Version 5.5.2
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 5.5.2. Änderungen beziehen sich auf Version 5.5.1.
Erste Version: 29. März 2018
Änderungen, Verbesserungen und behobene Probleme
Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiertEMR, um potenzielle Sicherheitslücken zu beheben.
Version 5.5.1
Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 5.5.1. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.5.0.
Erste Version: 22. Januar 2018
Änderungen, Verbesserungen und behobene Probleme
Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiert, EMR um Sicherheitslücken im Zusammenhang mit spekulativer Ausführung zu beheben (CVE-2017-5715, -2017-5753 und CVE -2017-5754). CVE Weitere Informationen finden Sie unter https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Version 5.5.0
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.5.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.4.0.
Veröffentlichungsdatum: 26. April 2017
Upgrades
-
Hue 3.12
-
Presto 0.170
-
Zeppelin 0.7.1
-
ZooKeeper 3.4.10
Änderungen, Verbesserungen und behobene Probleme
-
Spark
-
Flink
-
Flink ist nun in Scala 2.11 integriert. Wenn Sie Scala API und Bibliotheken verwenden, empfehlen wir Ihnen, Scala 2.11 in Ihren Projekten zu verwenden.
-
Ein Problem wurde behoben, bei dem die Standardeinstellungen
HADOOP_CONF_DIR
undYARN_CONF_DIR
nicht ordnungsgemäß festgelegt wurden, sodassstart-scala-shell.sh
nicht funktionierte. Außerdem wurde die Möglichkeit hinzugefügt, diese Werte mitenv.hadoop.conf.dir
undenv.yarn.conf.dir
in/etc/flink/conf/flink-conf.yaml
oder der Konfigurationsklassifizierungflink-conf
festzulegen. -
Es wurde ein neuer EMR -spezifischer Befehl
flink-scala-shell
als Wrapper für eingeführt.start-scala-shell.sh
Wir empfehlen, diese Befehl stattstart-scala-shell
zu verwenden. Der neue Befehl vereinfacht die Ausführung. Beispielsweise startetflink-scala-shell -n 2
eine Flink Scala-Shell mit einer Aufgabenparallelität von 2. -
Es wurde ein neuer EMR -spezifischer Befehl
flink-yarn-session
als Wrapper für eingeführt.yarn-session.sh
Wir empfehlen, diese Befehl stattyarn-session
zu verwenden. Der neue Befehl vereinfacht die Ausführung. Beispielsweise startetflink-yarn-session -d -n 2
eine langlebige Flink-Sitzung in einem getrennten Status mit zwei Aufgabenmanagern. -
Der adressierte (FLINK-6125) Commons-Httpclient ist in Flink 1.2 nicht mehr schattiert
.
-
-
Presto
-
Unterstützung für Authentifizierung hinzugefügt. LDAP Für die Verwendung LDAP mit Presto bei Amazon EMR müssen Sie den HTTPS Zugriff für den Presto-Koordinator (
http-server.https.enabled=true
inconfig.properties
) aktivieren. Einzelheiten zur Konfiguration finden Sie in der LDAPPresto-Dokumentation unter Authentifizierung. -
Unterstützung für
SHOW GRANTS
hinzugefügt.
-
-
Amazon EMR Base Linux AMI
-
EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2017.03. Weitere Informationen finden Sie in den Versionshinweisen zu Amazon Linux AMI 2017.03.
-
Python 2.6 wurde aus dem EMR Linux-Basisimage von Amazon entfernt. Python 2.7 und 3.4 sind standardmäßig installiert. Sie können Python 2.6 bei Bedarf manuell installieren.
-
Version 5.4.0
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.4.0. Die Änderungen beziehen sich auf die Version EMR 5.3.0 von Amazon.
Veröffentlichungsdatum: 8. März 2017
Upgrades
Die folgenden Upgrades sind in dieser Version verfügbar:
-
Upgrade auf Flink 1.2.0
-
Upgrade auf Hbase 1.3.0
-
Upgrade auf Phoenix 4.9.0
Anmerkung
Wenn Sie ein Upgrade von einer früheren Version von Amazon EMR auf EMR Amazon-Version 5.4.0 oder höher durchführen und die sekundäre Indizierung verwenden, aktualisieren Sie lokale Indizes wie in der Apache
Phoenix-Dokumentation beschrieben. Amazon EMR entfernt die erforderlichen Konfigurationen aus der hbase-site
Klassifizierung, aber die Indizes müssen neu gefüllt werden. Online- und Offline-Upgrades von Indizes werden unterstützt. Online-Upgrades sind die Standardeinstellung. Dies bedeutet, dass Indizes neu gefüllt werden, während die Initialisierung von Phoenix-Clients Version 4.8.0 oder höher ausgeführt wird. Um Offline-Upgrades anzugeben, setzen Sie diephoenix.client.localIndexUpgrade
Konfiguration in derphoenix-site
Klassifizierung auf False und dann SSH auf den Master-Knoten, der ausgeführt werden soll.psql [zookeeper] -1
-
Upgrade auf Presto 0.166
-
Upgrade auf Zeppelin 0.7.0
Änderungen und Verbesserungen
Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-5.4.0 vorgenommen:
-
Es werden jetzt r4-Instances unterstützt. Siehe EC2Amazon-Instance-Typen
.
Version 5.3.1
Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 5.3.1. Die Änderungen beziehen sich auf die Version EMR 5.3.0 von Amazon.
Veröffentlichungsdatum: 7. Februar 2017
Kleinere Änderungen am Backport von Zeppelin-Patches und an der Aktualisierung der Standardeinstellung AMI für Amazon. EMR
Version 5.3.0
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.3.0. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.2.1.
Veröffentlichungsdatum: 26. Januar 2017
Upgrades
Die folgenden Upgrades sind in dieser Version verfügbar:
-
Upgrade auf Hive 2.1.1
-
Upgrade auf Hue 3.11.0
-
Upgrade auf Spark 2.1.0
-
Upgrade auf Oozie 4.3.0
-
Upgrade auf Flink 1.1.4
Änderungen und Verbesserungen
Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-5.3.0 vorgenommen:
-
Ein Patch für Hue wurde hinzugefügt, mit dem Sie die Einstellung
interpreters_shown_on_wheel
verwenden können, um zu konfigurieren, was Interpreter in der Notebook-Auswahl als Erstes anzeigen, unabhängig von ihrer Reihenfolge in der Dateihue.ini
. -
Die Konfigurationsklassifizierung
hive-parquet-logging
wurde hinzugefügt, mit der Sie Werte in der Hive-Dateiparquet-logging.properties
konfigurieren können.
Version 5.2.2
Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 5.2.2. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.2.1.
Veröffentlichungsdatum: 2. Mai 2017
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Backported SPARK-194459
, wodurch ein Problem behoben wurde, bei dem das Lesen aus einer ORC Tabelle mit char/varchar-Spalten fehlschlagen kann.
Version 5.2.1
Die folgenden Versionshinweise enthalten Informationen zur Amazon-Version EMR 5.2.1. Die Änderungen beziehen sich auf die Amazon-Version EMR 5.2.0.
Veröffentlichungsdatum: 29. Dezember 2016
Upgrades
Die folgenden Upgrades sind in dieser Version verfügbar:
-
Upgrade auf Presto 0.157.1. Weitere Informationen finden Sie in den Presto-Versionshinweisen
in der Presto-Dokumentation. -
Upgrade auf ZooKeeper 3.4.9. Weitere Informationen finden Sie in den ZooKeeper Versionshinweisen
in der ZooKeeper Apache-Dokumentation.
Änderungen und Verbesserungen
Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-5.2.1 vorgenommen:
-
Unterstützung für den Instance-Typ Amazon EC2 m4.16xlarge in EMR Amazon-Version 4.8.3 und höher hinzugefügt, ausgenommen 5.0.0, 5.0.3 und 5.2.0.
-
EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
. -
Der Speicherort von Flink und die YARN Konfigurationspfade sind jetzt standardmäßig festgelegt
/etc/default/flink
, sodass Sie die Umgebungsvariablen nicht festlegen müssenFLINK_CONF_DIR
undHADOOP_CONF_DIR
wenn Sie dieflink
oderyarn-session.sh
-Treiberskripte ausführen, um Flink-Jobs zu starten. -
Unterstützung für FlinkKinesisConsumer Klassen hinzugefügt.
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Problem in Hadoop behoben, bei dem der ReplicationMonitor Thread aufgrund eines Wettlaufs zwischen Replikation und Löschung derselben Datei in einem großen Cluster für lange Zeit hängen bleiben konnte.
-
Es wurde ein Problem behoben, bei dem ControlledJob # mit einer Nullzeiger-Ausnahme (NPE) toString fehlschlug, wenn der Jobstatus nicht erfolgreich aktualisiert wurde.
Version 5.2.0
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.2.0. Die Änderungen beziehen sich auf die Version EMR 5.1.0 von Amazon.
Veröffentlichungsdatum: 21. November 2016
Änderungen und Verbesserungen
Die folgenden Änderungen und Verbesserungen sind in dieser Version verfügbar:
-
Amazon S3 S3-Speichermodus für hinzugefügtHBase.
-
Ermöglicht es Ihnen, einen Amazon S3 S3-Speicherort für das HBase Rootdir anzugeben. Weitere Informationen finden Sie HBaseunter Amazon S3.
Upgrades
Die folgenden Upgrades sind in dieser Version verfügbar:
-
Upgrade auf Spark 2.0.2
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Problem behoben, bei dem /mnt bei Instance-Typen EBS nur auf 2 TB beschränkt war.
-
Es wurde ein Problem mit Instance-Controller und Logpusher-Protokollen behoben, die an die entsprechenden OUT-Dateien anstelle ihrer üblichen log4j-konfigurierten LOG-Dateien, die stündlich rotieren, ausgegeben wurden. Da die OUT-Dateien nicht rotieren, ist letztendlich die /emr-Partition belegt. Dieses Problem betrifft nur Hardware-Instanztypen für virtuelle Maschinen (HVM).
Version 5.1.0
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.1.0. Die Änderungen beziehen sich auf die Version EMR 5.0.0 von Amazon.
Veröffentlichungsdatum: 03. November 2016
Änderungen und Verbesserungen
Die folgenden Änderungen und Verbesserungen sind in dieser Version verfügbar:
-
Flink 1.1.3 wird jetzt unterstützt.
-
Presto wurde als Option im Notebookabschnitt von Hue hinzugefügt.
Upgrades
Die folgenden Upgrades sind in dieser Version verfügbar:
-
Auf 1.2.3 aktualisiert HBase
-
Upgrade auf Zeppelin 0.6.2
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Problem mit Tez-Abfragen auf Amazon S3 behoben, bei ORC denen Dateien nicht so gut funktionierten wie frühere Amazon EMR 4.x-Versionen.
Version 5.0.3
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 5.0.3. Die Änderungen beziehen sich auf die Version EMR 5.0.0 von Amazon.
Veröffentlichungsdatum: 24. Oktober 2016
Upgrades
Die folgenden Upgrades sind in dieser Version verfügbar:
-
Upgrade auf Hadoop 2.7.3
-
Es wurde ein Upgrade auf Presto 0.152.3 durchgeführt, das Support für die Presto-Webschnittstelle umfasst. Sie können auf die Presto-Webschnittstelle des Presto-Koordinators über Port 8889 zugreifen. Weitere Informationen über die Presto-Webschnittstelle finden Sie unter Webschnittstelle
in der Presto-Dokumentation. -
Upgrade auf Spark 2.0.1
-
EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
.
Version 5.0.0
Veröffentlichungsdatum: 27. Juli 2016
Upgrades
Die folgenden Upgrades sind in dieser Version verfügbar:
-
Upgrade auf Hive 2.1
-
Upgrade auf Presto 0.150
-
Upgrade auf Spark 2.0
-
Upgrade auf Hue 3.10.0
-
Upgrade auf Pig 0.16.0
-
Upgrade auf Tez 0.8.4
-
Upgrade auf Zeppelin 0.6.1
Änderungen und Verbesserungen
Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-5.0.0 oder höher vorgenommen:
-
Amazon EMR unterstützt die neuesten Open-Source-Versionen von Hive (Version 2.1) und Pig (Version 0.16.0). Wenn Sie Hive oder Pig EMR in der Vergangenheit bei Amazon verwendet haben, kann sich dies auf einige Anwendungsfälle auswirken. Weitere Informationen finden Sie unter Hive und Pig.
-
Die Standard-Ausführungs-Engine für Hive und Pig ist jetzt Tez. Um dies zu ändern, bearbeiten Sie die entsprechenden Werte in den Konfigurationsklassifizierungen
hive-site
bzw.pig-properties
. -
Eine verbesserte Schritt-Debugging-Funktion wurde hinzugefügt. Mit dieser Funktion können Sie die Ursache von Schrittfehlern sehen, wenn der Service die Ursache ermitteln kann. Weitere Informationen finden Sie unter Enhanced Step Debugging im Amazon EMR Management Guide.
-
Anwendungen, die zuvor mit "-Sandbox" endeten, tragen diesen Suffix nicht mehr. Dies kann Ihre Automatisierung, zum Beispiel, wenn Sie Skripts zum Starten von Clustern mit diesen Anwendungen verwenden, unterbrechen. Die folgende Tabelle zeigt Anwendungsnamen in Amazon EMR 4.7.2 im Vergleich zu Amazon EMR 5.0.0.
Änderungen der AnwendungsnamenAmazon EMR 4,7,2 Amazon EMR 5.0.0 Oozie-Sandbox Oozie Presto-Sandbox Presto Sqoop-Sandbox Sqoop Zeppelin-Sandbox Zeppelin ZooKeeper-Sandkasten ZooKeeper -
Spark ist jetzt für Scala 2.11 kompiliert.
-
Java 8 ist jetzt der Standard. JVM Alle Anwendungen werden mit der Java 8-Laufzeit ausgeführt. Es sind keine Änderungen am Byte-Codeziel der Anwendungen vorgenommen worden. Die meisten Anwendungen zielen weiterhin auf Java 7 ab.
-
Zeppelin enthält jetzt Authentifizierungsfunktionen. Weitere Informationen finden Sie unter Zeppelin.
-
Es werden jetzt Sicherheitskonfigurationen unterstützt, mit deren Hilfe Sie die Verschlüsselungsoptionen einfacher erstellen und anwenden können. Weitere Informationen finden Sie unter Datenverschlüsselung.
Version 4.9.5
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 4.9.5. Änderungen beziehen sich auf Version 4.9.4.
Erste Version: 29. August 2018
Änderungen, Verbesserungen und behobene Probleme
HBase
Diese Version behebt eine potenzielle Schwachstellen.
Version 4.9.4
Die folgenden Versionshinweise enthalten Informationen für EMR Amazon-Version 4.9.4. Änderungen beziehen sich auf Version 4.9.3.
Erste Version: 29. März 2018
Änderungen, Verbesserungen und behobene Probleme
Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiertEMR, um potenzielle Sicherheitslücken zu beheben.
Version 4.9.3
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 4.9.3. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.9.2.
Erste Version: 22. Januar 2018
Änderungen, Verbesserungen und behobene Probleme
Der Amazon Linux-Kernel von defaultAmazon Linux AMI for Amazon wurde aktualisiert, EMR um Sicherheitslücken im Zusammenhang mit spekulativer Ausführung zu beheben (CVE-2017-5715, -2017-5753 und CVE -2017-5754). CVE Weitere Informationen finden Sie unter https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Version 4.9.2
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 4.9.2. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.9.1.
Veröffentlichungsdatum: 13. Juli 2017
Kleinere Änderungen, Fehlerbehebungen und Verbesserungen wurden in dieser Version vorgenommen.
Version 4.9.1
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 4.9.1. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.8.4.
Veröffentlichungsdatum: 10. April 2017
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Problem behobenYARN, bei dem eine große Anzahl von Knoten (mehr als 2.000) und Containern (mehr als 5.000) zu einem Fehler aufgrund unzureichenden Speichers führte, zum Beispiel:.
"Exception in thread 'main' java.lang.OutOfMemoryError"
Änderungen und Verbesserungen
Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-4.9.1 vorgenommen:
-
EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2017.03. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2017.03-release-notes/
. -
Python 2.6 wurde aus dem EMR Linux-Basisimage von Amazon entfernt. Sie können Python 2.6 bei Bedarf manuell installieren.
Version 4.8.4
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 4.8.4. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.8.3.
Veröffentlichungsdatum: 7. Februar 2017
Kleinere Änderungen, Fehlerbehebungen und Verbesserungen wurden in dieser Version vorgenommen.
Version 4.8.3
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 4.8.3. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.8.2.
Veröffentlichungsdatum: 29. Dezember 2016
Upgrades
Die folgenden Upgrades sind in dieser Version verfügbar:
-
Upgrade auf Presto 0.157.1. Weitere Informationen finden Sie in den Presto-Versionshinweisen
in der Presto-Dokumentation. -
Upgrade auf Spark 1.6.3. Weitere Informationen finden Sie in den Spark-Versionshinweisen
in der Apache-Spark-Dokumentation. -
Auf ZooKeeper 3.4.9 aktualisiert. Weitere Informationen finden Sie in den ZooKeeper Versionshinweisen
in der ZooKeeper Apache-Dokumentation.
Änderungen und Verbesserungen
Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-4.8.3 vorgenommen:
-
Unterstützung für den Instance-Typ Amazon EC2 m4.16xlarge in EMR Amazon-Version 4.8.3 und höher hinzugefügt, ausgenommen 5.0.0, 5.0.3 und 5.2.0.
-
EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
.
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Problem in Hadoop behoben, bei dem der ReplicationMonitor Thread aufgrund eines Wettlaufs zwischen Replikation und Löschung derselben Datei in einem großen Cluster für lange Zeit hängen bleiben konnte.
-
Es wurde ein Problem behoben, bei dem ControlledJob # mit einer Nullzeiger-Ausnahme (NPE) toString fehlschlug, wenn der Jobstatus nicht erfolgreich aktualisiert wurde.
Version 4.8.2
Die folgenden Versionshinweise enthalten Informationen für die Amazon-Version EMR 4.8.2. Die Änderungen beziehen sich auf die Amazon-Version EMR 4.8.0.
Veröffentlichungsdatum: 24. Oktober 2016
Upgrades
Die folgenden Upgrades sind in dieser Version verfügbar:
-
Upgrade auf Hadoop 2.7.3
-
Es wurde ein Upgrade auf Presto 0.152.3 durchgeführt, das Support für die Presto-Webschnittstelle umfasst. Sie können auf die Presto-Webschnittstelle des Presto-Koordinators über Port 8889 zugreifen. Weitere Informationen über die Presto-Webschnittstelle finden Sie unter Webschnittstelle
in der Presto-Dokumentation. -
EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2016.09. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
.
Version 4.8.0
Veröffentlichungsdatum: 7. September 2016
Upgrades
Die folgenden Upgrades sind in dieser Version verfügbar:
-
Auf 1.2.2 aktualisiert HBase
-
Upgrade auf Presto-Sandbox 0.151
-
Upgrade auf Tez 0.8.4
-
Upgrade auf Zeppelin-Sandbox 0.6.1
Änderungen und Verbesserungen
Die folgenden Änderungen wurden an EMR Amazon-Versionen für das Release-Label emr-4.8.0 vorgenommen:
-
Es wurde ein Problem behobenYARN, bei dem versucht ApplicationMaster wurde, Container zu bereinigen, die nicht mehr existieren, weil ihre Instances beendet wurden.
-
Die Aktionen hive-server2 URL für Hive2 in den Oozie-Beispielen wurden korrigiert.
-
Zusätzliche Presto-Kataloge werden jetzt unterstützt.
-
Rückportierte Patches: HIVE-8948, -12679, -13405, -3116, -12689
HIVE HIVE PHOENIX HADOOP -
Es werden jetzt Sicherheitskonfigurationen unterstützt, mit deren Hilfe Sie die Verschlüsselungsoptionen einfacher erstellen und anwenden können. Weitere Informationen finden Sie unter Datenverschlüsselung.
Version 4.7.2
Die folgenden Versionshinweise enthalten Informationen für Amazon EMR 4.7.2.
Veröffentlichungsdatum: 15. Juli 2016
Features
Die folgenden Funktionen sind in dieser Version verfügbar:
-
Upgrade auf Mahout 0.12.2
-
Upgrade auf Presto 0.148
-
Upgrade auf Spark 1.6.2
-
Sie können jetzt eine AWSCredentialsProvider für die EMRFS Verwendung mit a URI als Parameter erstellen. Weitere Informationen finden Sie unter Erstellen eines AWSCredentialsProvider für EMRFS.
-
EMRFSermöglicht es Benutzern jetzt, mithilfe der
fs.s3.consistent.dynamodb.endpoint
Eigenschaft in einen benutzerdefinierten DynamoDB-Endpunkt für ihre Consistent View-Metadaten zu konfigurieren.emrfs-site.xml
-
Es wurde ein Skript in
/usr/bin
mit dem Namenspark-example
hinzugefügt, das/usr/lib/spark/spark/bin/run-example
umschließt, sodass Sie Beispiele direkt ausführen können. Um beispielsweise das SparkPi Beispiel auszuführen, das in der Spark-Distribution enthalten ist, können Sie esspark-example SparkPi 100
von der Befehlszeile aus ausführen odercommand-runner.jar
als Schritt in der. API
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Problem behoben, bei dem Oozie die Datei
spark-assembly.jar
nicht am richtigen Speicherort ablegte, wenn Spark auch installiert war. Dies führte dazu, dass Spark-Anwendungen nicht mit Oozie gestartet werden konnten. -
Ein Problem mit der auf Spark Log4J basierenden Protokollierung in Containern wurde behoben. YARN
Version 4.7.1
Veröffentlichungsdatum: 10. Juni 2016
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Problem behoben, das die Startzeit von Clustern verlängerte, die in einem VPC mit privaten Subnetzen gestartet wurden. Der Fehler betraf nur Cluster, die mit der EMR Amazon-Version 4.7.0 gestartet wurden.
-
Es wurde ein Problem behoben, bei dem das Auflisten von Dateien in Amazon EMR für Cluster, die mit der Version Amazon EMR 4.7.0 gestartet wurden, nicht richtig behandelt wurde.
Version 4.7.0
Wichtig
Amazon EMR 4.7.0 ist veraltet. Verwenden Sie stattdessen Amazon EMR 4.7.1 oder höher.
Veröffentlichungsdatum: 2. Juni 2016
Features
Die folgenden Funktionen sind in dieser Version verfügbar:
-
Apache Phoenix 4.7.0 wurde hinzugefügt.
-
Apache Tez 0.8.3 wurde hinzugefügt.
-
Auf 1.2.1 aktualisiert HBase
-
Upgrade auf Mahout 0.12.0
-
Upgrade auf Presto 0.147
-
Auf 1.10.75 AWS SDK for Java aktualisiert
-
Das letzte Flag wurde von der Eigenschaft
mapreduce.cluster.local.dir
inmapred-site.xml
entfernt, damit Benutzer Pig im lokalen Modus ausführen können.
Amazon Redshift JDBC Redshift-Treiber im Cluster verfügbar
Amazon Redshift JDBC Redshift-Treiber sind jetzt unter /usr/share/aws/redshift/jdbc
enthalten. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar
ist der JDBC 4.1-kompatible Amazon Redshift Redshift-Treiber und /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar
ist der JDBC 4.0-kompatible Amazon Redshift Redshift-Treiber. Weitere Informationen finden Sie unter JDBC Verbindung konfigurieren im Amazon Redshift Management Guide.
Java 8
Mit Ausnahme von Presto ist Open JDK 1.7 der Standard, der für alle JDK Anwendungen verwendet wird. Sowohl Open JDK 1.7 als auch 1.8 sind jedoch installiert. Informationen zum Festlegen von JAVA_HOME
für Anwendungen finden Sie unter Konfigurieren von Anwendungen zur Verwendung von Java 8.
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Kernelproblem behoben, das die Leistung von durchsatzoptimierten HDD (st1) EBS Volumes für Amazon EMR in emr-4.6.0 erheblich beeinträchtigte.
-
Es wurde ein Problem behoben, bei dem ein Cluster fehlschlug, wenn eine HDFS Verschlüsselungszone angegeben wurde, ohne Hadoop als Anwendung auszuwählen.
-
Die HDFS Standard-Schreibrichtlinie wurde von
RoundRobin
zuAvailableSpaceVolumeChoosingPolicy
geändert. Einige Volumes wurden mit der RoundRobin Konfiguration nicht richtig genutzt, was zu einem Ausfall der Kernknoten und zu unzuverlässigen HDFS Verbindungen führte. -
Es wurde ein Problem mit dem behoben EMRFSCLI, das bei der Erstellung der standardmäßigen DynamoDB-Metadatentabelle für konsistente Ansichten zu einer Ausnahme führte.
-
Es wurde ein Deadlock-Problem behobenEMRFS, das möglicherweise bei mehrteiligen Umbenennungs- und Kopiervorgängen auftrat.
-
Es wurde ein Problem behobenEMRFS, das dazu führte, dass die CopyPart Standardgröße 5 MB betrug. Der Standard ist jetzt ordnungsgemäß auf 128 MB eingestellt.
-
Es wurde ein Problem mit der Zeppelin-Startkonfiguration behoben, das möglicherweise das Anhalten des Service verhinderte.
-
Es wurde ein Problem mit Spark und Zeppelin behoben, das Sie daran hinderte, das
s3a://
URI Schema zu verwenden, weil es nicht richtig in den jeweiligen Klassenpfad geladen/usr/lib/hadoop/hadoop-aws.jar
wurde. -
Ein Commit
von Hue 3.9.0 (JIRAexistiert nicht) wurde zurückportiert, um ein Problem mit dem Browser-Beispiel zu beheben. HBase
Version 4.6.0
Veröffentlichungsdatum: 21. April 2016
Features
Die folgenden Funktionen sind in dieser Version verfügbar:
-
HBase1.2.0 hinzugefügt
-
ZooKeeper-Sandbox 3.4.8 wurde hinzugefügt.
-
Upgrade auf Presto-Sandbox 0.143
-
EMRAmazon-Versionen basieren jetzt auf Amazon Linux 2016.03.0. Weitere Informationen finden Sie unter https://aws.amazon.com/amazon-linux-ami/2016.03-release-notes/
.
Problem mit Auswirkungen auf durchsatzoptimierte HDD (st1) Volumetypen EBS
Ein Problem in den Linux-Kernel-Versionen 4.2 und höher beeinträchtigt die Leistung von durchsatzoptimierten HDD (st1) EBS Volumes für erheblich. EMR Diese Version (emr-4.6.0) verwendet die Kernel-Version 4.4.5 und ist daher betroffen. Daher empfehlen wir, emr-4.6.0 nicht zu verwenden, wenn Sie st1-Volumes verwenden möchten. EBS Sie können emr-4.5.0 oder frühere EMR Amazon-Versionen mit st1 ohne Auswirkungen verwenden. Außerdem stellen wir die Problembehebung mit späteren Versionen zur Verfügung.
Python-Standardeinstellungen
Python 3.4 ist jetzt standardmäßig installiert, Python 2.7 bleibt jedoch der Systemstandard. Sie können Python 3.4 mit einer Bootstrap-Aktion als Systemstandard konfigurieren. Sie können die Konfiguration verwenden, API um PYSPARK _ PYTHON export /usr/bin/python3.4
in der spark-env
Klassifizierung festzulegen, um die Python-Version zu beeinflussen, die von PySpark verwendet wird.
Java 8
Mit Ausnahme von Presto ist Open JDK 1.7 der Standard, der für alle JDK Anwendungen verwendet wird. Sowohl Open JDK 1.7 als auch 1.8 sind jedoch installiert. Informationen zum Festlegen von JAVA_HOME
für Anwendungen finden Sie unter Konfigurieren von Anwendungen zur Verwendung von Java 8.
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Problem behoben, bei dem die Anwendungsbereitstellung manchmal wegen eines generierten Passwort nach dem Zufallsprinzip ausfiel.
-
Bisher war
mysqld
auf allen Knoten installiert. Jetzt ist es nur auf der Master-Instance installiert und nur dann, wenn die gewählte Anwendungmysql-server
als Komponente enthält. Derzeit enthalten die folgenden Anwendungen diemysql-server
Komponente: Hive, HueHCatalog, Presto-Sandbox und Sqoop-Sandbox. -
Von der Standardeinstellung 32
yarn.scheduler.maximum-allocation-vcores
auf 80 geändert, wodurch ein in emr-4.4.0 eingeführtes Problem behoben wird, das hauptsächlich bei Spark auftritt, wenn diemaximizeResourceAllocation
Option in einem Cluster verwendet wird, dessen Core-Instance-Typ einer von wenigen großen Instance-Typen ist, bei denen die YARN vcores höher als 32 eingestellt sind; nämlich c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge oder m4.10xlarge wurden von diesem Problem betroffen. -
s3-dist-cp verwendet jetzt EMRFS für alle Amazon S3 S3-Nominierungen und speichert nicht mehr in einem temporären Verzeichnis. HDFS
-
Es wurde ein Problem mit der Ausnahmebehandlung für die clientseitigen Verschlüsselung mehrteiliger Uploads behoben.
-
Es wurde eine Option hinzugefügt, mit der Benutzer die Amazon-S3-Speicherklasse ändern können. Standardmäßig ist diese Einstellung
STANDARD
. Die Konfigurationsklassifizierungseinstellungemrfs-site
istfs.s3.storageClass
und die möglichen Werte sindSTANDARD
,STANDARD_IA
undREDUCED_REDUNDANCY
. Weitere Informationen zu Speicherklassen finden Sie unter Speicherklassen im Benutzerhandbuch zu Amazon Simple Storage Service.
Version 4.5.0
Veröffentlichungsdatum: 4. April 2016
Features
Die folgenden Funktionen sind in dieser Version verfügbar:
-
Upgrade auf Spark 1.6.1
-
Upgrade auf Hadoop 2.7.2
-
Upgrade auf Presto 0.140
-
AWS KMS Unterstützung für serverseitige Amazon S3 S3-Verschlüsselung hinzugefügt.
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Problem behoben, bei dem My SQL - und Apache-Server nach dem Neustart eines Knotens nicht gestartet wurden.
-
Es wurde ein Problem behoben, das mit IMPORT nicht partitionierten Tabellen, die in Amazon S3 gespeichert waren, nicht richtig funktionierte
-
Es wurde ein Problem mit Presto behoben, bei dem das Staging-Verzeichnis beim Schreiben in Hive-Tabellen
/mnt/tmp
anstatt/tmp
lauten muss.
Version 4.4.0
Veröffentlichungsdatum: 14. März 2016
Features
Die folgenden Funktionen sind in dieser Version verfügbar:
-
1.0.0 wurde hinzugefügt HCatalog
-
Sqoop-Sandbox 1.4.6 wurde hinzugefügt.
-
Upgrade auf Presto 0.136
-
Upgrade auf Zeppelin 0.5.6
-
Upgrade auf Mahout 0.11.1
-
dynamicResourceAllocation
wurde standardmäßig aktiviert. -
Es wurde eine Tabelle mit allen Konfigurationsklassifizierungen für die Version hinzugefügt. Weitere Informationen finden Sie in der Konfigurationsklassifizierungstabelle unter Konfigurieren von Anwendungen.
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Problem behoben, bei dem die
maximizeResourceAllocation
Einstellung nicht genug Speicher für YARN ApplicationMaster Daemons reservierte. -
Es wurde ein Problem behoben, das bei einem benutzerdefinierten Gerät aufgetreten ist. DNS Wenn Einträge in
resolve.conf
den angegebenen, benutzerdefinierten Einträge vorangestellt werden, können die benutzerdefinierten Einträge nicht aufgelöst werden. Dieses Verhalten wurde durch Cluster in einem beeinflusst, in VPC dem der VPC Standard-Nameserver als oberster Eintrag eingefügt wurderesolve.conf
. -
Es wurde ein Problem behoben, bei dem die Python-Standardversion auf Version 2.7 geändert wurde und boto für diese Version nicht installiert war.
-
Es wurde ein Problem behoben, bei dem YARN Container und Spark-Anwendungen eine eindeutige Ganglia-Round-Robin-Datenbankdatei (RRD) generierten, was dazu führte, dass die erste Festplatte, die an die Instanz angeschlossen war, voll wurde. Aufgrund dieses Fixes wurden Metriken auf YARN Containerebene und Kennzahlen auf Spark-Anwendungsebene deaktiviert.
-
Es wurde ein Problem im Protokoll-Pusher behoben, bei dem alle leeren Protokollordner gelöscht wurden. Das hatte zur Folge, dass Hive CLI nicht protokollieren konnte, weil der Log-Pusher den leeren
user
Ordner darunter entfernte./var/log/hive
-
Es wurde ein Problem mit Hive-Importen behoben, da sich auf die Partitionierung auswirkte und beim Import zu einem Fehler führte.
-
Es wurde ein Problem behoben, bei dem EMRFS s3-dist-cp Bucket-Namen, die Punkte enthielten, nicht richtig behandelte.
-
Das Verhalten wurde EMRFS dahingehend geändert, dass in Buckets mit aktivierter Versionierung die
_$folder$
Markierungsdatei nicht kontinuierlich erstellt wird, was zu einer verbesserten Leistung für Buckets mit Versionierung beitragen kann. -
Das Verhalten wurde EMRFS dahingehend geändert, dass es keine Befehlsdateien verwendet, außer in Fällen, in denen die clientseitige Verschlüsselung aktiviert ist. Wenn Sie Anweisungsdateien bei Verwendung der clientseitigen Verschlüsselung löschen möchten, können Sie die emrfs-site.xml-Eigenschaft,
fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled
, auf "true" festlegen. -
Die YARN Protokollaggregation wurde dahingehend geändert, dass die Protokolle zwei Tage lang am Aggregationsziel aufbewahrt werden. Das Standardziel ist der Speicher Ihres ClustersHDFS. Wenn Sie diese Dauer ändern möchten, ändern Sie den Wert
yarn.log-aggregation.retain-seconds
mit der Konfigurationsklassifizierungyarn-site
beim Erstellen Ihres Clusters. Wie immer können Sie Ihre Anwendungsprotokolle beim Erstellen Ihres Clusters mit dem Parameterlog-uri
in Amazon S3 speichern.
Angewendete Patches
Die folgenden Patches aus Open-Source-Projekten sind in dieser Version enthalten:
Version 4.3.0
Veröffentlichungsdatum: 19. Januar 2016
Features
Die folgenden Funktionen sind in dieser Version verfügbar:
-
Upgrade auf Hadoop 2.7.1
-
Upgrade auf Spark 1.6.0
-
Upgrade auf Ganglia 3.7.2
-
Upgrade auf Presto 0.130
Amazon EMR hat einige Änderungen daran vorgenommen, spark.dynamicAllocation.enabled
wann es auf true gesetzt ist; es ist standardmäßig falsch. Wenn die Einstellung auf "true" festgelegt ist, wirkt sich dies auf von der Einstellung maximizeResourceAllocation
vorgenommene Standardeinstellungen aus:
-
Wenn
spark.dynamicAllocation.enabled
auf "true" eingestellt ist, wirdspark.executor.instances
nicht vonmaximizeResourceAllocation
festgelegt. -
Die Einstellung
spark.driver.memory
wird nun basierend auf den Instance-Typen im Cluster auf ähnliche Weise konfiguriert, wiespark.executors.memory
festgelegt wird. Da die Spark-Treiberanwendung jedoch entweder auf der Master- oder auf einer der Core-Instances ausgeführt werden kann (z. B. im YARN Client- bzw. Cluster-Modus), wird diespark.driver.memory
Einstellung auf der Grundlage des Instance-Typs des kleineren Instance-Typs zwischen diesen beiden Instance-Gruppen festgelegt. -
Die
spark.default.parallelism
Einstellung ist jetzt auf die doppelte Anzahl der für YARN Container verfügbaren CPU Kerne festgelegt. In früheren Versionen war dies die Hälfte des Werts. -
Die Berechnungen für den für YARN Spark-Prozesse reservierten Speicheraufwand wurden angepasst, sodass sie genauer sind, was zu einer geringfügigen Erhöhung der Gesamtspeichermenge führte, die Spark zur Verfügung steht (d. h.
spark.executor.memory
).
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
YARNDie Protokollaggregation ist jetzt standardmäßig aktiviert.
-
Es wurde ein Problem behoben, bei dem Protokolle nicht in den Amazon S3 S3-Log-Bucket eines Clusters übertragen wurden, wenn die YARN Protokollaggregation aktiviert war.
-
YARNFür Containergrößen gilt jetzt ein neuer Mindestwert von 32 für alle Knotentypen.
-
Es wurde ein Problem mit Ganglia behoben, dass zu übermäßigen Festplatten-E/A-Vorgängen auf dem Master-Knoten in großen Clustern führte.
-
Es wurde ein Problem behoben, das verhinderte, das Anwendungsprotokolle per Push-Verfahren an Amazon S3 übertragen wurden, wenn ein Cluster heruntergefahren wird.
-
Es wurde ein Problem behoben EMRFSCLI, das dazu führte, dass bestimmte Befehle fehlschlugen.
-
Es wurde ein Problem mit Zeppelin behoben, das verhinderte, dass Abhängigkeiten in die Basisdatei geladen wurden. SparkContext
-
Es wurde ein Problem behoben, das aus einer Größenanpassung resultierte bei dem Versuch, Instances hinzuzufügen.
-
Es wurde ein Problem in Hive behoben, bei dem CREATE TABLE AS übermäßig SELECT viele Listenaufrufe an Amazon S3 tätigte.
-
Es wurde ein Problem behoben, bei dem große Cluster nicht ordnungsgemäß bereitgestellt wurden wenn Hue, Oozie und Ganglia installiert sind.
-
Es wurde ein Problem in s3-dist-cp behoben, bei dem ein Beendigungscode gleich Null zurückgegeben wurde, wenn ein Fehler auftrat.
Angewendete Patches
Die folgenden Patches aus Open-Source-Projekten sind in dieser Version enthalten:
Version 4.2.0
Veröffentlichungsdatum: 18. November 2015
Features
Die folgenden Funktionen sind in dieser Version verfügbar:
-
Ganglia-Support wurde hinzugefügt.
-
Upgrade auf Spark 1.5.2
-
Upgrade auf Presto 0.125
-
Upgrade auf Oozie 4.2.0
-
Upgrade auf Zeppelin 0.5.5
-
Auf 1.10.27 AWS SDK for Java aktualisiert
Bekannte Probleme aus den früheren Versionen, die behoben wurden
-
Es wurde ein Problem behoben EMRFSCLI, bei dem der Standardname der Metadatentabelle nicht verwendet wurde.
-
Es wurde ein Problem behoben, das bei der Verwendung von Tabellen mit ORC -back in Amazon S3 auftrat.
-
Es wurde ein Problem behoben, das bei einem Python-Versionskonflikt in der Spark-Konfiguration auftrat.
-
Es wurde ein Problem behoben, bei dem der Status eines YARN Knotens aufgrund von DNS Problemen mit Clustern in einem VPC nicht gemeldet wurde.
-
Es wurde ein Problem behoben, das YARN auftrat, wenn Knoten außer Betrieb genommen wurden, was dazu führte, dass Anwendungen hängenblieben oder neue Anwendungen nicht geplant werden konnten.
-
Es wurde ein Problem behoben, das auftrat, wenn Cluster mit dem Status TIMED _ _ OUT beendet wurden. STARTING
-
Es wurde ein Problem behoben, das auftrat, wenn die EMRFS Scala-Abhängigkeit in andere Builds aufgenommen wurde. Die Scala-Abhängigkeit wurde entfernt.