Archivio delle note di rilascio di Amazon EMR
Le note di rilascio per tutti i rilasci di Amazon EMR sono disponibili di seguito. Per informazioni complete su ogni rilascio, consulta le sezioni Versioni di rilascio di Amazon EMR 6.x, Versioni del rilascio di Amazon EMR 5.x e Versioni del rilascio di Amazon EMR 4.x.
Iscriviti al feed RSS per le note di rilascio di Amazon EMR all'indirizzo https://docs.aws.amazon.com/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss per ricevere aggiornamenti quando è disponibile un nuovo rilascio di Amazon EMR.
Versione 6.12.0
Le seguenti note di rilascio includono informazioni relative alla versione 6.12.0 di Amazon EMR. Le modifiche sono relative alla versione 6.11.0. Per ulteriori informazioni sulla tempistica di pubblicazione, consulta il Log delle modifiche.
Nuove funzionalità
-
Amazon EMR 6.12.0 supports Apache Spark 3.4.0, Apache Spark RAPIDS 23.06.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.1-amzn-0, Apache Iceberg 1.3.0-amzn-0, Trino 414, and PrestoDB 0.281.
-
Le versioni 6.12.0 e successive di Amazon EMR supportano l'integrazione LDAP con Apache Livy, Apache Hive tramite HiveServer2 (HS2), Trino, Presto e Hue. Inoltre, puoi installare Apache Spark e Apache Hadoop su un cluster EMR che utilizza 6.12.0 o versioni successive e configurarli per l'utilizzo di LDAP. Per ulteriori informazioni, consulta Utilizzo dei server Active Directory o LDAP per l'autenticazione con Amazon EMR.
Modifiche, miglioramenti e problemi risolti
-
Le versioni 6.12.0 e successive di Amazon EMR forniscono il supporto di runtime Java 11 per Flink. Per ulteriori informazioni, consulta Configurazione di Flink per l'esecuzione con Java 11.
-
Amazon EMR 6.12.0 supporta tutte le applicazioni con Amazon Corretto 8 per impostazione predefinita, ad eccezione di Trino. Per Trino, Amazon EMR supporta Amazon Corretto 17 per impostazione predefinita a partire dalla versione 6.9.0 di Amazon EMR. Amazon EMR supporta anche alcune applicazioni con Amazon Corretto 11 e 17. Queste applicazioni sono elencate nella seguente tabella. Se desideri modificare la JVM predefinita sul cluster, segui le istruzioni riportate in Configurazione delle applicazioni per l'uso di una macchina virtuale Java specifica per ogni applicazione in esecuzione sul cluster. Puoi utilizzare solo una delle versioni di runtime Java per cluster. Amazon EMR non supporta l'esecuzione di nodi o applicazioni differenti su versioni di runtime diverse sullo stesso cluster.
Sebbene Amazon EMR supporti Amazon Corretto 11 e 17 su Apache Spark, Apache Hadoop e Apache Hive, le prestazioni potrebbero peggiorare per alcuni carichi di lavoro quando utilizzi queste versioni di Corretto. Consigliamo di testare i carichi di lavoro prima di modificare i valori predefiniti.
Versioni Java predefinite per le applicazioni in Amazon EMR 6.12Applicazione Versione Java/Amazon Corretto (l'impostazione predefinita è in grassetto) Delta 17, 11, 8 Flink 11, 8 Ganglia 8 HBase 11, 8 HCatalog 17, 11, 8 Hadoop 17, 11, 8 Hive 17, 11, 8 Hudi 17, 11, 8 Iceberg 17, 11, 8 Livy 17, 11, 8 Oozie 17, 11, 8 Phoenix 8 PrestoDB 8 Spark 17, 11, 8 Spark RAPIDS 17, 11, 8 Sqoop 8 Tez 17, 11, 8 Trino 17 Zeppelin 8 Pig 8 Zookeeper 8 -
La versione 6.12.0 aggiunge un nuovo meccanismo di tentativi al flusso di lavoro dimensionabile per i cluster EMR che eseguono Presto o Trino. Questo miglioramento riduce la possibilità che il ridimensionamento del cluster si blocchi a tempo indeterminato a causa di una singola operazione di ridimensionamento con esito negativo. Inoltre, migliora l'utilizzo del cluster, poiché quest'ultimo aumenta e riduce più rapidamente.
-
La versione 6.12.0 corregge un problema a causa del quale le operazioni di riduzione del cluster potrebbero bloccarsi quando un nodo principale sottoposto a una disattivazione graduale perde integrità per qualsiasi motivo prima della completa disattivazione.
-
La versione 6.12.0 migliora la logica di riduzione del cluster in modo che quest'ultimo non tenti di ridurre i nodi principali al di sotto dell'impostazione del fattore di replica HDFS per il cluster. Ciò è in linea con i requisiti di ridondanza dei dati e riduce la possibilità che un'operazione di dimensionamento si blocchi.
-
La versione 6.12.0 migliora le prestazioni e l'efficienza del servizio di monitoraggio dell'integrità per Amazon EMR aumentando la velocità con cui registra le modifiche di stato per le istanze. Questo miglioramento riduce la possibilità di un peggioramento delle prestazioni per i nodi del cluster che eseguono più strumenti client personalizzati o applicazioni di terze parti.
-
La versione 6.12.0 migliora le prestazioni del daemon di gestione dei log sul cluster per Amazon EMR. Di conseguenza, ci sono meno possibilità di ridurre le prestazioni con i cluster EMR che eseguono fasi con elevata simultaneità.
-
Con la versione 6.12.0 di Amazon EMR, il daemon di gestione dei log è stato aggiornato per identificare tutti i log che sono in uso attivo con handle di file aperti sull'archiviazione dell'istanza locale e i processi associati. Questo aggiornamento garantisce che Amazon EMR elimini correttamente i file e recuperi lo spazio di archiviazione dopo la memorizzazione dei log su Amazon S3.
-
La versione 6.12.0 include un miglioramento del daemon di gestione dei log che elimina le directory delle fasi vuote e inutilizzate nel file system del cluster locale. Un numero eccessivo di directory vuote può ridurre le prestazioni dei daemon Amazon EMR e causare un utilizzo eccessivo del disco.
-
La versione 6.12.0 consente la rotazione dei log di YARN Timeline Server. Ciò riduce al minimo gli scenari di utilizzo eccessivo del disco, in particolare per i cluster di lunga durata.
La dimensione predefinita del volume root è aumentata a 15 GB in Amazon EMR 6.10.0 e versioni successive. Le versioni precedenti avevano una dimensione predefinita del volume root di 10 GB.
Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.
OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate 2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv) 2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv) 2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)
Versione 6.11.1
Le seguenti note di rilascio includono informazioni relative alla versione 6.11.1 di Amazon EMR. Le modifiche sono relative alla versione 6.11.0. Per ulteriori informazioni sulla tempistica di pubblicazione, consulta il Log delle modifiche.
Modifiche, miglioramenti e problemi risolti
-
A causa di un conflitto di blocco, un nodo può entrare in una situazione di stallo se viene aggiunto o rimosso contemporaneamente al tentativo di disattivazione. Di conseguenza, Hadoop Resource Manager (YARN) non risponde e influisce su tutti i container in entrata e quelli attualmente in esecuzione.
-
Questa versione include una modifica che consente ai cluster ad alta disponibilità di ripristinare lo stato di errore dopo il riavvio.
-
Questa versione include correzioni di sicurezza per Hue e HBase.
-
Questa versione corregge un problema per cui i cluster che eseguono carichi di lavoro su Spark con Amazon EMR potrebbero ricevere silenziosamente risultati errati con
contains
,startsWith
,endsWith
elike
. Questo problema si verifica quando utilizzi le espressioni su campi partizionati che contengono metadati in Amazon EMR Hive3 Metastore Server (HMS). -
Questa versione corregge un problema di limitazione (della larghezza di banda della rete) sul lato Glue quando non sono presenti funzioni definite dall'utente (UDF).
-
Questa versione corregge un problema che comporta l'eliminazione dei log dei container tramite il servizio di aggregazione dei log dei nodi prima che il pusher possa inviarli a S3 in caso di disattivazione di YARN.
-
Questa versione corregge un problema con i parametri di FairShare Scheduler quando Node Label è abilitato per Hadoop.
-
Questa versione corregge un problema che influiva sulle prestazioni di Spark quando veniva impostato un valore
true
predefinito per la configurazione dispark.yarn.heterogeneousExecutors.enabled
inspark-defaults.conf
. -
Questa versione corregge un problema a causa del quale Reduce Task non era in grado di leggere i dati shuffle. Il problema ha causato errori nelle query di Hive con un errore di memoria danneggiata.
-
Questa versione aggiunge un nuovo meccanismo di tentativi al flusso di lavoro dimensionabile per i cluster EMR che eseguono Presto o Trino. Questo miglioramento riduce la possibilità che il ridimensionamento del cluster si blocchi a tempo indeterminato a causa di una singola operazione di ridimensionamento con esito negativo. Inoltre, migliora l'utilizzo del cluster, poiché quest'ultimo aumenta e riduce più rapidamente.
-
Questa versione migliora la logica di riduzione del cluster in modo che quest'ultimo non tenti di ridurre i nodi principali al di sotto dell'impostazione del fattore di replica HDFS per il cluster. Ciò è in linea con i requisiti di ridondanza dei dati e riduce la possibilità che un'operazione di dimensionamento si blocchi.
-
Il daemon di gestione dei log è stato aggiornato per identificare tutti i log che sono in uso attivo con handle di file aperti sull'archiviazione dell'istanza locale e i processi associati. Questo aggiornamento garantisce che Amazon EMR elimini correttamente i file e recuperi lo spazio di archiviazione dopo la memorizzazione dei log su Amazon S3.
-
Questa versione include un miglioramento del daemon di gestione dei log che elimina le directory delle fasi vuote e inutilizzate nel file system del cluster locale. Un numero eccessivo di directory vuote può ridurre le prestazioni dei daemon Amazon EMR e causare un utilizzo eccessivo del disco.
Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.
OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate 2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
Versione 6.11.0
Le seguenti note di rilascio includono informazioni relative alla versione 6.11.0 di Amazon EMR. Le modifiche sono relative alla versione 6.10.0. Per ulteriori informazioni sulla tempistica di rilascio, consulta il log delle modifiche.
Nuove funzionalità
-
Amazon EMR 6.11.0 supporta Apache Spark 3.3.2-amzn-0, Apache Spark RAPIDS 23.02.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.0-amzn-0, Apache Iceberg 1.2.0-amzn-0, Trino 410-amzn-0 e PrestoDB 0.279-amzn-0.
Modifiche, miglioramenti e problemi risolti
Con Amazon EMR 6.11.0, il connettore DynamoDB è stato aggiornato alla versione 5.0.0. La versione 5.0.0 utilizza AWS SDK for Java 2.x. Le versioni precedenti utilizzavano AWS SDK for Java 1.x. Come risultato di questo aggiornamento, consigliamo vivamente di testare il codice prima di utilizzare il connettore DynamoDB con Amazon EMR 6.11.
Quando il connettore DynamoDB per Amazon EMR 6.11.0 chiama il servizio DynamoDB, utilizza il valore della regione fornito per la proprietà di
dynamodb.endpoint
. Consigliamo di configurare anchedynamodb.region
quando utilizzidynamodb.endpoint
e che entrambe le proprietà abbiano come destinazione la stessa Regione AWS. Se utilizzidynamodb.endpoint
e non configuridynamodb.region
, il connettore DynamoDB per Amazon EMR 6.11.0 restituisce un'eccezione della regione non valida e tenta di riconciliare le informazioni della Regione AWS dal servizio di metadati di istanza (IMDS) Amazon EC2. Se il connettore non è in grado di recuperare la regione da IMDS, il valore predefinito è Stati Uniti orientali (Virginia settentrionale) (us-east-1
). L'errore seguente è un esempio dell'eccezione della regione non valida che potresti ottenere se non configuri correttamente la proprietàdynamodb.region
:error software.amazon.awssdk.services.dynamodb.model.DynamoDbException: Credential should be scoped to a valid region.
per ulteriori informazioni sulle classi interessate dall'aggiornamento di AWS SDK for Java a 2.x, consulta il commit Aggiornamento di AWS SDK for Java da 1.x a 2.x (#175)nel repository GitHub per il connettore Amazon EMR - DynamoDB. Questa versione corregge un problema per cui i dati diventano
NULL
quando utilizzi Delta Lake per archiviare i dati delle tabelle Delta in Amazon S3 dopo l'operazione di ridenominazione delle colonne. Per ulteriori informazioni su questa funzionalità sperimentale di Delta Lake, consulta Operazione di ridenominazione delle colonnenella Guida per l'utente di Delta Lake. -
La versione 6.11.0 corregge un problema che potrebbe verificarsi quando si crea un nodo edge replicando uno dei nodi primari da un cluster con più nodi primari. Il nodo edge replicato potrebbe causare ritardi nelle operazioni di riduzione o comportare un elevato utilizzo della memoria sui nodi primari. Per ulteriori informazioni su come creare un nodo edge per comunicare con il cluster EMR, consulta Strumento per creare nodi edge
nel repository aws-samples
su GitHub. -
La versione 6.11.0 migliora il processo di automazione utilizzato da Amazon EMR per rimontare i volumi Amazon EBS su un'istanza dopo un riavvio.
-
La versione 6.11.0 corregge un problema che causava discontinuità nei parametri Hadoop pubblicati da Amazon EMR su Amazon CloudWatch.
-
La versione 6.11.0 corregge un problema con i cluster EMR per cui un aggiornamento del file di configurazione YARN che contiene l'elenco di esclusione dei nodi per il cluster viene interrotto a causa dell'eccessivo utilizzo del disco. L'aggiornamento incompleto ostacola le future operazioni di riduzione del cluster. Questa versione garantisce l'integrità del cluster e il corretto funzionamento delle operazioni di dimensionamento.
-
La dimensione predefinita del volume root è aumentata a 15 GB in Amazon EMR 6.10.0 e versioni successive. Le versioni precedenti avevano una dimensione predefinita del volume root di 10 GB.
-
Hadoop 3.3.3 ha introdotto una modifica in YARN (YARN-9608
) che mantiene i nodi in cui erano in esecuzione i container in uno stato di disattivazione fino al completamento dell'applicazione. Questa modifica assicura che i dati locali, come i dati shuffle, non vadano persi e non è necessario eseguire nuovamente il processo. Questo approccio potrebbe anche portare a un utilizzo insufficiente delle risorse sui cluster con o senza Scalabilità gestita abilitata. Con le versioni 6.11.0 e successive di Amazon EMR, nonché 6.8.1, 6.9.1 e 6.10.1, il valore di
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
è impostato sufalse
inyarn-site.xml
per risolvere questo problema.Sebbene la correzione si occupi dei problemi introdotti da YARN-9608, potrebbe influire sulla corretta esecuzione dei processi di Hive a causa della perdita dei dati shuffle sui cluster con Scalabilità gestita abilitata. In questa versione abbiamo mitigato tale rischio impostando anche
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-shuffle-data
per i carichi di lavoro di Hive. Questa configurazione è disponibile solo con Amazon EMR 6.11.0 e versioni successive. Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.
Nota
Questa versione non riceve più aggiornamenti automatici delle AMI poiché è stata sostituita da un'altra versione di patch. La versione della patch è indicata dal numero dopo il secondo separatore decimale (
6.8.
). Per scoprire se stai utilizzando l'ultima versione della patch, controlla le versioni disponibili nella Guida alle versioni o consulta il menu a discesa Versione Amazon EMR quando crei un cluster nella console o utilizzi l'API1
ListReleaseLabels
o l'operazionelist-release-labels
nella CLI. Per ricevere aggiornamenti sulle nuove versioni, iscriviti al feed RSS nella pagina Novità.OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate 2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv) 2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv) 2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale) 2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale) 2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)
Versione 6.10.0
Le seguenti note di rilascio includono informazioni relative alla versione 6.10.0 di Amazon EMR. Le modifiche sono relative alla versione 6.9.0. Per ulteriori informazioni sulla tempistica di rilascio, consulta il log delle modifiche.
Nuove funzionalità
-
Amazon EMR 6.10.0 supporta Apache Spark 3.3.1, Apache Spark RAPIDS 22.12.0, CUDA 11.8.0, Apache Hudi 0.12.2-amzn-0, Apache Iceberg 1.1.0-amzn-0, Trino 403 e PrestoDB 0.278.1.
Amazon EMR 6.10.0 include un connettore Trino-Hudi nativo che fornisce l'accesso in lettura ai dati nelle tabelle Hudi. Puoi attivare il connettore con
trino-cli --catalog hudi
e configurarlo in base alle tue esigenze contrino-connector-hudi
. L'integrazione nativa con Amazon EMR indica che non è più necessario utilizzaretrino-connector-hive
per eseguire query sulle tabelle Hudi. Per un elenco delle configurazioni supportate con il nuovo connettore, consulta la pagina Connettori Hudinella documentazione di Trino. -
Le versioni 6.10.0 e successive di Amazon EMR supportano l'integrazione di Apache Zeppelin con Apache Flink. Per ulteriori informazioni, consulta Utilizzo dei processi Flink di Zeppelin in Amazon EMR.
Problemi noti
Hadoop 3.3.3 ha introdotto una modifica in YARN (YARN-9608
) che mantiene i nodi in cui erano in esecuzione i container in uno stato di disattivazione fino al completamento dell'applicazione. Questa modifica assicura che i dati locali, come i dati shuffle, non vadano persi e non è necessario eseguire nuovamente il processo. Questo approccio potrebbe anche portare a un utilizzo insufficiente delle risorse sui cluster con o senza Scalabilità gestita abilitata. Per risolvere questo problema in Amazon EMR 6.10.0, puoi impostare il valore di
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
sufalse
inyarn-site.xml
. Nelle versioni 6.11.0 e successive di Amazon EMR, nonché 6.8.1, 6.9.1 e 6.10.1, la configurazione è impostata sufalse
per impostazione predefinita per risolvere questo problema.
Modifiche, miglioramenti e problemi risolti
Amazon EMR 6.10.0 rimuove la dipendenza da
minimal-json.jar
per l'integrazione Amazon Redshift per Apache Spark e aggiunge automaticamente i jar necessari relativi a Spark-Redshift al percorso della classe dell'esecutore per Spark:spark-redshift.jar
,spark-avro.jar
eRedshiftJDBC.jar
.-
La versione 6.10.0 migliora il daemon di gestione dei log sul cluster per monitorare cartelle di log aggiuntive nel cluster EMR. Questo miglioramento riduce al minimo gli scenari di utilizzo eccessivo del disco.
-
La versione 6.10.0 riavvia automaticamente il daemon di gestione dei log sul cluster quando si arresta. Questo miglioramento riduce la possibilità che i nodi appaiano non integri a causa dell'eccessivo utilizzo del disco.
-
Amazon EMR 6.10.0 supporta gli endpoint regionali per la mappatura degli utenti EMRFS.
-
La dimensione predefinita del volume root è aumentata a 15 GB in Amazon EMR 6.10.0 e versioni successive. Le versioni precedenti avevano una dimensione predefinita del volume root di 10 GB.
-
La versione 6.10.0 corregge un problema che causava il blocco dei processi Spark quando tutti gli esecutori Spark rimanenti si trovavano su un host in fase di disattivazione con il gestore di risorse YARN.
Con le versioni da 6.6.0 a 6.9.x di Amazon EMR, le query INSERT con partizione dinamica e una clausola ORDER BY o SORT BY avranno sempre due riduttori. Questo problema è causato dalla modifica dell'OSS HIVE-20703
, che assoggetta l'ottimizzazione dinamica delle partizioni di ordinamento a una decisione basata sui costi. Se il carico di lavoro non richiede l'ordinamento delle partizioni dinamiche, ti consigliamo di impostare la proprietà hive.optimize.sort.dynamic.partition.threshold
su-1
per disabilitare la nuova caratteristica e ottenere il numero di riduttori calcolato correttamente. Questo problema è stato corretto in OSS Hive come parte di HIVE-22269ed è stato risolto in Amazon EMR 6.10.0. Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.
Nota
Questa versione non riceve più aggiornamenti automatici delle AMI poiché è stata sostituita da un'altra versione di patch. La versione della patch è indicata dal numero dopo il secondo separatore decimale (
6.8.
). Per scoprire se stai utilizzando l'ultima versione della patch, controlla le versioni disponibili nella Guida alle versioni o consulta il menu a discesa Versione Amazon EMR quando crei un cluster nella console o utilizzi l'API1
ListReleaseLabels
o l'operazionelist-release-labels
nella CLI. Per ricevere aggiornamenti sulle nuove versioni, iscriviti al feed RSS nella pagina Novità.OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate 2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv) 2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv) 2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale) 2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale) 2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale) 2.0.20230418.0 4.14.311 3 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale) 2.0.20230404.1 4.14.311 18 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale), Medio Oriente (Emirati Arabi Uniti) 2.0.20230404.0 4.14.311 10 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Europa (Parigi) 2.0.20230320.0 4.14.309 30 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale), Medio Oriente (Emirati Arabi Uniti) 2.0.20230207.0 4.14.304 22 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale), Medio Oriente (Emirati Arabi Uniti)
Rilascio 6.9.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.9.0. Le modifiche sono relative al rilascio di Amazon EMR 6.8.0. Per ulteriori informazioni sulla tempistica di rilascio, consulta il log delle modifiche.
Nuove caratteristiche
Amazon EMR rilascio 6.9.0 supporta Apache Spark RAPIDS 22.08.0, Apache Hudi 0.12.1, Apache Iceberg 0.14.1, Trino 398 e Tez 0.10.2.
Amazon EMR rilascio 6.9.0 include una nuova applicazione open source, Delta Lake 2.1.0.
L'integrazione di Amazon Redshift per Apache Spark è inclusa in Amazon EMR rilascio 6.9.0 e successivi. In precedenza uno strumento open source, l'integrazione nativa è un connettore Spark che è possibile utilizzare per creare applicazioni Apache Spark in grado di leggere e scrivere dati in Amazon Redshift e Amazon Redshift Serverless. Per ulteriori informazioni, consulta Utilizzo dell'integrazione di Amazon Redshift per Apache Spark su Amazon EMR.
Amazon EMR rilascio 6.9.0 aggiunge il supporto per l'archiviazione dei log su Amazon S3 durante la riduzione dei cluster. In precedenza, era possibile archiviare i file di log in Amazon S3 solo durante la terminazione del cluster. La nuova funzionalità garantisce la persistenza su Amazon S3 dei file di log generati nel cluster anche dopo la terminazione del nodo. Per ulteriori informazioni, consulta Configurazione della registrazione e del debug di cluster.
Per supportare le query di lunga durata, Trino ora include un meccanismo di esecuzione con tolleranza ai guasti. L'esecuzione con tolleranza ai guasti mitiga gli errori delle query ritentando le query non riuscite o le attività dei loro componenti. Per ulteriori informazioni, consulta Esecuzione con tolleranza ai guasti in Trino.
È possibile utilizzare Apache Flink su Amazon EMR per l'elaborazione
BATCH
eSTREAM
unificata delle tabelle Apache Hive o dei metadati di qualsiasi origine di tabella Flink, come Iceberg, Kinesis o Kafka. È possibile specificare AWS Glue Data Catalog come metastore per Flink utilizzando la AWS Management Console, la AWS CLI o l'API di Amazon EMR. Per ulteriori informazioni, consulta Configurazione di Flink in Amazon EMR.Ora è possibile specificare i ruoli di runtime AWS Identity and Access Management (IAM) e il controllo degli accessi basato su AWS Lake Formation per Apache Spark, Apache Hive e Presto su Amazon EMR sui cluster EC2 con Amazon SageMaker Studio. Per ulteriori informazioni, consulta Configurazione dei ruoli per le fasi di Amazon EMR.
Problemi noti
Per Amazon EMR rilascio 6.9.0, Trino non funziona su cluster abilitati per Apache Ranger. Se hai la necessità di utilizzare Trino con Ranger, contatta il AWS Support
. Se utilizzi l'integrazione di Amazon Redshift per Apache Spark e disponi di un'indicazione temporale time, timez, timestamp o timestamptz con una precisione di microsecondi in formato Parquet, il connettore arrotonda i valori temporali al valore in millisecondi più vicino. Come soluzione alternativa, utilizza il parametro
unload_s3_format
del formato di scaricamento del testo.Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Le connessioni ai cluster Amazon EMR da Amazon SageMaker Studio possono fallire in modo intermittente con un codice di risposta 403 Forbidden. Questo errore si verifica quando l'impostazione del ruolo IAM sul cluster richiede più di 60 secondi. Come soluzione alternativa, puoi installare una patch Amazon EMR per consentire nuovi tentativi e aumentare il timeout a un minimo di 300 secondi. Completa la seguente procedura per applicare l'operazione bootstrap all'avvio del cluster.
Scarica lo script di bootstrap e i file RPM tramite i seguenti URL Amazon S3.
s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/replace-rpms.sh s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/emr-secret-agent-1.18.0-SNAPSHOT20221121212949.noarch.rpm
Carica i file della fase precedente in un bucket Amazon S3 di tua proprietà. Il bucket deve trovarsi nella stessa Regione AWS in cui intendi avviare il cluster.
Includi la seguente operazione di bootstrap durante l'avvio del cluster EMR. Sostituisci
bootstrap_URI
eRPM_URI
con gli URI corrispondenti di Amazon S3.--bootstrap-actions "Path=
bootstrap_URI
,Args=[RPM_URI
]"
Con le release 5.36.0 e da 6.6.0 a 6.9.0 di Amazon EMR, i componenti dei servizi
SecretAgent
eRecordServer
servizio potrebbero subire una perdita di dati di log a causa di una configurazione errata del modello nome file nelle proprietà Log4j2. Ca sua della configurazione errata, i componenti generano un solo file di log al giorno. Quando si applica la strategia di rotazione, sovrascrive il file esistente invece di generare un nuovo file di log come previsto. Come soluzione alternativa, utilizza un'azione bootstrap per generare file di log ogni ora e accoda un numero intero con incremento automatico nel nome file per gestire la rotazione.Per le release da 6.6.0 a 6.9.0 di Amazon EMR, utilizza la seguente azione bootstrap quando avvii un cluster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Per Amazon EMR 5.36.0, utilizza la seguente azione bootstrap quando avvii un cluster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
-
Apache Flink fornisce connettori nativi per i file system S3 e Hadoop che consentono alle applicazioni di creare un FileSink e di scrivere i dati in Amazon S3. Questo FileSink fallisce con una delle due eccezioni seguenti.
java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS
Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryPolicies.retryOtherThanRemoteAndSaslException(Lorg/apache/hadoop/io/retry/RetryPolicy;Ljava/util/Map;)Lorg/apache/hadoop/io/retry/RetryPolicy; at org.apache.hadoop.yarn.client.RMProxy.createRetryPolicy(RMProxy.java:302) ~[hadoop-yarn-common-3.3.3-amzn-0.jar:?]
Come soluzione alternativa, puoi installare una patch Amazon EMR, che risolve il problema sopra riportato in Flink. Per applicare l'operazione bootstrap all'avvio del cluster, completa la seguente procedura.
-
Scarica il flink-rpm
nel bucket Amazon S3. Il tuo percorso RPM è s3://
.DOC-EXAMPLE-BUCKET
/rpms/flink/ -
Scarica lo script di bootstrap e i file RPM da Amazon S3 utilizzando il seguente URI. Sostituisci
con la Regione AWS in cui prevedi di avviare il cluster.regionName
s3://emr-data-access-control-
regionName
/customer-bootstrap-actions/gcsc/replace-rpms.sh Hadoop 3.3.3 ha introdotto una modifica in YARN (YARN-9608
) che mantiene i nodi in cui erano in esecuzione i container in uno stato di disattivazione fino al completamento dell'applicazione. Questa modifica assicura che i dati locali, come i dati shuffle, non vadano persi e non è necessario eseguire nuovamente il processo. In Amazon EMR 6.8.0 e 6.9.0, questo approccio potrebbe anche portare a un utilizzo insufficiente delle risorse sui cluster con o senza Scalabilità gestita abilitata. Con Amazon EMR 6.10.0, esiste una soluzione alternativa a questo problema per impostare il valore di
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
sufalse
inyarn-site.xml
. Nelle versioni 6.11.0 e successive di Amazon EMR, nonché 6.8.1, 6.9.1 e 6.10.1, la configurazione è impostata sufalse
per impostazione predefinita per risolvere questo problema.
-
Modifiche, miglioramenti e problemi risolti
Per versione di rilascio 6.9.0 e successive di Amazon EMR, tutti i componenti installati da Amazon EMR che utilizzano librerie Log4j utilizzano Log4j versione 2.17.1 o successiva.
-
Quando usi il connettore DynamoDB con Spark nelle versioni di Amazon EMR 6.6.0, 6.7.0 e 6.8.0, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Amazon EMR rilascio 6.9.0 risolve questo problema.
Amazon EMR 6.9.0 aggiunge un supporto limitato per il controllo degli accessi basato su Lake Formation con Apache Hudi durante la lettura dei dati tramite Spark SQL. Il supporto è per le query SELECT che utilizzano Spark SQL ed è limitato al controllo degli accessi a livello di colonna. Per ulteriori informazioni, consulta Hudi e Formation.
Quando usi Amazon EMR 6.9.0 per creare un cluster Hadoop con le Etichette nodo
abilitate, l'API delle metriche YARN restituisce informazioni aggregate su tutte le partizioni, anziché sulla partizione predefinita. Per ulteriori informazioni, consulta YARN-11414 . Con Amazon EMR 6.9.0, abbiamo aggiornato Trino alla versione 398, che utilizza Java 17. La versione precedente supportata di Trino per Amazon EMR 6.8.0 era Trino 388 in esecuzione su Java 11. Per ulteriori informazioni su questa modifica, consulta Aggiornamenti di Trino a Java 17
sul blog di Trino. Questa versione corregge un problema di mancata corrispondenza della sequenza temporale tra Apache BigTop e Amazon EMR nella sequenza di avvio del cluster EC2. Questa mancata corrispondenza della sequenza temporale si verifica quando un sistema tenta di eseguire due o più operazioni contemporaneamente anziché eseguirle nella sequenza corretta. Di conseguenza, alcune configurazioni del cluster hanno registrato timeout di avvio delle istanze e tempi di avvio del cluster più lenti.
Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.
Nota
Questa versione non riceve più aggiornamenti automatici delle AMI poiché è stata sostituita da un'altra versione di patch. La versione della patch è indicata dal numero dopo il secondo separatore decimale (
6.8.
). Per scoprire se stai utilizzando l'ultima versione della patch, controlla le versioni disponibili nella Guida alle versioni o consulta il menu a discesa Versione Amazon EMR quando crei un cluster nella console o utilizzi l'API1
ListReleaseLabels
o l'operazionelist-release-labels
nella CLI. Per ricevere aggiornamenti sulle nuove versioni, iscriviti al feed RSS nella pagina Novità.OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate 2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv) 2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv) 2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230418.0 4.14.311 3 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230404.1 4.14.311 18 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230404.0 4.14.311 10 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Europa (Parigi) 2.0.20230320.0 4.14.309 30 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230307.0 4.14.305 15 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230207.0 4.14.304 22 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20221210.1 4.14.301 12 gennaio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20221103.3 4.14.296 5 dicembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
Rilascio 6.8.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.8.0. Le modifiche sono relative alla versione 6.7.0
Nuove caratteristiche
-
Le fasi di Amazon EMR supportano gli endpoint Apache Livy e i client JDBC/ODBC. Per ulteriori informazioni, consulta Configurazione dei ruoli per le fasi di Amazon EMR.
-
Il rilascio 6.8.0 di Amazon EMR include Spark per Apache HBase 2.4.12. Con questa versione di HBase, è possibile archiviare ed eliminare le tabelle HBase. Il processo di archiviazione di Amazon S3 rinomina tutti i file della tabella nella directory di archivio. Questo processo può essere lungo e costoso. Ora è possibile saltare il processo di archiviazione ed eliminare rapidamente tabelle di grandi dimensioni. Per ulteriori informazioni, consulta Utilizzo della shell HBase.
Problemi noti
Hadoop 3.3.3 ha introdotto una modifica in YARN (YARN-9608
) che mantiene i nodi in cui erano in esecuzione i container in uno stato di disattivazione fino al completamento dell'applicazione. Questa modifica assicura che i dati locali, come i dati shuffle, non vadano persi e non è necessario eseguire nuovamente il processo. In Amazon EMR 6.8.0 e 6.9.0, questo approccio potrebbe anche portare a un utilizzo insufficiente delle risorse sui cluster con o senza Scalabilità gestita abilitata. Con Amazon EMR 6.10.0, esiste una soluzione alternativa a questo problema per impostare il valore di
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
sufalse
inyarn-site.xml
. Nelle versioni 6.11.0 e successive di Amazon EMR, nonché 6.8.1, 6.9.1 e 6.10.1, la configurazione è impostata sufalse
per impostazione predefinita per risolvere questo problema.
Modifiche, miglioramenti e problemi risolti
-
Quando i rilasci 6.5.0, 6.6.0 o 6.7.0 di Amazon EMR leggevano le tabelle di Apache Phoenix tramite la shell Apache Spark, Amazon EMR produceva un
NoSuchMethodError
. Il rilascio 6.8.0 di Amazon EMR risolve questo problema. -
Il rilascio 6.8.0 di Amazon EMR include Apache Hudi
0.11.1; tuttavia, i cluster Amazon EMR 6.8.0 sono compatibili anche con l'open source hudi-spark3.3-bundle_2.12
di Hudi 0.12.0. -
Rilascio 6.8.0 di Amazon EMR con Spark per Apache 3.3.0. Questa versione di Spark utilizza Apache Log4j 2 e il file
log4j2.properties
per configurare Log4j nei processi Spark. Se utilizzi Spark nel cluster o crei cluster EMR con parametri di configurazione personalizzati e desideri eseguire l'aggiornamento alla versione 6.8.0 di Amazon EMR, devi migrare alla nuova classificazione della configurazione e formato chiavespark-log4j2
per Apache Log4j 2. Per ulteriori informazioni, consulta Migrazione da Apache Log4j 1.x a Log4j 2.x. Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.
Nota
Questa versione non riceve più aggiornamenti automatici delle AMI poiché è stata sostituita da un'altra versione di patch. La versione della patch è indicata dal numero dopo il secondo separatore decimale (
6.8.
). Per scoprire se stai utilizzando l'ultima versione della patch, controlla le versioni disponibili nella Guida alle versioni o consulta il menu a discesa Versione Amazon EMR quando crei un cluster nella console o utilizzi l'API1
ListReleaseLabels
o l'operazionelist-release-labels
nella CLI. Per ricevere aggiornamenti sulle nuove versioni, iscriviti al feed RSS nella pagina Novità.OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate 2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale) 2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230418.0 4.14.311 3 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230404.1 4.14.311 18 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230404.0 4.14.311 10 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Europa (Parigi) 2.0.20230320.0 4.14.309 30 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230307.0 4.14.305 15 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230207.0 4.14.304 22 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230119.1 4.14.301 3 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20221210.1 4.14.301 22 dicembre 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20221103.3 4.14.296 5 dicembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20221004.0 4.14.294 2 novembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20220912.1 4.14.291 6 settembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
Problemi noti
-
Quando usi il connettore DynamoDB con Spark nelle versioni di Amazon EMR 6.6.0, 6.7.0 e 6.8.0, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Questo perché Spark 3.2.0 imposta
spark.hadoopRDD.ignoreEmptySplits
sutrue
di default. Come soluzione alternativa, imposta esplicitamentespark.hadoopRDD.ignoreEmptySplits
sufalse
. Amazon EMR rilascio 6.9.0 risolve questo problema. Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Con le release 5.36.0 e da 6.6.0 a 6.9.0 di Amazon EMR, i componenti dei servizi
SecretAgent
eRecordServer
servizio potrebbero subire una perdita di dati di log a causa di una configurazione errata del modello nome file nelle proprietà Log4j2. Ca sua della configurazione errata, i componenti generano un solo file di log al giorno. Quando si applica la strategia di rotazione, sovrascrive il file esistente invece di generare un nuovo file di log come previsto. Come soluzione alternativa, utilizza un'azione bootstrap per generare file di log ogni ora e accoda un numero intero con incremento automatico nel nome file per gestire la rotazione.Per le release da 6.6.0 a 6.9.0 di Amazon EMR, utilizza la seguente azione bootstrap quando avvii un cluster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Per Amazon EMR 5.36.0, utilizza la seguente azione bootstrap quando avvii un cluster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
Per ulteriori informazioni sulla tempistica di rilascio, consulta il log delle modifiche.
Rilascio 6.7.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.7.0. Le modifiche sono relative alla versione 6.6.0.
Data del rilascio iniziale: 15 luglio 2022
Nuove caratteristiche
Amazon EMR ora supporta Apache Spark 3.2.1, Apache Hive 3.1.3, HUDI 0.11, PrestoDB 0.272 e Trino 0.378.
Supporta i controlli degli accessi basati su ruoli IAM e Lake Formation con fasi EMR (Spark, Hive) per Amazon EMR sui cluster EC2.
Supporta le istruzioni di definizione dei dati Apache Spark su cluster abilitati Apache Ranger. Adesso, include il supporto per le applicazioni Trino che leggono e scrivono metadati Apache Hive su cluster abilitati Apache Ranger. Per ulteriori informazioni, consulta la sezione Abilitazione della governance federata utilizzando Trino e Apache Ranger su Amazon EMR
. Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.
OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate 2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale) 2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230418.0 4.14.311 3 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230404.1 4.14.311 18 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230404.0 4.14.311 10 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Europa (Parigi) 2.0.20230320.0 4.14.309 30 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230307.0 4.14.305 15 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230207.0 4.14.304 22 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230119.1 4.14.301 3 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20221210.1 4.14.301 22 dicembre 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20221103.3 4.14.296 5 dicembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20221004.0 4.14.294 2 novembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20220912.1 4.14.291 7 ottobre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20220719.0 4.14.287 10 agosto 2022 us‑west‑1
,eu‑west‑3
,eu‑north‑1
,ap‑south‑1
,me‑south‑1
2.0.20220606.1 4.14.281 15 luglio 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
Problemi noti
Quando le release 6.5.0, 6.6.0 o 6.7.0 di Amazon EMR leggono le tabelle di Apache Phoenix tramite la shell (interprete di comandi) Apache Spark, si verifica un
NoSuchMethodError
perché Amazon EMR utilizza un valore erratoHbase.compat.version
. Il rilascio 6.8.0 di Amazon EMR risolve questo problema.-
Quando usi il connettore DynamoDB con Spark nelle versioni di Amazon EMR 6.6.0, 6.7.0 e 6.8.0, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Questo perché Spark 3.2.0 imposta
spark.hadoopRDD.ignoreEmptySplits
sutrue
di default. Come soluzione alternativa, imposta esplicitamentespark.hadoopRDD.ignoreEmptySplits
sufalse
. Amazon EMR rilascio 6.9.0 risolve questo problema. Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Con le release 5.36.0 e da 6.6.0 a 6.9.0 di Amazon EMR, i componenti dei servizi
SecretAgent
eRecordServer
servizio potrebbero subire una perdita di dati di log a causa di una configurazione errata del modello nome file nelle proprietà Log4j2. Ca sua della configurazione errata, i componenti generano un solo file di log al giorno. Quando si applica la strategia di rotazione, sovrascrive il file esistente invece di generare un nuovo file di log come previsto. Come soluzione alternativa, utilizza un'azione bootstrap per generare file di log ogni ora e accoda un numero intero con incremento automatico nel nome file per gestire la rotazione.Per le release da 6.6.0 a 6.9.0 di Amazon EMR, utilizza la seguente azione bootstrap quando avvii un cluster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Per Amazon EMR 5.36.0, utilizza la seguente azione bootstrap quando avvii un cluster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
Rilascio 6.6.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.6.0. Le modifiche sono relative alla versione 6.5.0.
Data del rilascio iniziale: 9 maggio 2022
Ultimo aggiornamento della documentazione: 15 giugno 2022
Nuove caratteristiche
Amazon EMR 6.6 ora supporta Apache Spark 3.2, Apache Spark RAPIDS 22.02, CUDA 11, Apache Hudi 0.10.1, Apache Iceberg 0.13, Trino 0.367 e PrestoDB 0.267.
Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.
OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate 2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale) 2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230418.0 4.14.311 3 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230404.1 4.14.311 18 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230404.0 4.14.311 10 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Europa (Parigi) 2.0.20230320.0 4.14.309 30 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230307.0 4.14.305 15 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230207.0 4.14.304 22 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20230119.1 4.14.301 3 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20221210.1 4.14.301 22 dicembre 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20221103.3 4.14.296 5 dicembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20221004.0 4.14.294 2 novembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20220912.1 4.14.291 7 ottobre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20220805.0 4.14.287 30 agosto 2022 us‑west‑1
2.0.20220719.0 4.14.287 10 agosto 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20220426.0 4.14.281 10 giugno 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) 2.0.20220406.1 4.14.275 2 maggio 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale) Le applicazioni Amazon EMR versione 6.6 e successive che usano Log4j 1.x e Log4j 2.x sono aggiornate per usare rispettivamente Log4j 1.2.17 (o superiore) e Log4j 2.17.1 (o superiore) e non richiedono l'uso di operazioni di bootstrap per mitigare i problemi CVE.
-
[Dimensionamento] Ottimizzazione del dimensionamento gestito dei dati di shuffle di Spark - Per Amazon EMR versioni 5.34.0 e successive e EMR 6.4.0 e successive, il dimensionamento gestito è ora consapevole dei dati di shuffle di Spark (dati che Spark ridistribuisce tra le partizioni per eseguire operazioni specifiche). Per ulteriori informazioni sulle operazioni di shuffle, consulta Utilizzo del dimensionamento gestito da EMR in Amazon EMR nella Guida di gestione di Amazon EMR e Guida di programmazione Spark
. A partire da Amazon EMR 5.32.0 e 6.5.0, il ridimensionamento dell'executor dinamico per Apache Spark è abilitato di default. Per attivare o disattivare questa caratteristica, è possibile utilizzare il
spark.yarn.heterogeneousExecutors.enabled
parametro di configurazione.
Modifiche, miglioramenti e problemi risolti
Amazon EMR riduce in media i tempi di avvio del cluster fino a 80 secondi per i cluster che utilizzano l'opzione AMI di default EMR e installano solo applicazioni comuni, come Apache Hadoop, Apache Spark e Apache Hive.
Problemi noti
Quando le release 6.5.0, 6.6.0 o 6.7.0 di Amazon EMR leggono le tabelle di Apache Phoenix tramite la shell (interprete di comandi) Apache Spark, si verifica un
NoSuchMethodError
perché Amazon EMR utilizza un valore erratoHbase.compat.version
. Il rilascio 6.8.0 di Amazon EMR risolve questo problema.-
Quando usi il connettore DynamoDB con Spark nelle versioni di Amazon EMR 6.6.0, 6.7.0 e 6.8.0, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Questo perché Spark 3.2.0 imposta
spark.hadoopRDD.ignoreEmptySplits
sutrue
di default. Come soluzione alternativa, imposta esplicitamentespark.hadoopRDD.ignoreEmptySplits
sufalse
. Amazon EMR rilascio 6.9.0 risolve questo problema. Su cluster Trino a lunga esecuzione Amazon EMR 6.6.0 abilita i parametri di registrazione della rimozione di oggetti inutili (Garbage Collection) in Trino jvm.config per ottenere informazioni migliori dai log di Garbage Collection. Questa modifica aggiunge molti registri di Garbage Collection al file launcher.log (/var/log/trino/launcher.log). Se esegui cluster Trino in Amazon EMR 6.6.0, potresti riscontrare che i nodi esauriscono lo spazio su disco dopo che il cluster è stato in esecuzione per un paio di giorni a causa dei registri che sono stati aggiunti.
La soluzione alternativa per questo problema è eseguire lo script sottostante come operazione Bootstrap per disabilitare i parametri di registrazione di rimozione di oggetti inutili (garbage collection) in jvm.config durante la creazione o la clonazione del cluster per Amazon EMR 6.6.0.
#!/bin/bash set -ex PRESTO_PUPPET_DIR='/var/aws/emr/bigtop-deploy/puppet/modules/trino' sudo bash -c "sed -i '/-Xlog/d' ${PRESTO_PUPPET_DIR}/templates/jvm.config"
Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Con le release 5.36.0 e da 6.6.0 a 6.9.0 di Amazon EMR, i componenti dei servizi
SecretAgent
eRecordServer
servizio potrebbero subire una perdita di dati di log a causa di una configurazione errata del modello nome file nelle proprietà Log4j2. Ca sua della configurazione errata, i componenti generano un solo file di log al giorno. Quando si applica la strategia di rotazione, sovrascrive il file esistente invece di generare un nuovo file di log come previsto. Come soluzione alternativa, utilizza un'azione bootstrap per generare file di log ogni ora e accoda un numero intero con incremento automatico nel nome file per gestire la rotazione.Per le release da 6.6.0 a 6.9.0 di Amazon EMR, utilizza la seguente azione bootstrap quando avvii un cluster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
Per Amazon EMR 5.36.0, utilizza la seguente azione bootstrap quando avvii un cluster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
Rilascio 5.35.0
Questa è la nota di rilascio di Amazon EMR 5.35.0.
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.35.0. Le modifiche sono relative alla versione 5.34.0.
Data del rilascio iniziale: 30 marzo 2022
Nuove caratteristiche
Le applicazioni Amazon EMR versione 5.35 che usano Log4j 1.x e Log4j 2.x sono aggiornate per usare rispettivamente Log4j 1.2.17 (o superiore) e Log4j 2.17.1 (o superiore) e non richiedono l'uso di operazioni di bootstrap per mitigare i problemi CVE nelle versioni precedenti. Per informazioni, consultare Approccio per mitigare il CVE-2021-44228.
Modifiche, miglioramenti e problemi risolti
Modifiche di Flink | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Tipo di modifica | Descrizione | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Aggiornamenti |
|
Cambiamenti di Hadoop | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Tipo di modifica | Descrizione | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Backport open source di Hadoop da EMR 5.34.0 |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Modifiche e correzioni di Hadoop |
|
Cambiamenti Hive | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Tipo di modifica | Descrizione | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hive aggiornato a open sourceversione 2.3.9 |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hive backport open source da EMR 5.34.0 |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Aggiornamenti e correzioni di Hive |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Nuove funzionalità |
|
Modifiche Oozie | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Tipo di modifica | Descrizione | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Backport open source di Oozie da EMR 5.34.0 |
|
Cambiamenti Pig | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Tipo di modifica | Descrizione | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Aggiornamenti |
|
Problemi noti
Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Rilascio 5.34.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.34.0. Le modifiche sono relative alla versione 5.33.1.
Data del rilascio iniziale: 20 gennaio 2022
Data di rilascio aggiornata: 21 marzo 2022
Nuove caratteristiche
-
[Dimensionamento] Ottimizzazione del dimensionamento gestito dei dati di shuffle di Spark - Per Amazon EMR versioni 5.34.0 e successive e EMR 6.4.0 e successive, il dimensionamento gestito è ora consapevole dei dati di shuffle di Spark (dati che Spark ridistribuisce tra le partizioni per eseguire operazioni specifiche). Per ulteriori informazioni sulle operazioni di shuffle, consulta Utilizzo del dimensionamento gestito da EMR in Amazon EMR nella Guida di gestione di Amazon EMR e Guida di programmazione Spark
. [Hudi] Miglioramenti per semplificare la configurazione Hudi. Optimistic Concurrency Control disabilitato per impostazione predefinita.
Modifiche, miglioramenti e problemi risolti
-
Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.
In precedenza, il riavvio manuale del gestore delle risorse su un cluster multi-master provocava il ricaricamento, da parte dei daemon su cluster di Amazon EMR come Zookeeper, di tutti i nodi precedentemente disattivati o persi nel file znode di Zookeeper. Ciò causava il superamento dei limiti predefiniti in determinate situazioni. Ora Amazon EMR rimuove i record dei nodi disattivati o persi più vecchi di un'ora dal file Zookeeper e i limiti interni sono stati aumentati.
È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.
I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.
SPARK-29683
. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati. YARN-9011
. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi. È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.
È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.
Zeppelin aggiornato alla versione 0.10.0.
Livy Fix: aggiornato alla versione 0.7.1
Miglioramento delle prestazioni di Spark: gli esecutori eterogenei sono disabilitati quando alcuni valori di configurazione Spark vengono sovrascritti in EMR 5.34.0.
I server HttpFS e WebHDFS sono disabilitati per impostazione predefinita. Puoi abilitare nuovamente WebHDFS utilizzando la configurazione di Hadoop,
dfs.webhdfs.enabled
. Il server HttpFS può essere avviato utilizzandosudo systemctl start hadoop-httpfs
.
Problemi noti
La caratteristica di Amazon EMR Notebooks utilizzata con la rappresentazione utente di Livy non funziona perché HttpFS è disabilitato per impostazione predefinita. In questo caso, EMR Notebooks non può connettersi al cluster in cui è abilitata la rappresentazione di Livy. La soluzione alternativa consiste nell'avviare il server HttpFS prima di connettere EMR Notebooks al cluster utilizzando
sudo systemctl start hadoop-httpfs
.Le query Hue non funzionano in Amazon EMR 6.4.0 perché il server HttpFS di Apache Hadoop è disabilitato per impostazione predefinita. Per utilizzare Hue su Amazon EMR 6.4.0, avvia manualmente il server HttpFS sul nodo primario di Amazon EMR utilizzando
sudo systemctl start hadoop-httpfs
oppure utilizza una fase di Amazon EMR.La caratteristica di Amazon EMR Notebooks utilizzata con la rappresentazione utente di Livy non funziona perché HttpFS è disabilitato per impostazione predefinita. In questo caso, EMR Notebooks non può connettersi al cluster in cui è abilitata la rappresentazione di Livy. La soluzione alternativa consiste nell'avviare il server HttpFS prima di connettere EMR Notebooks al cluster utilizzando
sudo systemctl start hadoop-httpfs
.Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Rilascio 6.5.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.5.0. Le modifiche sono relative alla versione 6.4.0.
Data del rilascio iniziale: 20 gennaio 2022
Data di rilascio aggiornata: 21 marzo 2022
Nuove caratteristiche
-
[Dimensionamento] Ottimizzazione del dimensionamento gestito dei dati di shuffle di Spark - Per Amazon EMR versioni 5.34.0 e successive e EMR 6.4.0 e successive, il dimensionamento gestito è ora consapevole dei dati di shuffle di Spark (dati che Spark ridistribuisce tra le partizioni per eseguire operazioni specifiche). Per ulteriori informazioni sulle operazioni di shuffle, consulta Utilizzo del dimensionamento gestito da EMR in Amazon EMR nella Guida di gestione di Amazon EMR e Guida di programmazione Spark
. A partire da Amazon EMR 5.32.0 e 6.5.0, il ridimensionamento dell'executor dinamico per Apache Spark è abilitato di default. Per attivare o disattivare questa caratteristica, è possibile utilizzare il
spark.yarn.heterogeneousExecutors.enabled
parametro di configurazione.Supporto per il formato di tabella aperta Apache Iceberg per enormi set di dati analitici.
Supporto per ranger–trino-plugin 2.0.1-amzn-1
Supporto per toree 0.5.0
Modifiche, miglioramenti e problemi risolti
La versione del rilascio 6.5 di Amazon EMR ora supporta Apache Iceberg 0.12.0 e offre miglioramenti al tempo di esecuzione con Amazon EMR Runtime per Apache Spark, Amazon EMR Runtime per Presto e Amazon EMR Runtime per Apache Hive.
Apache Iceberg
è un formato di tabella aperta per set di dati di grandi dimensioni in Amazon S3 e fornisce prestazioni di query rapide su tabelle di grandi dimensioni, commit atomici, scritture simultanee ed evoluzione delle tabelle compatibili con SQL. Con EMR 6.5, è possibile utilizzare Apache Spark 3.1.2 con il formato tabella Iceberg. Apache Hudi 0.9 aggiunge il supporto Spark SQL DDL e DML. Ciò consente di creare e modificare le tabelle Hudi usando solo istruzioni SQL. Apache Hudi 0.9 include anche miglioramenti delle prestazioni sul lato query e sul lato scrittore.
Amazon EMR Runtime per Apache Hive migliora le prestazioni di Apache Hive su Amazon S3 rimuovendo le operazioni di ridenominazione durante le operazioni di gestione temporanea e migliora le prestazioni per i comandi di metastore check (MSCK) utilizzati per la riparazione delle tabelle.
Problemi noti
Quando le release 6.5.0, 6.6.0 o 6.7.0 di Amazon EMR leggono le tabelle di Apache Phoenix tramite la shell (interprete di comandi) Apache Spark, si verifica un
NoSuchMethodError
perché Amazon EMR utilizza un valore erratoHbase.compat.version
. Il rilascio 6.8.0 di Amazon EMR risolve questo problema.-
I cluster bundle Hbase in High Availability (HA) non riescono a effettuare il provisioning con la dimensione del volume e il tipo di istanza di default. La soluzione alternativa per questo problema consiste nell'aumentare la dimensione del volume principale.
Per utilizzare le operazioni Spark con Apache Oozie, devi aggiungere la seguente configurazione al tuo file
workflow.xml
Oozie. In caso contrario, diverse librerie critiche come Hadoop e EMRFS non saranno presenti nella classpath degli esecutori Spark lanciati da Oozie.<spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Rilascio 6.4.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.4.0. Le modifiche sono relative alla versione 6.3.0.
Data del rilascio iniziale: 20 settembre 2021
Data di rilascio aggiornata: 21 marzo 2022
Applicazioni supportate
-
AWS SDK for Java versione 1.12.31
-
CloudWatch Sink versione 2.2.0
-
DynamoDB Connector versione 4.16.0
-
EMRFS versione 2.47.0
-
Amazon EMR Goodies versione 3.2.0
-
Amazon EMR Kinesis Connector versione 3.5.0
-
Amazon EMR Record Server versione 2.1.0
-
Amazon EMR Scripts versione 2.5.0
-
Flink versione 1.13.1
-
Ganglia versione 3.7.2
-
AWS Glue Hive Metastore Client versione 3.3.0
-
Hadoop versione 3.2.1-amzn-4
-
HBase versione 2.4.4-amzn-0
-
HBase-operator-tools 1.1.0
-
HCatalog versione 3.1.2-amzn-5
-
Hive versione 3.1.2-amzn-5
-
Hudi versione 0.8.0-amzn-0
-
Hue versione 4.9.0
-
Java JDK versione Corretto-8.302.08.1 (build 1.8.0_302-b08)
-
JupyterHub versione 1.4.1
-
Livy versione 0.7.1-incubating
-
MXNet versione 1.8.0
-
Oozie versione 5.2.1
-
Phoenix versione 5.1.2
-
Pig versione 0.17.0
-
Presto versione 0.254.1-amzn-0
-
Trino versione 359
-
Apache Ranger KMS (crittografia trasparente multi-master) versione 2.0.0
-
ranger-plugins 2.0.1-amzn-0
-
ranger-s3-plugin 1.2.0
-
SageMaker Spark SDK versione 1.4.1
-
Scala versione 2.12.10 (VM server OpenJDK a 64 bit, Java 1.8.0_282)
-
Spark versione 3.1.2-amzn-0
-
spark-rapids 0.4.1
-
Sqoop versione 1.4.7
-
TensorFlow versione 2.4.1
-
tez versione 0.9.2
-
Zeppelin versione 0.9.0
-
Zookeeper versione 3.5.7
-
Connettori e driver: DynamoDB Connector 4.16.0
Nuove funzionalità
-
[Dimensionamento] Ottimizzazione del dimensionamento gestito dei dati di shuffle di Spark - Per Amazon EMR versioni 5.34.0 e successive e EMR 6.4.0 e successive, il dimensionamento gestito è ora consapevole dei dati di shuffle di Spark (dati che Spark ridistribuisce tra le partizioni per eseguire operazioni specifiche). Per ulteriori informazioni sulle operazioni di shuffle, consulta Utilizzo del dimensionamento gestito da EMR in Amazon EMR nella Guida di gestione di Amazon EMR e Guida di programmazione Spark
. -
Sui cluster Amazon EMR abilitati ad Apache Ranger, puoi utilizzare Apache Spark SQL per inserire o aggiornare i dati nelle tabelle dei metastore di Apache Hive utilizzando
INSERT INTO
,INSERT OVERWRITE
, eALTER TABLE
. Quando si utilizza ALTER TABLE con Spark SQL, una posizione di partizione deve essere la directory figlio di una posizione di tabella. Al momento Amazon EMR non supporta l'inserimento di dati in una partizione in cui la posizione della partizione è diversa da quella della tabella. -
PrestoSQL è stato rinominato in Trino.
-
Hive: l'esecuzione di semplici query SELECT con clausola LIMIT viene accelerata interrompendo l'esecuzione della query non appena viene recuperato il numero di registri menzionati nella clausola LIMIT. Le query SELECT semplici sono query che non hanno una clausola GROUP BY/ORDER by o query che non hanno uno stadio di riduzione. Ad esempio,
SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>
.
Controlli di simultaneità Hudi
-
Hudi ora supporta Optimistic Concurrency Control (OCC), che può essere sfruttato con operazioni di scrittura come UPSERT e INSERT per consentire modifiche da più scrittori alla stessa tabella Hudi. Questo è livello di file OCC, quindi due commit (o scrittori) possono scrivere sulla stessa tabella, se le modifiche non sono in conflitto. Per ulteriori informazioni, consulta Controllo della concorrenza Hudi
. -
I cluster Amazon EMR hanno installato Zookeeper, che può essere sfruttato come provider di blocchi per OCC. Per semplificare l'utilizzo di questa funzione, i cluster Amazon EMR hanno le seguenti proprietà preconfigurate:
hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<
EMR Zookeeper URL
> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port
> hoodie.write.lock.zookeeper.base_path=/hudiPer abilitare OCC, è necessario configurare le seguenti proprietà con le relative opzioni di processo Hudi o a livello di cluster utilizzando l'API di configurazione Amazon EMR:
hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=
<Key to uniquely identify the Hudi table>
(Table Name is a good option)
Monitoraggio Hudi: integrazione di Amazon CloudWatch per segnalare i parametri Hudi
-
Amazon EMR supporta la pubblicazione di parametri Hudi su Amazon CloudWatch. È abilitato impostando le seguenti configurazioni richieste:
hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
Di seguito sono riportate le configurazioni Hudi opzionali che è possibile modificare:
Impostazione Descrizione Value (Valore) hoodie.metrics.cloudwatch.report.period.seconds
Frequenza (in secondi) con cui segnalare i parametri ad Amazon CloudWatch
Il valore di default è 60s, il che va bene per la risoluzione di default di un minuto offerta da Amazon CloudWatch
hoodie.metrics.cloudwatch.metric.prefix
Prefisso da aggiungere a ciascun nome parametro
Il valore di default è vuoto (nessun prefisso)
hoodie.metrics.cloudwatch.namespace
Spazio dei nomi Amazon CloudWatch in base al quale vengono pubblicati i parametri
Il valore di default è Hudi
hoodie.metrics.cloudwatch.maxDatumsPerRequest
Numero massimo di riferimenti da includere in una richiesta ad Amazon CloudWatch
Il valore di default è 20, uguale a quello di default di Amazon CloudWatch
Supporto e miglioramenti delle configurazioni Amazon EMR Hudi
-
I clienti possono ora sfruttare l'API di configurazione EMR e la funzione di riconfigurazione per configurare le configurazioni Hudi a livello di cluster. Un nuovo supporto per la configurazione basato su file è stato introdotto tramite /etc/hudi/conf/hudi-defaults.conf sulla linea di altre applicazioni come Spark, Hive ecc. EMR configura alcuni valori di default per migliorare l'esperienza utente:
—
hoodie.datasource.hive_sync.jdbcurl
è configurato per l'URL del server Hive del cluster e non deve più essere specificato. Ciò è particolarmente utile quando si esegue un processo in modalità cluster Spark, dove in precedenza era necessario specificare l'IP principale Amazon EMR.— Configurazioni specifiche di HBase, utili per l'utilizzo dell'indice HBase con Hudi.
— Configurazione specifica del provider di blocco Zookeeper, come discusso sotto il controllo della concorrenza, che semplifica l'utilizzo di Optimistic Concurrency Control (OCC).
-
Sono state introdotte ulteriori modifiche per ridurre il numero di configurazioni che devi passare e per dedurre automaticamente laddove possibile:
— La parola chiave
partitionBy
può essere utilizzata per specificare la colonna della partizione.— Quando si abilita Hive Sync, non è più obbligatorio passare
HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY
. Tali valori possono essere dedotti dal nome della tabella Hudi e dal campo della partizione.—
KEYGENERATOR_CLASS_OPT_KEY
non è obbligatorio passare e può essere dedotto da casi più semplici diSimpleKeyGenerator
eComplexKeyGenerator
.
Avvertenze Hudi
-
Hudi non supporta l'esecuzione vettorizzata nelle tabelle Hive for Merge on Read (MoR) e Bootstrap. Ad esempio:
count(*)
fallisce con la tabella in tempo reale Hudi quandohive.vectorized.execution.enabled
è impostato su VERO. Come soluzione alternativa, puoi disabilitare la lettura vettorizzata impostandohive.vectorized.execution.enabled
afalse
. -
Il supporto multi-writer non è compatibile con la caratteristica bootstrap Hudi.
-
Flink Streamer e Flink SQL sono caratteristiche sperimentali di questa versione. Queste caratteristiche non sono consigliate per l'uso nelle distribuzioni di produzione.
Modifiche, miglioramenti e problemi risolti
Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.
In precedenza, il riavvio manuale del gestore delle risorse su un cluster multi-master provocava il ricaricamento, da parte dei daemon su cluster di Amazon EMR come Zookeeper, di tutti i nodi precedentemente disattivati o persi nel file znode di Zookeeper. Ciò causava il superamento dei limiti predefiniti in determinate situazioni. Ora Amazon EMR rimuove i record dei nodi disattivati o persi più vecchi di un'ora dal file Zookeeper e i limiti interni sono stati aumentati.
È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.
I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.
SPARK-29683
. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati. YARN-9011
. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi. È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.
È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.
-
Configurazione di un cluster per risolvere i problemi di prestazioni di Apache YARN Timeline Server versione 1 e 1.5
Le versioni 1 e 1.5 di Apache YARN Timeline Server possono causare problemi di prestazioni con cluster EMR molto attivi e di grandi dimensioni, in particolare con
yarn.resourcemanager.system-metrics-publisher.enabled=true
, che è l'impostazione predefinita in Amazon EMR. Un YARN Timeline Server v2 open source risolve il problema di prestazioni relativo alla scalabilità di YARN Timeline Server.Altre soluzioni alternative per questo problema includono:
La configurazione di yarn.resourcemanager.system-metrics-publisher.enabled=false in yarn-site.xml.
L'abilitazione della correzione per questo problema durante la creazione di un cluster, come descritto di seguito.
I seguenti rilasci di Amazon EMR contengono una correzione per questo problema di prestazioni di YARN Timeline Server.
EMR 5.30.2, 5.31.1, 5.32.1, 5.33.1, 5.34.x, 6.0.1, 6.1.1, 6.2.1, 6.3.1 e 6.4.x
Per abilitare la correzione su una delle versioni di Amazon EMR sopra specificate, imposta queste proprietà su
true
in un file JSON di configurazioni che viene passato utilizzando il parametro del comandoaws emr create-cluster
:--configurations file://./configurations.json
. Oppure abilita la correzione utilizzando l'interfaccia utente della console di riconfigurazione.Esempio del contenuto del file configurations.json:
[ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
I server HttpFS e WebHDFS sono disabilitati per impostazione predefinita. Puoi abilitare nuovamente WebHDFS utilizzando la configurazione di Hadoop,
dfs.webhdfs.enabled
. Il server HttpFS può essere avviato utilizzandosudo systemctl start hadoop-httpfs
.-
Il protocollo HTTPS ora è abilitato per impostazione predefinita per i repository Amazon Linux. Se utilizzi una policy Amazon S3 VPCE per limitare l'accesso a specifici bucket, devi aggiungere il nuovo ARN del bucket Amazon Linux
arn:aws:s3:::amazonlinux-2-repos-$region/*
alla tua policy (sostituisci$region
con la Regione in cui si trova l'endpoint). Per ulteriori informazioni, consulta questo argomento nella forum di discussione di AWS. Annuncio: Amazon Linux 2 ora supporta la possibilità di utilizzare HTTPS durante la connessione ai repository dei pacchetti. -
Hive: le prestazioni delle query di scrittura sono migliorate abilitando l'uso di una directory Scratch su HDFS per l'ultimo processo. I dati temporanei per il processo finale vengono scritti su HDFS anziché su Amazon S3 e le prestazioni sono migliorate perché i dati vengono spostati da HDFS alla posizione finale della tabella (Amazon S3) anziché tra i dispositivi Amazon S3.
-
Hive: miglioramento del tempo di compilazione delle query fino a 2,5 volte con Glue metastore Partition Pruning.
-
Per impostazione predefinita, quando le FDU integrate vengono passate da Hive al Hive Metastore Server, solo un sottoinsieme di tali FDU incorporati viene passato al Glue Metastore poiché Glue supporta solo operatori di espressioni limitate. Se hai impostato
hive.glue.partition.pruning.client=true
, quindi tutta la eliminazione delle partizioni avviene sul lato client. Se hai impostatohive.glue.partition.pruning.server=true
, quindi tutta la eliminazione delle partizioni avviene sul lato server.
Problemi noti
Le query Hue non funzionano in Amazon EMR 6.4.0 perché il server HttpFS di Apache Hadoop è disabilitato per impostazione predefinita. Per utilizzare Hue su Amazon EMR 6.4.0, avvia manualmente il server HttpFS sul nodo primario di Amazon EMR utilizzando
sudo systemctl start hadoop-httpfs
oppure utilizza una fase di Amazon EMR.La caratteristica di Amazon EMR Notebooks utilizzata con la rappresentazione utente di Livy non funziona perché HttpFS è disabilitato per impostazione predefinita. In questo caso, EMR Notebooks non può connettersi al cluster in cui è abilitata la rappresentazione di Livy. La soluzione alternativa consiste nell'avviare il server HttpFS prima di connettere EMR Notebooks al cluster utilizzando
sudo systemctl start hadoop-httpfs
.In Amazon EMR versione 6.4.0, Phoenix non supporta il componente dei connettori Phoenix.
Per utilizzare le operazioni Spark con Apache Oozie, devi aggiungere la seguente configurazione al tuo file
workflow.xml
Oozie. In caso contrario, diverse librerie critiche come Hadoop e EMRFS non saranno presenti nella classpath degli esecutori Spark lanciati da Oozie.<spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Rilascio 5.32.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.32.0. Le modifiche sono relative alla versione 5.31.0.
Data del rilascio iniziale: 8 gennaio 2021
Aggiornamenti
Connettore Amazon Glue aggiornato alla versione 1.14.0
Aggiornamento di Amazon SageMaker Spark SDK alla versione 1.4.1
Aggiornato AWS SDK for Java alla versione 1.11.890
EMR DynamoDB Connector aggiornato alla versione 4.16.0
EMRFS aggiornato alla versione 2.45.0
Parametri di analisi dei log EMR aggiornati alla versione 1.18.0
Client MetricsAndEventsApiGateway EMR aggiornato alla versione 1.5.0
EMR Record Server aggiornato alla versione 1.8.0
EMR S3 Dist CP aggiornato alla versione 2.17.0
EMR Secret Agent aggiornato alla versione 1.7.0
Flink aggiornato alla versione 1.11.2
Hadoop aggiornato alla versione 2.10.1-amzn-0
Hive aggiornato alla versione 2.3.7-amzn-3
Hue aggiornato alla versione 4.8.0
MXNet aggiornato alla versione 1.7.0
OpenCV aggiornato alla versione 4.4.0
Presto aggiornato alla versione 0.240.1-amzn-0
Spark aggiornato alla versione 2.4.7-amzn-0
TensorFlow aggiornato alla versione 2.3.1
Modifiche, miglioramenti e problemi risolti
-
Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.
È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.
I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.
SPARK-29683
. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati. YARN-9011
. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi. È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.
È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.
Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).
Versioni dei componenti aggiornate.
Per un elenco delle versioni dei componenti, consulta Informazioni sui rilasci di Amazon EMR in questa guida.
Nuove funzionalità
A partire da Amazon EMR 5.32.0 e 6.5.0, il ridimensionamento dell'executor dinamico per Apache Spark è abilitato di default. Per attivare o disattivare questa caratteristica, è possibile utilizzare il
spark.yarn.heterogeneousExecutors.enabled
parametro di configurazione.Stato del supporto IMDS (Instance Metadata Service) V2: Amazon EMR 5.23.1, 5.27.1 e 5.32 o versioni successive utilizzano IMDSv2 per tutte le chiamate IMDS. Per le chiamate IMDS nel codice dell'applicazione, è possibile utilizzare sia IMDSv1 che IMDSv2 oppure configurare IMDS per utilizzare solo IMDSv2 per una maggiore sicurezza. Per altri rilasci EMR 5.x, la disattivazione di IMDSv1 causa un errore di avvio del cluster.
A partire da Amazon EMR 5.32.0, è possibile avviare un cluster che si integra nativamente con Apache Ranger. Apache Ranger è un framework open source che consente di abilitare, monitorare e gestire la sicurezza completa dei dati attraverso la piattaforma Hadoop. Per ulteriori informazioni, consulta Apache Ranger
. L'integrazione nativa consente di utilizzare Apache Ranger per imporre un controllo granulare di accesso ai dati su Amazon EMR. Consulta Integrazione di Amazon EMR con Apache Ranger nella Guida ai rilasci di Amazon EMR. Amazon EMR 5.32.0 supporta Amazon EMR su EKS. Per ulteriori dettagli su come iniziare a utilizzare EMR su EKS, consulta Che cos'è Amazon EMR su EKS?.
Amazon EMR 5.32.0 supporta Amazon EMR Studio (anteprima). Per ulteriori informazioni sulle nozioni di base di EMR Studio, consulta Amazon EMR Studio (anteprima).
Criteri gestiti con ambito: per allinearsi con le best practice di AWS, Amazon EMR ha introdotto le policy con ambito gestite di default EMR v2 come sostituzioni per le policy che saranno rese obsolete. Consulta Policy gestite di Amazon EMR.
Problemi noti
Per i cluster della sottorete privata di Amazon EMR 6.3.0 e 6.2.0 non è possibile accedere all'interfaccia utente Web di Ganglia. Verrà visualizzato l'errore "access denied (403) (accesso negato (403))". Altre interfacce utente Web, come Spark, Hue, JupyterHub, Zeppelin, Livy e Tez funzionano normalmente. Anche l'accesso all'interfaccia utente Web di Ganglia sui cluster della sottorete pubblica funziona normalmente. Per risolvere il problema, riavvia il servizio httpd sul nodo primario con
sudo systemctl restart httpd
. Questo problema è stato risolto in Amazon EMR 6.4.0.-
Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.
Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.
Impostazione di un ulimit esplicito dalla riga di comando
Modifica
/etc/systemd/system/instance-controller.service
per aggiungere i seguenti parametri alla sezione Servizio.LimitNOFILE=65536
LimitNPROC=65536
Riavvio di InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Impostazione di un ulimit usando l'operazione di bootstrap (BA)
È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
Importante
I cluster Amazon EMR che eseguono le AMI (Amazon Linux Machine Images) Amazon Linux o Amazon Linux 2 utilizzano il comportamento predefinito di Amazon Linux e non scaricano e installano automaticamente aggiornamenti importanti e critici dei kernel che richiedono un riavvio. Si tratta dello stesso comportamento assunto da altre istanze Amazon EC2 che eseguono l'AMI predefinita di Amazon Linux. Se nuovi aggiornamenti software Amazon Linux che richiedono un riavvio (ad esempio, aggiornamenti del kernel, NVIDIA e CUDA) risultano disponibili dopo il rilascio di una versione di Amazon EMR, le istanze del cluster Amazon EMR che eseguono l'AMI predefinita non scaricano e installano automaticamente tali aggiornamenti. Per ottenere gli aggiornamenti del kernel, puoi personalizzare l'AMI di Amazon EMR per utilizzare l'AMI di Amazon Linux più recente.
Il supporto della console per creare una configurazione di sicurezza che specifichi l'opzione di integrazione AWS Ranger non è attualmente abilitato nella Regione GovCloud. La configurazione della sicurezza può essere eseguita utilizzando la CLI. Consulta Creazione della configurazione di sicurezza EMR nella Guida per la gestione di Amazon EMR.
Quando la crittografia AtRestEncryption o HDFS è abilitata in un cluster che utilizza Amazon EMR 5.31.0 o 5.32.0, le query Hive determinano la seguente eccezione di runtime.
TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Rilascio 6.2.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.2.0. Le modifiche sono relative alla versione 6.1.0.
Data del rilascio iniziale: 9 dicembre 2020
Ultimo aggiornamento: 4 ottobre 2021
Applicazioni supportate
AWS SDK for Java versione 1.11.828
emr-record-server versione 1.7.0
Flink versione 1.11.2
Ganglia versione 3.7.2
Hadoop versione 3.2.1-amzn-1
HBase versione 2.2.6-amzn-0
HBase-operator-tools 1.0.0
HCatalog versione 3.1.2-amzn-0
Hive versione 3.1.2-amzn-3
Hudi versione 0.6.0-amzn-1
Hue versione 4.8.0
JupyterHub versione 1.1.0
Livy versione 0.7.0
MXNet versione 1.7.0
Oozie versione 5.2.0
Phoenix versione 5.0.0
Pig versione 0.17.0
Presto versione 0.238.3-amzn-1
PrestoSQL versione 343
Spark versione 3.0.1-amzn-0
spark-rapids 0.2.0
TensorFlow versione 2.3.1
Zeppelin versione 0.9.0-preview1
Zookeeper versione 3.4.14
Connettori e driver: DynamoDB Connector 4.16.0
Nuove funzionalità
HBase: rimossa la rinomina in fase di commit e aggiunto il tracciamento HFile persistente. Consulta Tracciamento HFile persistente nella Guida ai rilasci di Amazon EMR.
HBase: backport per Creazione di una configurazione che costringe a memorizzare nella cache i blocchi sulla compattazione
. PrestoDB: miglioramenti all'eliminazione delle partizioni dinamiche. Join Reorder basato su regole funziona su dati non partizionati.
Criteri gestiti con ambito: per allinearsi con le best practice di AWS, Amazon EMR ha introdotto le policy con ambito gestite di default EMR v2 come sostituzioni per le policy che saranno rese obsolete. Consulta Policy gestite di Amazon EMR.
Stato del supporto IMDS (Instance Metadata Service) V2: per Amazon EMR 6.2 o versioni successive, i componenti Amazon EMR utilizzano IMDSv2 per tutte le chiamate IMDS. Per le chiamate IMDS nel codice dell'applicazione, è possibile utilizzare sia IMDSv1 che IMDSv2 oppure configurare IMDS per utilizzare solo IMDSv2 per una maggiore sicurezza. Se si disabilita IMDSv1 nelle versioni precedenti di Amazon EMR 6.x, si verificherà un errore di avvio del cluster.
Modifiche, miglioramenti e problemi risolti
-
Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.
È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.
I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.
SPARK-29683
. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati. YARN-9011
. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi. È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.
È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.
Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).
Spark: miglioramenti delle prestazioni del runtime Spark.
Problemi noti
Amazon EMR 6.2 dispone di autorizzazioni errate impostate sul file /etc/cron.d/libinstance-controller-java in EMR 6.2.0. Le autorizzazioni sul file sono 645 (-rw-r--r-x), quando dovrebbero essere 644 (-rw-r--r--). Di conseguenza, Amazon EMR versione 6.2 non registra i log dello stato delle istanze e la directory /emr/instance-logs è vuota. Questo problema è stato risolto in Amazon EMR 6.3.0 e successive.
Per risolvere il problema, esegui il seguente script come operazione di bootstrap all'avvio del cluster.
#!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
Per i cluster della sottorete privata di Amazon EMR 6.2.0 e 6.3.0 non è possibile accedere all'interfaccia utente Web di Ganglia. Verrà visualizzato l'errore "access denied (403) (accesso negato (403))". Altre interfacce utente Web, come Spark, Hue, JupyterHub, Zeppelin, Livy e Tez funzionano normalmente. Anche l'accesso all'interfaccia utente Web di Ganglia sui cluster della sottorete pubblica funziona normalmente. Per risolvere il problema, riavvia il servizio httpd sul nodo primario con
sudo systemctl restart httpd
. Questo problema è stato risolto in Amazon EMR 6.4.0.C'è un problema in Amazon EMR 6.2.0 in cui httpd ha continuamente esito negativo, causando la non disponibilità di Ganglia. Viene visualizzato un errore "cannot connect to the server (impossibile connettersi al server)". Per risolvere questo problema in un cluster che è già in esecuzione, abilita SSH sul nodo primario del cluster e aggiungi la riga
Listen 80
al filehttpd.conf
presente in/etc/httpd/conf/httpd.conf
. Questo problema è stato risolto in Amazon EMR 6.3.0.HTTPD ha esito negativo su cluster EMR 6.2.0 quando si utilizza una configurazione di sicurezza. Ciò rende l'interfaccia utente dell'applicazione Web Ganglia non disponibile. Per accedere all'interfaccia utente dell'applicazione Web Ganglia, aggiungi
Listen 80
al file/etc/httpd/conf/httpd.conf
sul nodo primario del cluster. Per ulteriori informazioni su come connettersi al cluster, consulta la sezione Connect to the Primary Node Using SSH (Connessione al nodo primario tramite SSH).Inoltre, EMR Notebooks non riesce a stabilire una connessione con cluster EMR 6.2.0 quando si utilizza una configurazione di sicurezza. Il notebook non riuscirà a elencare i kernel e a inviare processi Spark. Ti consigliamo invece di utilizzare EMR Notebooks con un'altra versione di Amazon EMR.
-
Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.
Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.
Impostazione di un ulimit esplicito dalla riga di comando
Modifica
/etc/systemd/system/instance-controller.service
per aggiungere i seguenti parametri alla sezione Servizio.LimitNOFILE=65536
LimitNPROC=65536
Riavvio di InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Impostazione di un ulimit usando l'operazione di bootstrap (BA)
È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
Importante
Amazon EMR 6.1.0 e 6.2.0 includono un problema di prestazioni che può influire in modo critico su tutte le operazioni di inserimento, upsert ed eliminazione di Hudi. Se intendi utilizzare Hudi con Amazon EMR 6.1.0 o 6.2.0, contatta il supporto AWS per ottenere un RPM Hudi con patch.
-
Importante
I cluster Amazon EMR che eseguono le AMI (Amazon Linux Machine Images) Amazon Linux o Amazon Linux 2 utilizzano il comportamento predefinito di Amazon Linux e non scaricano e installano automaticamente aggiornamenti importanti e critici dei kernel che richiedono un riavvio. Si tratta dello stesso comportamento assunto da altre istanze Amazon EC2 che eseguono l'AMI predefinita di Amazon Linux. Se nuovi aggiornamenti software Amazon Linux che richiedono un riavvio (ad esempio, aggiornamenti del kernel, NVIDIA e CUDA) risultano disponibili dopo il rilascio di una versione di Amazon EMR, le istanze del cluster Amazon EMR che eseguono l'AMI predefinita non scaricano e installano automaticamente tali aggiornamenti. Per ottenere gli aggiornamenti del kernel, puoi personalizzare l'AMI di Amazon EMR per utilizzare l'AMI di Amazon Linux più recente.
Gli artifact di Amazon EMR 6.2.0 Maven non vengono pubblicati. Saranno pubblicati con una futura versione di Amazon EMR.
Il tracciamento HFile persistente che utilizza la tabella di sistema Storefile di HBase non supporta la funzionalità di replica della regione HBase. Per ulteriori informazioni sulla replica della regione HBase, consulta Letture ad alta disponibilità coerenti con la tempistica
. Differenze di versione dei bucket Hive tra Amazon EMR 6.x e EMR 5.x
EMR 5.x utilizza OOS Apache Hive 2, mentre EMR 6.x utilizza OOS Apache Hive 3. L'Hive2 open source utilizza bucket di versione 1, mentre l'Hive3 open source utilizza bucket di versione 2. Questa differenza di versione dei bucket tra Hive 2 (EMR 5.x) e Hive 3 (EMR 6.x) presuppone un funzionamento diverso dell'hashing dei bucket Hive. Vedere l'esempio sottostante.
La tabella seguente è un esempio creato rispettivamente in EMR 6.x ed EMR 5.x.
-- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';
Sono stati inseriti gli stessi dati in EMR 6.x ed EMR 5.x.
INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');
Osservando la posizione S3, si nota che il nome del file di bucket è diverso, poiché la funzione di hashing è diversa tra EMR 6.x (Hive 3) e EMR 5.x (Hive 2).
[hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0
Puoi notare la differenza di versione anche eseguendo il comando riportato di seguito nella CLI Hive in EMR 6.x. Potrai notare che la CLI restituisce bucket di versione 2.
hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Rilascio 5.31.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.31.0. Le modifiche sono relative alla versione 5.30.1.
Data del rilascio iniziale: 9 ottobre 2020
Ultimo aggiornamento: 15 ottobre 2020
Aggiornamenti
Connettore Amazon Glue aggiornato alla versione 1.13.0
Amazon SageMaker Spark SDK aggiornato alla versione 1.4.0
Connettore Amazon Kinesis aggiornato alla versione 3.5.9
Aggiornato AWS SDK for Java alla versione 1.11.852
Bigtop-tomcat aggiornato alla versione 8.5.56
EMR FS aggiornato alla versione 2.43.0
Client MetricsAndEventsApiGateway EMR aggiornato alla versione 1.4.0
EMR S3 Dist CP aggiornato alla versione 2.15.0
EMR S3 Select aggiornato alla versione 1.6.0
Flink aggiornato alla versione 1.11.0
Hadoop aggiornato alla versione 2.10.0
Hive aggiornato alla versione 2.3.7
Hudi aggiornato alla versione 0.6.0
Hue aggiornato alla versione 4.7.1
Aggiornato JupyterHub alla versione 1.1.0
MXNet aggiornato alla versione 1.6.0
OpenCV aggiornato alla versione 4.3.0
Presto aggiornato alla versione 0.238.3
TensorFlow aggiornato alla versione 2.1.0
Modifiche, miglioramenti e problemi risolti
-
Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.
È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.
I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.
SPARK-29683
. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati. YARN-9011
. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi. È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.
È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.
Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).
Le statistiche di colonna Hive
sono supportate per Amazon EMR 5.31.0 e versioni successive. Versioni dei componenti aggiornate.
Supporto di EMRFS S3EC V2 in Amazon EMR 5.31.0. In S3 Java SDK 1.11.837 e versioni successive, il client di crittografia versione 2 (S3EC V2) è stato introdotto con vari miglioramenti alla sicurezza. Per ulteriori informazioni, consulta gli argomenti seguenti:
Post del blog S3: Updates to the Amazon S3 encryption client (Aggiornamenti al client di crittografia Amazon S3)
. AWS SDK for Java Guida per gli sviluppatori: Migrazione dei client di crittografia e decrittografia a V2.
Guida alla gestione di EMR: Crittografia lato client di Amazon S3.
Il client di crittografia V1 è ancora disponibile nell'SDK per la compatibilità con le versioni precedenti.
Nuove funzionalità
-
Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.
Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.
Impostazione di un ulimit esplicito dalla riga di comando
Modifica
/etc/systemd/system/instance-controller.service
per aggiungere i seguenti parametri alla sezione Servizio.LimitNOFILE=65536
LimitNPROC=65536
Riavvio di InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Impostazione di un ulimit usando l'operazione di bootstrap (BA)
È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
Con Amazon EMR 5.31.0, puoi avviare un cluster che si integra con Lake Formation. L'integrazione fornisce un filtraggio dei dati granulare a livello di colonna a database e tabelle in AWS Glue Data Catalog. Inoltre, consente l'accesso federato single sign-on agli EMR Notebooks o Apache Zeppelin da un sistema di identità aziendale. Per ulteriori informazioni, consulta Integrazione di Amazon EMR con AWS Lake Formation nella Guida alla gestione di Amazon EMR.
Amazon EMR con Lake Formation è attualmente disponibile in 16 regioni AWS: Stati Uniti orientali (Ohio e N. Virginia), Stati Uniti occidentali (California settentrionale e Oregon), Asia Pacifico (Mumbai, Seoul, Singapore, Sydney e Tokyo), Canada (Centrale), Europa (Francoforte, Irlanda, Londra, Parigi e Stoccolma), Sud America (San Paolo).
Problemi noti
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Quando la crittografia AtRestEncryption o HDFS è abilitata in un cluster che utilizza Amazon EMR 5.31.0 o 5.32.0, le query Hive determinano la seguente eccezione di runtime.
TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Rilascio 6.1.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.1.0. Le modifiche sono relative alla versione 6.0.0.
Data del rilascio iniziale: 4 settembre 2020
Ultimo aggiornamento: 15 ottobre 2020
Applicazioni supportate
AWS SDK for Java versione 1.11.828
Flink versione 1.11.0
Ganglia versione 3.7.2
Hadoop versione 3.2.1-amzn-1
HBase versione 2.2.5
HBase-operator-tools 1.0.0
HCatalog versione 3.1.2-amzn-0
Hive versione 3.1.2-amzn-1
Hudi versione 0.5.2 in fase di sviluppo
Hue versione 4.7.1
JupyterHub versione 1.1.0
Livy versione 0.7.0
MXNet versione 1.6.0
Oozie versione 5.2.0
Phoenix versione 5.0.0
Presto versione 0.232
PrestoSQL versione 338
Spark versione 3.0.0-amzn-0
TensorFlow versione 2.1.0
Zeppelin versione 0.9.0-preview1
Zookeeper versione 3.4.14
Connettori e driver: DynamoDB Connector 4.14.0
Nuove funzionalità
I tipi di istanze ARM sono supportati a partire da Amazon EMR versione 5.30.0 e Amazon EMR versione 6.1.0.
I tipi di istanze per uso generico M6g sono supportati a partire dalle versioni di Amazon EMR 6.1.0 e 5.30.0. Per ulteriori informazioni, consulta Tipi di istanza supportati nella Guida alla gestione di Amazon EMR.
La caratteristica del gruppo di collocamento EC2 è supportata a partire da Amazon EMR versione 5.23.0 come opzione per i cluster con più nodi primari. Attualmente, solo i tipi di nodi primari sono supportati dalla caratteristica del gruppo di collocamento e la strategia
SPREAD
viene applicata a tali nodi primari. La strategiaSPREAD
colloca un piccolo gruppo di istanze su hardware sottostante separato per evitare la perdita di più nodi primari in caso di guasto hardware. Per ulteriori informazioni, consulta Integrazione di EMR con il gruppo di collocamento EC2 nella Guida alla gestione di Amazon EMR.Scalabilità gestita: con la versione 6.1.0 di Amazon EMR, puoi abilitare Scalabilità gestita di Amazon EMR per aumentare o diminuire automaticamente il numero di istanze o unità nel cluster in base al carico di lavoro. Amazon EMR valuta continuamente i parametri dei cluster per prendere decisioni di dimensionamento che ottimizzano i cluster in termini di costi e velocità. Il dimensionamento gestito è disponibile anche su Amazon EMR versione 5.30.0 e successive, tranne 6.0.0. Per maggiori informazioni, consulta Dimensionamento delle risorse del cluster nella Guida alla gestione di Amazon EMR.
PrestoSQL versione 338 è supportata con EMR 6.1.0. Per ulteriori informazioni, consulta Presto.
PrestoSQL è supportata solo su EMR 6.1.0 e versioni successive, non su EMR 6.0.0 o EMR 5.x.
Il nome dell'applicazione
Presto
continua ad essere utilizzato per installare PrestoDB sui cluster. Per installare PrestoSQL sui cluster, utilizza il nome dell'applicazionePrestoSQL
.È possibile installare PrestoDB o PrestoSQL, ma non è possibile installare entrambi in un singolo cluster. Se durante il tentativo di creare un cluster vengono specificati sia PrestoDB che PrestoSQL, si verifica un errore di convalida e la richiesta di creazione del cluster ha esito negativo.
PrestoSQL è supportato su entrambi i cluster single-master e muti-master. Nei cluster multi-master, è necessario un metastore Hive esterno per eseguire PrestoSQL o PrestoDB. Consulta la sezione Applicazioni supportate in un cluster EMR con più nodi primari.
Supporto per l'autenticazione automatica ECR su Apache Hadoop e Apache Spark con Docker: gli utenti di Docker possono utilizzare le immagini Docker da Docker Hub e Amazon Elastic Container Registry (Amazon ECR) per definire le dipendenze dell'ambiente e della libreria.
Consulta Configurazione di Docker ed Esecuzione di applicazioni Spark con Docker utilizzando Amazon EMR 6.x.
EMR supporta le transazioni Apache Hive ACID: Amazon EMR 6.1.0 aggiunge il supporto per le transazioni Hive ACID in modo che sia conforme alle proprietà ACID di un database. Con questa funzione, puoi eseguire operazioni
INSERT, UPDATE, DELETE,
eMERGE
nelle tabelle gestite da Hive con dati in Amazon Simple Storage Service (Amazon S3). Questa è una caratteristica chiave per casi d'uso come l'importazione dati in streaming, il riavvio dei dati, gli aggiornamenti in blocco tramite MERGE e la graduale variazione delle dimensioni. Per ulteriori informazioni, inclusi esempi di configurazione e casi d'uso, consulta Amazon EMR supporta le transazioni Apache Hive ACID.
Modifiche, miglioramenti e problemi risolti
-
Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.
È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.
I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.
SPARK-29683
. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati. YARN-9011
. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi. È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.
È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.
Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).
Apache Flink non è supportata su EMR 6.0.0, ma è supportata su EMR 6.1.0 con Flink 1.11.0. Si tratta della prima versione di Flink a supportare ufficialmente Hadoop 3. Consulta Annuncio del rilascio di Apache Flink 1.11.0
. Ganglia è stato rimosso dai pacchetti EMR 6.1.0 di default.
Problemi noti
-
Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.
Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.
Impostazione di un ulimit esplicito dalla riga di comando
Modifica
/etc/systemd/system/instance-controller.service
per aggiungere i seguenti parametri alla sezione Servizio.LimitNOFILE=65536
LimitNPROC=65536
Riavvio di InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Impostazione di un ulimit usando l'operazione di bootstrap (BA)
È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
Importante
Amazon EMR 6.1.0 e 6.2.0 includono un problema di prestazioni che può influire in modo critico su tutte le operazioni di inserimento, upsert ed eliminazione di Hudi. Se intendi utilizzare Hudi con Amazon EMR 6.1.0 o 6.2.0, contatta il supporto AWS per ottenere un RPM Hudi con patch.
L'impostazione di configurazioni di garbage collection personalizzate con
spark.driver.extraJavaOptions
espark.executor.extraJavaOptions
genera un errore di avvio del driver o dell'executor con EMR 6.1 a causa di una configurazione di garbage collection in conflitto. Con il rilascio EMR 6.1.0, è invece necessario specificare la configurazione di garbage collection Spark personalizzata per driver ed executor con le proprietàspark.driver.defaultJavaOptions
espark.executor.defaultJavaOptions
. Per maggiori informazioni, consulta Ambiente di runtime Apache Sparke Configurazione di garbage collection Spark su Amazon EMR 6.1.0. -
L'utilizzo di Pig con Oozie (e all'interno di Hue, dal momento che Hue utilizza le operazioni Oozie per eseguire gli script Pig) genera un errore che impedisce il caricamento di una libreria native-lzo. Questo messaggio di errore è informativo e non impedisce l'esecuzione di Pig.
Supporto della simultaneità di Hudi: attualmente, le scritture simultanee in una singola tabella Hudi non sono supportate. Inoltre, Hudi esegue il rollback di tutte le modifiche apportate dalle istanze di scrittura in corso prima di consentire l'avvio di una nuova istanza di scrittura. Le scritture simultanee possono interferire con questo meccanismo e introdurre condizioni di competizione, le quali possono causare il danneggiamento dei dati. È necessario assicurarsi che, come parte del flusso di lavoro di elaborazione dei dati, ci sia sempre una sola istanza di scrittura Hudi che opera su una tabella Hudi. Hudi supporta più istanze di lettura simultanee che operano sulla stessa tabella Hudi.
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Si è verificato un problema in Amazon EMR 6.1.0 che interessa i cluster che eseguono Presto. Dopo un lungo periodo di tempo (giorni), il cluster potrebbe generare errori come "su: failed to execute /bin/bash: Resource temporarily unavailable (su: impossibile eseguire /bin/bash: risorsa temporaneamente non disponibile)" o "shell request failed on channel 0 (richiesta shell non riuscita sul canale 0)". Questo problema è causato da un processo interno di Amazon EMR (InstanceController) che genera un numero eccessivo di processi leggeri (LWP) e, alla fine, fa sì che l'utente Hadoop superi il limite nproc. Ciò impedisce all'utente di aprire ulteriori processi. La soluzione a questo problema consiste nell'eseguire l'aggiornamento a EMR 6.2.0.
Rilascio 6.0.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.0.0.
Data del rilascio iniziale: 10 marzo 2020
Applicazioni supportate
AWS SDK for Java versione 1.11.711
Ganglia versione 3.7.2
Hadoop versione 3.2.1
HBase versione 2.2.3
HCatalog versione 3.1.2
Hive versione 3.1.2
Hudi versione 0.5.0 in fase di sviluppo
Hue versione 4.4.0
JupyterHub versione 1.0.0
Livy versione 0.6.0
MXNet versione 1.5.1
Oozie versione 5.1.0
Phoenix versione 5.0.0
Presto versione 0.230
Spark versione 2.4.4
TensorFlow versione 1.14.0
Zeppelin versione 0.9.0-SNAPSHOT
Zookeeper versione 3.4.14
Connettori e driver: DynamoDB Connector 4.14.0
Nota
Flink, Sqoop, Pig e Mahout non sono disponibili in Amazon EMR versione 6.0.0.
Nuove funzionalità
Supporto runtime docker YARN – Applicazioni YARN, come i lavori Spark, ora possono essere eseguite nel contesto di un container Docker. Ciò consente di definire facilmente le dipendenze in un'immagine Docker senza la necessità di installare librerie personalizzate nel cluster Amazon EMR. Per ulteriori informazioni, consulta Configurazione dell'integrazione Docker ed Esecuzione di applicazioni Spark con Docker utilizzando Amazon EMR 6.0.0.
-
Supporto LLAP Hive - Hive ora supporta la modalità di esecuzione LLAP per migliorare le prestazioni delle query. Per ulteriori informazioni, consulta la sezione relativa all'utilizzo di LLAP Hive.
Modifiche, miglioramenti e problemi risolti
-
Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.
È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.
I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.
SPARK-29683
. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati. YARN-9011
. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi. È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.
È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.
Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).
Amazon Linux
Amazon Linux 2 è il sistema operativo per la serie EMR 6.x.
systemd
viene utilizzato per la gestione dei servizi al posto diupstart
utilizzato in Amazon Linux 1.
Java Development Kit (JDK)
Corretto JDK 8 è il JDK predefinito per la serie delle versioni EMR 6.x.
Scala
Scala 2.12 è usato con Apache Spark e Apache Livy.
Python 3
Python 3 è ora la versione predefinita di Python in EMR.
Etichette nodo YARN
A partire dalla serie di rilascio Amazon EMR 6.x, la funzione etichette nodo YARN è disabilitata per impostazione predefinita. Per impostazione predefinita, i processi master dell'applicazione possono essere eseguiti su entrambi i nodi di task e core. È possibile abilitare la caratteristica etichette nodo YARN configurando le seguenti proprietà:
yarn.node-labels.enabled
eyarn.node-labels.am.default-node-label-expression
. Per ulteriori informazioni, consulta la sezione Understanding Primary, Core, and Task Nodes (Informazioni sui nodi primari, core e attività).
Problemi noti
-
Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.
Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.
Impostazione di un ulimit esplicito dalla riga di comando
Modifica
/etc/systemd/system/instance-controller.service
per aggiungere i seguenti parametri alla sezione Servizio.LimitNOFILE=65536
LimitNPROC=65536
Riavvio di InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Impostazione di un ulimit usando l'operazione di bootstrap (BA)
È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
La shell interattiva di Spark, inclusi PySpark, SparkR e spark-shell, non supporta l'utilizzo di Docker con librerie aggiuntive.
-
Per utilizzare Python 3 con Amazon EMR versione 6.0.0, è necessario aggiungere
PATH
ayarn.nodemanager.env-whitelist
. -
La funzionalità Live Long and Process (LLAP) non è supportata quando si utilizza AWS Glue Data Catalog come metastore per Hive.
-
Quando si utilizza Amazon EMR 6.0.0 con l'integrazione di Spark e Docker, è necessario configurare le istanze nel cluster con lo stesso tipo di istanza e la stessa quantità di volumi EBS per evitare errori durante l'invio di un processo Spark con il runtime di Docker.
-
In Amazon EMR 6.0.0, la modalità di archiviazione di HBase su Amazon S3 è influenzata dal problema HBASE-24286
. Impossibile inizializzare il master HBase quando il cluster viene creato utilizzando dati S3 esistenti. -
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.30.1
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.30.1. Le modifiche sono relative alla versione 5.30.0.
Data del rilascio iniziale: 30 giugno 2020
Ultimo aggiornamento: 24 agosto 2020
Modifiche, miglioramenti e problemi risolti
Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).
Risolto il problema per cui il processo del controller di istanza generava un numero infinito di processi.
Risolto un problema per cui Hue non era in grado di eseguire una query Hive, mostrando il messaggio "database is locked (database bloccato)" e impedendo l'esecuzione di query.
Risolto un problema Spark per consentire l'esecuzione simultanea di più attività nel cluster EMR.
Risolto un problema del notebook Jupyter che causava l'errore "too many open files (troppi file aperti)" nel server Jupyter.
Corretto un problema relativo all'ora di inizio del cluster.
Nuove funzionalità
Le interfacce utente delle applicazioni persistenti Timeline Server di YARN e Tez sono disponibili con Amazon EMR versioni 6.x ed EMR versione 5.30.1 e successive. L'accesso ai collegamenti One-Click alla cronologia dell'applicazione persistente consente di accedere rapidamente alla cronologia dei processi senza configurare un proxy Web tramite una connessione SSH. I log dei cluster attivi e terminati sono disponibili per 30 giorni dopo la fine dell'applicazione. Per ulteriori informazioni, consulta Visualizzazione delle interfacce utente delle applicazioni persistenti nella Guida alla gestione di Amazon EMR.
Le API di esecuzione di EMR Notebooks sono disponibili per eseguire i notebook EMR tramite uno script o una riga di comando. La possibilità di avviare, arrestare, elencare e descrivere le esecuzioni dei notebook EMR senza la console AWS consente di controllare a livello di codice un notebook EMR. Utilizzando una cella del notebook parametrizzata, è possibile passare diversi valori di parametro a un notebook senza doverne creare una copia per ogni nuovo set di valori dei parametri. Consulta Operazioni dell'API EMR. Per un codice di esempio, consulta Comandi di esempio per eseguire EMR Notebooks a livello di codice.
Problemi noti
-
Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.
Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.
Impostazione di un ulimit esplicito dalla riga di comando
Modifica
/etc/systemd/system/instance-controller.service
per aggiungere i seguenti parametri alla sezione Servizio.LimitNOFILE=65536
LimitNPROC=65536
Riavvio di InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Impostazione di un ulimit usando l'operazione di bootstrap (BA)
È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
EMR Notebooks
La caratteristica che consente di installare kernel e librerie Python aggiuntive sul nodo primario del cluster è disabilitata per impostazione predefinita in EMR versione 5.30.1. Per ulteriori informazioni su questa caratteristica, consulta la sezione Installing Kernels and Python Libraries on a Cluster Primary Node (Installazione di kernel e librerie Python su un nodo primario del cluster).
Per abilitare questa funzione, procedi come segue:
Assicurati che le policy di autorizzazione associate al ruolo di servizio per EMR Notebooks consentano l'operazione seguente:
elasticmapreduce:ListSteps
Per ulteriori informazioni, consultare il Ruolo del servizio per EMR Notebooks.
Utilizza la AWS CLI per eseguire un passaggio sul cluster che imposta EMR Notebooks, come mostrato nell'esempio seguente. Sostituisci
us-east-1
con la Regione in cui risiede il cluster. Per ulteriori informazioni, consulta Aggiunta di fasi a un cluster utilizzando la AWS CLI.aws emr add-steps --cluster-id
MyClusterID
--steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1
.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
-
Dimensionamento gestito
Le operazioni di dimensionamento gestito su cluster 5.30.0 e 5.30.1 senza Presto installato possono causare errori delle applicazioni o far sì che un gruppo di istanze o un parco istanze uniforme mantenga lo stato
ARRESTED
, in particolare quando un'operazione di dimensionamento verso il basso è seguita rapidamente da un'operazione di dimensionamento verso l'alto.Come soluzione alternativa, scegli Presto come applicazione da installare quando crei un cluster con Amazon EMR rilasci 5.30.0 e 5.30.1, anche se il tuo processo non richiede Presto.
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Rilascio 5.30.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.30.0. Le modifiche sono relative alla versione 5.29.0.
Data del rilascio iniziale: 13 marzo 2020
Ultimo aggiornamento: 25 giugno 2020
Aggiornamenti
Aggiornato AWS SDK for Java alla versione 1.11.759
Aggiornamento di Amazon SageMaker Spark SDK alla versione 1.3.0
Aggiornato EMR Record Server alla versione 1.6.0
Flink aggiornato alla versione 1.10.0
Aggiornato Ganglia alla versione 3.7.2
HBase aggiornato alla versione 1.4.13
Aggiornato Hudi alla versione 0.5.2-incubating
Hue aggiornato alla versione 4.6.0
Aggiornato JupyterHub alla versione 1.1.0
Livy aggiornato alla versione 0.7.0-incubating
Aggiornato Oozie alla versione 5.2.0
Presto aggiornato alla versione 0.232
Aggiornato Spark alla versione 2.4.5
Connettori e driver aggiornati: connettore Amazon Glue 1.12.0; connettore Amazon Kinesis 3.5.0; connettore EMR DynamoDB 4.14.0
Nuove funzionalità
EMR Notebooks: se utilizzato con cluster EMR creati con 5.30.0, i kernel di EMR Notebooks vengono eseguiti sul cluster. Ciò migliora le prestazioni dei notebook e consente di installare e personalizzare i kernel. Puoi anche installare librerie Python sul nodo primario del cluster. Per ulteriori informazioni, consulta l'argomento relativo all'installazione e l'utilizzo di kernel e librerie nella Guida alla gestione di EMR.
Dimensionamento gestito: con la versione 5.30.0 e successive di Amazon EMR, puoi abilitare il dimensionamento gestito da EMR per aumentare o diminuire automaticamente il numero di istanze o unità nel cluster in base al carico di lavoro. Amazon EMR valuta continuamente i parametri dei cluster per prendere decisioni di dimensionamento che ottimizzano i cluster in termini di costi e velocità. Per maggiori informazioni, consulta Dimensionamento delle risorse del cluster nella Guida alla gestione di Amazon EMR.
Crittografia dei file di log archiviati in Amazon S3: con Amazon EMR versione 5.30.0 e successive, puoi crittografare i file di log archiviati in Amazon S3 con una chiave gestita dal cliente AWS KMS. Per ulteriori informazioni, consulta Crittografia dei file di log archiviati in Amazon S3 nella Guida alla gestione di Amazon EMR.
Supporto di Amazon Linux 2: nella versione EMR 5.30.0 e successive, EMR utilizza il sistema operativo Amazon Linux 2. Le nuove AMI personalizzate (Amazon Machine Image) devono essere basate sull'AMI Amazon Linux 2. Per ulteriori informazioni, consulta Utilizzo di un AMI personalizzato.
Scalabilità automatica Presto con tolleranza: i cluster EMR che usano 5.30.0 possono essere impostati con un periodo di timeout di scalabilità automatica che consente alle attività Presto di terminare l'esecuzione prima che il loro nodo venga disattivato. Per ulteriori informazioni, consulta Utilizzo della scalabilità automatica Presto con disattivazione con tolleranza.
Creazione di parchi istanze con nuova opzione di strategia di allocazione: una nuova opzione di strategia di allocazione è disponibile in EMR versione 5.12.1 e successive. Offre un provisioning dei cluster più rapido, un'allocazione di istanze Spot più accurata e una minore interruzione delle istanze Spot. Sono necessari aggiornamenti ai ruoli di servizio EMR non predefiniti. Consulta Configurazione di parchi istanze.
Comandi sudo systemctl stop e sudo systemctl start: nella versione EMR 5.30.0 e successive, le quali usano il sistema operativo Amazon Linux 2 OS, EMR utilizza i comandi
sudo systemctl stop
esudo systemctl start
per riavviare i servizi. Per ulteriori informazioni, consulta Come riavviare un servizio in Amazon EMR?.
Modifiche, miglioramenti e problemi risolti
EMR versione 5.30.0 non installa Ganglia per impostazione predefinita. È possibile selezionare esplicitamente Ganglia da installare quando si crea un cluster.
Ottimizzazione delle prestazioni di Spark.
Ottimizzazione delle prestazioni di Presto.
Python 3 è l'impostazione predefinita per Amazon EMR 5.30.0 e versioni successive.
Il gruppo di sicurezza gestito predefinito per l'accesso al servizio nelle sottoreti private è stato aggiornato con nuove regole. Se si utilizza un gruppo di sicurezza personalizzato per l'accesso al servizio, è necessario includere le stesse regole del gruppo di sicurezza gestito predefinito. Per ulteriori informazioni, consulta Gruppo di sicurezza gestito da Amazon EMR per l'accesso al servizio (sottoreti private). Se si utilizza un ruolo di servizio personalizzato per Amazon EMR, è necessario concedere l'autorizzazione a
ec2:describeSecurityGroups
per consentire a EMR di convalidare se i gruppi di sicurezza sono stati creati correttamente. Se si utilizzaEMR_DefaultRole
, questa autorizzazione è già inclusa nella policy gestita di default.
Problemi noti
-
Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.
Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.
Impostazione di un ulimit esplicito dalla riga di comando
Modifica
/etc/systemd/system/instance-controller.service
per aggiungere i seguenti parametri alla sezione Servizio.LimitNOFILE=65536
LimitNPROC=65536
Riavvio di InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Impostazione di un ulimit usando l'operazione di bootstrap (BA)
È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
Dimensionamento gestito
Le operazioni di dimensionamento gestito su cluster 5.30.0 e 5.30.1 senza Presto installato possono causare errori delle applicazioni o far sì che un gruppo di istanze o un parco istanze uniforme mantenga lo stato
ARRESTED
, in particolare quando un'operazione di dimensionamento verso il basso è seguita rapidamente da un'operazione di dimensionamento verso l'alto.Come soluzione alternativa, scegli Presto come applicazione da installare quando crei un cluster con Amazon EMR rilasci 5.30.0 e 5.30.1, anche se il tuo processo non richiede Presto.
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Il motore di database predefinito per Hue 4.6.0 è SQLite, che causa problemi quando si tenta di utilizzare Hue con un database esterno. Per risolvere questo problema, imposta
engine
nella tua classificazione di configurazionehue-ini
sumysql
. Questo problema è stato risolto nella versione 5.30.1 di Amazon EMR.Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:
-
Due o più partizioni vengono scansionate dalla stessa tabella.
-
Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio
s3://bucket/table/p=a
è un prefisso dis3://bucket/table/p=a b
. -
Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere
/
(U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b ins3://bucket/table/p=a b
. Tieni presente che esistono altri 14 caratteri non di controllo:!"#$%&‘()*+,-
. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters(Tabella di codifica UTF-8 e caratteri Unicode).
Per ovviare a questo problema, imposta la configurazione di
spark.sql.sources.fastS3PartitionDiscovery.enabled
sufalse
nella classificazione dispark-defaults
.-
Rilascio 5.29.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.29.0. Le modifiche sono relative alla versione 5.28.1.
Data del rilascio iniziale: 17 gennaio 2020
Aggiornamenti
Aggiornato AWS SDK for Java alla versione 1.11.682
Hive aggiornato alla versione 2.3.6
Flink aggiornato alla versione 1.9.1
EmrFS aggiornato alla versione 2.38.0
EMR DynamoDB Connector aggiornato alla versione 4.13.0
Modifiche, miglioramenti e problemi risolti
Spark
Ottimizzazione delle prestazioni di Spark.
EMRFS
La Guida alla gestione aggiorna le impostazioni predefinite di emrfs-site.xml per una visualizzazione coerente.
Problemi noti
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.28.1
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.28.1. Le modifiche sono relative alla versione 5.28.0.
Data del rilascio iniziale: 10 gennaio 2020
Modifiche, miglioramenti e problemi risolti
Spark
Risolti i problemi di compatibilità di Spark.
Parametri di CloudWatch
È stata corretta la pubblicazione dei parametri di Amazon CloudWatch su un cluster EMR con più nodi primari.
Messaggio di log disattivato
Messaggio di falso log disabilitato, "[...] utilizzando la vecchia versione (<4.5.8) del client http Apache".
Problemi noti
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.28.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.28.0. Le modifiche sono relative alla versione 5.27.0.
Data del rilascio iniziale: 12 novembre 2019
Aggiornamenti
Flink aggiornato alla versione 1.9.0
Hive aggiornato alla versione 2.3.6
MXNet aggiornato alla versione 1.5.1
Phoenix aggiornato alla versione 4.14.3
Presto aggiornato alla versione 0.227
Zeppelin aggiornato alla versione 0.8.2
Nuove funzionalità
Apache Hudi
è ora disponibile per Amazon EMR per l'installazione durante la creazione di un cluster. Per ulteriori informazioni, consulta Hudi. (25 novembre 2019) È ora possibile scegliere di eseguire più fasi in parallelo per migliorare l'utilizzo dei cluster e risparmiare sui costi. È anche possibile annullare sia le fasi in attesa che quelle in esecuzione. Per ulteriori informazioni, consultare Utilizzo di fasi mediante l'AWS CLI e la console.
(3 dicembre 2019) Adesso è possibile creare ed eseguire cluster EMR su AWS Outposts. AWS Outposts abilita i servizi nativi di, l'infrastruttura e i modelli operativi di AWS nelle strutture in locale. Negli ambienti AWS Outposts è possibile utilizzare le stesse API, strumenti e infrastruttura AWS utilizzati in AWS Cloud. Per ulteriori informazioni, consulta Cluster EMR su AWS Outposts.
(11 marzo 2020) A partire dalla versione Amazon EMR 5.28.0, è possibile creare ed eseguire i cluster Amazon EMR in una sottorete di AWS Local Zones come estensione logica di una Regione AWS che supporta le Local Zones. Una Local Zone consente ad Amazon EMR di individuare le funzionalità e un subset di servizi AWS, come i servizi di calcolo e archiviazione, per essere il più possibile vicina agli utenti, fornendo accesso a latenza molto bassa alle applicazioni in esecuzione localmente. Per un elenco delle Local Zones disponibili, consulta AWS Local Zones
. Per informazioni sull'accesso disponibile per le Local Zones AWS, consulta Regioni, zone di disponibilità e Local Zones. Attualmente, Local Zones non supporta Amazon EMR Notebooks e non supporta connessioni effettuate direttamente ad Amazon EMR utilizzando l'interfaccia endpoint VPC (AWS PrivateLink).
Modifiche, miglioramenti e problemi risolti
Ampliato il supporto delle applicazioni per i cluster a elevata disponibilità
Per ulteriori informazioni, consulta la sezione Applicazioni supportate in un cluster EMR con più nodi primari nella Guida alla gestione di Amazon EMR.
Spark
Ottimizzazione delle prestazioni
Hive
Ottimizzazione delle prestazioni
Presto
Ottimizzazione delle prestazioni
Problemi noti
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Release 5.27.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.27.0. Le modifiche sono relative alla versione 5.26.0.
Data del rilascio iniziale: 23 settembre 2019
Aggiornamenti
AWS SDK for Java 1.11.615
Flink 1.8.1
JupyterHub 1.0.0
Spark 2.4.4
TensorFlow 1.14.0
-
Connettori e driver:
DynamoDB Connector 4.12.0
Nuove funzionalità
(24 ottobre 2019) Le seguenti nuove caratteristiche in EMR Notebooks sono disponibili con tutte le versioni di Amazon EMR
Ora è possibile associare repository Git ai notebook EMR per archiviare i notebook in un ambiente controllato dalla versione. È possibile condividere il codice con i peer e riutilizzare i notebook Jupyter esistenti tramite repository Git remoti. Per ulteriori informazioni, consulta Associazione di repository Git ad Amazon EMR Notebooks nella Guida alla gestione di Amazon EMR.
L'utility nbdime
è ora disponibile in EMR Notebooks per semplificare il confronto e la fusione di notebook. Adesso, EMR Notebooks supporta JupyterLab. JupyterLab è un ambiente di sviluppo interattivo basato sul Web completamente compatibile con i notebook Jupyter. Ora è possibile scegliere di aprire il notebook nell'editor del notebook Jupyter o JupyterLab.
(30 ottobre 2019) Con Amazon EMR versione 5.25.0 e successive, è possibile connettersi all'interfaccia utente di Spark History Server dalla pagina Summary (Riepilogo) del cluster o dalla scheda Application history (Cronologia applicazioni) nella console. Anziché configurare un proxy Web tramite una connessione SSH, puoi accedere rapidamente all'interfaccia utente del server della cronologia Spark per visualizzare i parametri dell'applicazione e accedere ai file di log pertinenti per cluster attivi e terminati. Per ulteriori informazioni, consulta Accesso fuori cluster alle interfacce utente dell'applicazione persistente nella Guida alla gestione di Amazon EMR.
Modifiche, miglioramenti e problemi risolti
-
Cluster Amazon EMR con più nodi primari
-
È possibile installare ed eseguire Flink su un cluster Amazon EMR con più nodi primari. Per ulteriori informazioni, consulta Applicazioni e funzionalità supportate.
-
È possibile configurare la crittografia trasparente HDFS su un cluster Amazon EMR con più nodi primari. Per maggiori informazioni, consulta la sezione Crittografia trasparente HDFS su cluster EMR con più nodi primari.
-
È ora possibile modificare la configurazione delle applicazioni in esecuzione su un cluster Amazon EMR con più nodi primari. Per ulteriori informazioni, consulta Specifica di una configurazione per un gruppo di istanze in un cluster in esecuzione.
-
-
Connettore Amazon EMR-DynamoDB
-
Adesso, il connettore Amazon EMR-DynamoDB supporta i seguenti tipi di dati DynamoDB: booleano, elenco, mappa, elemento, null. Per ulteriori informazioni, consulta Impostazione di una tabella Hive per l'esecuzione dei comandi Hive.
-
Problemi noti
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.26.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.26.0. Le modifiche sono relative alla versione 5.25.0.
Data del rilascio iniziale: 8 agosto 2019
Ultimo aggiornamento: 19 agosto 2019
Aggiornamenti
AWS SDK for Java 1.11.595
HBase 1.4.10
Phoenix 4.14.2
-
Connettori e driver:
DynamoDB Connector 4.11.0
MariaDB Connector 2.4.2
Driver JDBC Amazon Redshift 1.2.32.1056
Nuove funzionalità
(Beta) Con Amazon EMR 5.26.0 puoi avviare un cluster che si integra con Lake Formation. L'integrazione fornisce un accesso granulare a livello di colonna a database e tabelle in AWS Glue Data Catalog. Inoltre, consente l'accesso federato single sign-on agli EMR Notebooks o Apache Zeppelin da un sistema di identità aziendale. Per ulteriori informazioni, consulta Integrazione di Amazon EMR con AWS Lake Formation (Beta).
(19 agosto 2019) Il blocco dell'accesso pubblico in Amazon EMR è ora disponibile con tutti i rilasci di Amazon EMR che supportano i gruppi di sicurezza. Il blocco dell'accesso pubblico è un'impostazione a livello di account applicata a ogni Regione AWS. Il blocco degli accessi pubblici impedisce l'avvio di un cluster quando per un gruppo di sicurezza a esso associato è impostata una regola che consente il traffico in entrata da IPv4 0.0.0.0/0 o IPv6 ::/0 (accesso pubblico) su una porta, a meno che la porta non sia specificata come eccezione. La porta 22 è un'eccezione per impostazione predefinita. Per ulteriori informazioni, consulta Utilizzo del blocco dell'accesso pubblico in Amazon EMR nella Guida alla gestione di Amazon EMR.
Modifiche, miglioramenti e problemi risolti
-
EMR Notebooks
-
Con EMR 5.26.0 e versioni successive, EMR Notebooks supporta librerie Python con ambito notebook oltre alle librerie Python predefinite. È possibile installare librerie con ambito notebook dall'editor di notebook senza dover ricreare un cluster o ricollegare un notebook a un cluster. Le librerie con ambito notebook vengono create in un ambiente Python virtuale in modo da essere applicate esclusivamente alla sessione di notebook corrente. Ciò consente di isolare le dipendenze dei notebook. Per ulteriori informazioni, consulta Utilizzo di librerie con ambito notebook nella Guida alla gestione di Amazon EMR.
-
-
EMRFS
-
È possibile abilitare una funzione di verifica ETag (Beta) impostando
fs.s3.consistent.metadata.etag.verification.enabled
sutrue
. Con questa caratteristica, EMRFS utilizza gli ETag Amazon S3 per verificare che gli oggetti letti siano la versione più recente disponibile. Questa caratteristica è utile per i casi d'uso read-after-update in cui i file in Amazon S3 vengono sovrascritti mantenendo lo stesso nome. Questa caratteristica di verifica ETag attualmente non funziona con S3 Select. Per ulteriori informazioni, consulta Configurazione della visualizzazione coerente.
-
Spark
Le seguenti ottimizzazioni sono ora abilitate per impostazione predefinita: eliminazione dinamica delle partizioni, DISTINCT prima di INTERSECT, miglioramenti nell'inferenza delle statistiche del piano SQL per JOIN seguita da query DISTINCT, appiattimento delle sottoquery scalari, riordino di join ottimizzato e join del filtro Bloom. Per ulteriori informazioni, consulta Ottimizzazione delle prestazioni Spark.
Migliorata la generazione del codice della fase per Sort Merge Join.
Migliorato il frammento di query e il riutilizzo delle sottoquery.
Miglioramenti per assegnare preventivamente gli executor all'avvio di Spark.
I join del filtro Bloom non vengono più applicati quando il lato più piccolo del join include un suggerimento per la trasmissione.
-
Tez
-
Risolto un problema con Tez. Ora l'interfaccia utente di Tez funziona su un cluster Amazon EMR con più nodi primari.
-
Problemi noti
-
Le funzionalità migliorate di generazione del codice dell'intera fase per Sort Merge Join possono aumentare la pressione della memoria quando abilitate. Questa ottimizzazione migliora le prestazioni, ma può comportare tentativi multipli o errori di processo se
spark.yarn.executor.memoryOverheadFactor
non è regolato per fornire una memoria sufficiente. Per disabilitare questa funzionalità, impostaspark.sql.sortMergeJoinExec.extendedCodegen.enabled
su false (falso). -
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.25.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.25.0. Le modifiche sono relative alla versione 5.24.1
Data del rilascio iniziale: 17 luglio 2019
Ultimo aggiornamento: 30 ottobre 2019
Amazon EMR 5.25.0
Aggiornamenti
AWS SDK for Java 1.11.566
Hive 2.3.5
Presto 0.220
Spark 2.4.3
TensorFlow 1.13.1
Tez 0.9.2
ZooKeeper 3.4.14
Nuove funzionalità
(30 ottobre 2019) A partire da Amazon EMR versione 5.25.0, è possibile connettersi all'interfaccia utente di Spark History Server dalla pagina Summary (Riepilogo) del cluster o dalla scheda Application history (Cronologia applicazioni) nella console. Anziché configurare un proxy Web tramite una connessione SSH, puoi accedere rapidamente all'interfaccia utente del server della cronologia Spark per visualizzare i parametri dell'applicazione e accedere ai file di log pertinenti per cluster attivi e terminati. Per ulteriori informazioni, consulta Accesso fuori cluster alle interfacce utente dell'applicazione persistente nella Guida alla gestione di Amazon EMR.
Modifiche, miglioramenti e problemi risolti
-
Spark
Migliorate le prestazioni di alcuni join utilizzando i filtri Bloom per pre-filtrare gli input. L'ottimizzazione è disattivata per impostazione predefinita e può essere abilitata impostando il parametro di configurazione Spark
spark.sql.bloomFilterJoin.enabled
sutrue
.Migliorate le prestazioni del raggruppamento per colonne di tipo stringa.
-
Migliorata la memoria dell'executor Spark predefinita e la configurazione dei nodi principali dei tipi di istanza R4 per i cluster senza HBase installato.
Risolto un problema precedente correlato alla caratteristica di eliminazione delle partizioni dinamiche in cui la tabella eliminata deve trovarsi sul lato sinistro del join.
Migliorata l'ottimizzazione di DISTINCT prima di INTERSECT da applicare a casi aggiuntivi che coinvolgono alias.
-
Migliore inferenza delle statistiche del piano SQL per JOIN seguita da query DISTINCT. Questo miglioramento è disattivato per impostazione predefinita e può essere abilitato impostando il parametro di configurazione Spark
spark.sql.statsImprovements.enabled
sutrue
. Questa ottimizzazione è richiesta dalla funzionalità Distinct prima di Intersect e verrà abilitata automaticamente quandospark.sql.optimizer.distinctBeforeIntersect.enabled
è impostato sutrue
. Ordine di join ottimizzato in base alle dimensioni della tabella e ai filtri. Questa ottimizzazione è disattivata per impostazione predefinita e può essere abilitata impostando il parametro di configurazione Spark
spark.sql.optimizer.sizeBasedJoinReorder.enabled
sutrue
.
Per ulteriori informazioni, consulta Ottimizzazione delle prestazioni Spark.
-
EMRFS
-
L'impostazione EMRFS,
fs.s3.buckets.create.enabled
, è ora disabilitata per impostazione predefinita. A seguito di alcuni test, abbiamo scoperto che la disattivazione di questa impostazione migliora le prestazioni e impedisce la creazione involontaria di bucket S3. Se l'applicazione si basa su questa funzionalità, è possibile attivarla impostando la proprietàfs.s3.buckets.create.enabled
sutrue
nella classificazione di configurazioneemrfs-site
. Per informazioni, consulta Specifica di una configurazione durante la creazione di un cluster.
-
Miglioramenti della crittografia del disco locale e della crittografia S3 nelle configurazioni di sicurezza (5 agosto 2019)
Separate le impostazioni di crittografia Amazon S3 dalle impostazioni di crittografia del disco locale nella configurazione della protezione.
Aggiunta un'opzione per abilitare la crittografia EBS con la versione 5.24.0 e successive. Selezionando questa opzione, il volume del dispositivo di root viene crittografato oltre ai volumi di archiviazione. Le versioni precedenti richiedevano l'uso di un'AMI personalizzata per crittografare il volume del dispositivo di root.
Per ulteriori informazioni, consulta Opzioni di crittografia nella Guida alla gestione di Amazon EMR.
Problemi noti
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Release 5.24.1
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.24.1. Le modifiche sono relative alla versione 5.24.0.
Data del rilascio iniziale: 26 giugno 2019
Modifiche, miglioramenti e problemi risolti
Aggiornata l'AMI predefinita Amazon Linux per Amazon EMR per importanti aggiornamenti di sicurezza del kernel Linux, inclusi i problemi di negazione del servizio TCP SACK (AWS-2019-005
).
Problemi noti
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.24.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.24.0. Le modifiche sono relative alla versione 5.23.0.
Data del rilascio iniziale: 11 giugno 2019
Ultimo aggiornamento: 5 agosto 2019
Aggiornamenti
Flink 1.8.0
Hue 4.4.0
JupyterHub 0.9.6
Livy 0.6.0
MXNet 1.4.0
Presto 0.219
Spark 2.4.2
AWS SDK for Java 1.11.546
-
Connettori e driver:
DynamoDB Connector 4.9.0
MariaDB Connector 2.4.1
Driver JDBC Amazon Redshift 1.2.27.1051
Modifiche, miglioramenti e problemi risolti
Spark
Aggiunta ottimizzazione per eliminare dinamicamente le partizioni. Per impostazione predefinita, l'ottimizzazione è disabilitata. Per abilitare questa opzione, occorre impostare il parametro di configurazione Spark
spark.sql.dynamicPartitionPruning.enabled
sutrue
.Migliorate le prestazioni delle query
INTERSECT
. Per impostazione predefinita, l'ottimizzazione è disabilitata. Per abilitare questa opzione, occorre impostare il parametro di configurazione Sparkspark.sql.optimizer.distinctBeforeIntersect.enabled
sutrue
.Aggiunta ottimizzazione per appiattire le sottoquery scalari con aggregati che utilizzano la stessa relazione. Per impostazione predefinita, l'ottimizzazione è disabilitata. Per abilitare questa opzione, occorre impostare il parametro di configurazione Spark
spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled
sutrue
.Migliorata la generazione del codice della fase.
Per ulteriori informazioni, consulta Ottimizzazione delle prestazioni Spark.
Miglioramenti della crittografia del disco locale e della crittografia S3 nelle configurazioni di sicurezza (5 agosto 2019)
Separate le impostazioni di crittografia Amazon S3 dalle impostazioni di crittografia del disco locale nella configurazione della protezione.
Aggiunta un'opzione per abilitare la crittografia EBS. Selezionando questa opzione, il volume del dispositivo di root viene crittografato oltre ai volumi di archiviazione. Le versioni precedenti richiedevano l'uso di un'AMI personalizzata per crittografare il volume del dispositivo di root.
Per ulteriori informazioni, consulta Opzioni di crittografia nella Guida alla gestione di Amazon EMR.
Problemi noti
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.23.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.23.0. Le modifiche sono relative alla versione 5.22.0.
Data del rilascio iniziale: 1° aprile 2019
Ultimo aggiornamento: 30 aprile 2019
Aggiornamenti
AWS SDK for Java 1.11.519
Nuove funzionalità
(30 aprile 2019) Con Amazon EMR rilascio 5.23.0 e successivi, è possibile avviare un cluster con tre nodi primari per supportare applicazioni a elevata disponibilità come YARN Resource Manager, HDFS NameNode, Spark, Hive e Ganglia. Con questa caratteristica, il nodo primario non rappresenta più un potenziale singolo punto di errore. Se uno dei nodi primari ha esito negativo, Amazon EMR esegue automaticamente il failover in un nodo primario in standby e sostituisce il nodo primario guasto con uno nuovo con le medesime operazioni di configurazione e di bootstrap. Per ulteriori informazioni, consulta la sezione Plan and Configure Primary Nodes (Pianificazione e configurazione dei nodi primari).
Problemi noti
-
Interfaccia utente Tez (corretta in Amazon EMR rilascio 5.26.0)
L'interfaccia utente di Tez non funziona su un cluster EMR con più nodi primari.
-
Hue (corretto in Amazon EMR rilascio 5.24.0)
-
Hue in esecuzione su Amazon EMR non supporta Solr. A partire da Amazon EMR rilascio 5.20.0, un problema di configurazione errata causa l'attivazione di Solr e un messaggio di errore innocuo simile al seguente:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Per evitare che venga visualizzato il messaggio di errore Solr:
Effettua la connessione alla linea di comando del nodo primario tramite SSH.
Aprire il file
hue.ini
con un editor di testo. Ad esempio:sudo vim /etc/hue/conf/hue.ini
Cerca il termine
appblacklist
e modifica la riga nel modo seguente:appblacklist = search
Salva le modifiche e riavvia Hue come nell'esempio seguente:
sudo stop hue; sudo start hue
-
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.22.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.22.0. Le modifiche sono relative alla versione 5.21.0.
Importante
A partire da Amazon EMR rilascio 5.22.0, Amazon EMR utilizza AWS Signature Version 4 esclusivamente per autenticare le richieste inviate ad Amazon S3. I rilasci precedenti di Amazon EMR impiegano AWS Signature Version 2 in alcuni casi, a meno che le note di rilascio indichino l'utilizzo esclusivo di Signature Version 4. Per ulteriori informazioni, consulta Autenticazione delle richieste (AWS Signature Version 4) e Autenticazione delle richieste (AWS Signature Version 2) nella Guida per gli sviluppatori di Amazon Simple Storage.
Data del rilascio iniziale: 20 marzo 2019
Aggiornamenti
Flink 1.7.1
HBase 1.4.9
Oozie 5.1.0
Phoenix 4.14.1
Zeppelin 0.8.1
-
Connettori e driver:
DynamoDB Connector 4.8.0
MariaDB Connector 2.2.6
Driver JDBC Amazon Redshift 1.2.20.1043
Nuove funzionalità
Modificata la configurazione EBS predefinita per i tipi di istanza EC2 con archiviazione solo EBS. Quando crei un cluster utilizzando Amazon EMR rilascio 5.22.0 e successivi, la quantità di archiviazione EBS predefinita aumenta in base alle dimensioni dell'istanza. Inoltre, l'archiviazione aumentata viene divisa su più volumi, offrendo migliori prestazioni IOPS. Se desideri utilizzare una configurazione dello storage delle istanze EBS diversa, puoi specificarla al momento della creazione di un cluster EMR o aggiungere nodi a un cluster esistente. Per ulteriori informazioni sulla quantità di archiviazione e sul numero di volumi allocati per impostazione predefinita per ciascun tipo di istanza, consulta Archiviazione EBS di default per istanze nella Guida alla gestione di Amazon EMR.
Modifiche, miglioramenti e problemi risolti
Spark
Introdotta una nuova proprietà di configurazione per Spark su YARN,
spark.yarn.executor.memoryOverheadFactor
. Il valore di questa proprietà è un fattore di scala che imposta il valore del sovraccarico della memoria su una percentuale di memoria dell'executor, con un minimo di 384 MB. Se l'overhead della memoria è impostato esplicitamente utilizzandospark.yarn.executor.memoryOverhead
, questa proprietà non ha effetto. Il valore predefinito è0.1875
, che rappresenta il 18,75%. Questo valore predefinito per Amazon EMR lascia più spazio nei container YARN per l'overhead della memoria dell'executor rispetto al 10% predefinito impostato internamente da Spark. L'impostazione predefinita di Amazon EMR del 18,75% ha mostrato un minor numero di errori relativi alla memoria nei benchmark TPC-DS.Backport di SPARK-26316
per migliorare le prestazioni.
In Amazon EMR versione 5.19.0, 5.20.0 e 5.21.0, le etichette dei nodi YARN sono memorizzate in una directory HDFS. In alcune situazioni, questo porta a ritardi di avvio del nodo principale e quindi causa il timeout del cluster e l'errore di avvio. A partire da Amazon EMR 5.22.0, questo problema è stato risolto. Le etichette dei nodi YARN sono memorizzate sul disco locale di ciascun nodo cluster, evitando dipendenze da HDFS.
Problemi noti
-
Hue (corretto in Amazon EMR rilascio 5.24.0)
-
Hue in esecuzione su Amazon EMR non supporta Solr. A partire da Amazon EMR rilascio 5.20.0, un problema di configurazione errata causa l'attivazione di Solr e un messaggio di errore innocuo simile al seguente:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Per evitare che venga visualizzato il messaggio di errore Solr:
Effettua la connessione alla linea di comando del nodo primario tramite SSH.
Aprire il file
hue.ini
con un editor di testo. Ad esempio:sudo vim /etc/hue/conf/hue.ini
Cerca il termine
appblacklist
e modifica la riga nel modo seguente:appblacklist = search
Salva le modifiche e riavvia Hue come nell'esempio seguente:
sudo stop hue; sudo start hue
-
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.21.1
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.21.1. Le modifiche sono relative alla versione 5.21.0.
Data del rilascio iniziale: 18 luglio 2019
Modifiche, miglioramenti e problemi risolti
Aggiornata l'AMI predefinita Amazon Linux per Amazon EMR per importanti aggiornamenti di sicurezza del kernel Linux, inclusi i problemi di negazione del servizio TCP SACK (AWS-2019-005
).
Problemi noti
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.21.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.21.0. Le modifiche sono relative alla versione 5.20.0.
Data del rilascio iniziale: 18 febbraio 2019
Ultimo aggiornamento: 3 aprile 2019
Aggiornamenti
Flink 1.7.0
Presto 0.215
AWS SDK for Java 1.11.479
Nuove funzionalità
(3 aprile 2019) Con Amazon EMR versione 5.21.0 e successive, puoi sovrascrivere le configurazioni del cluster e specificare classificazioni di configurazione aggiuntive per ogni gruppo di istanze in un cluster in esecuzione. A questo scopo, utilizza la console di Amazon EMR, la AWS Command Line Interface (AWS CLI) o l'SDK AWS. Per ulteriori informazioni, consulta Specifica di una configurazione per un gruppo di istanze in un cluster in esecuzione.
Modifiche, miglioramenti e problemi risolti
-
Zeppelin
-
Backport per ZEPPELIN-3878
.
-
Problemi noti
-
Hue (corretto in Amazon EMR rilascio 5.24.0)
-
Hue in esecuzione su Amazon EMR non supporta Solr. A partire da Amazon EMR rilascio 5.20.0, un problema di configurazione errata causa l'attivazione di Solr e un messaggio di errore innocuo simile al seguente:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Per evitare che venga visualizzato il messaggio di errore Solr:
Effettua la connessione alla linea di comando del nodo primario tramite SSH.
Aprire il file
hue.ini
con un editor di testo. Ad esempio:sudo vim /etc/hue/conf/hue.ini
Cerca il termine
appblacklist
e modifica la riga nel modo seguente:appblacklist = search
Salva le modifiche e riavvia Hue come nell'esempio seguente:
sudo stop hue; sudo start hue
-
-
Tez
-
Questo problema è stato risolto in Amazon EMR 5.22.0.
Quando ci si connette all'interfaccia utente Tez all'indirizzo http://
MasterDNS
:8080/tez-ui tramite una connessione SSH al nodo primario del cluster, viene visualizzato l'errore "Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled (Operazione adattatore fallita: server Timeline (ATS) fuori portata. O è inattivo o CORS non è abilitato)" o le attività mostrano una dicitura N/A inaspettata.Ciò è dovuto al fatto che l'interfaccia utente Tez effettua richieste al server Timeline YARN utilizzando
localhost
anziché il nome host del nodo primario. Come soluzione alternativa, è disponibile uno script da eseguire come operazione o fase di bootstrap. Lo script aggiorna il nome host nel file Tezconfigs.env
. Per ulteriori informazioni e per la posizione dello script, consulta Istruzioni di bootstrap.
-
In Amazon EMR versione 5.19.0, 5.20.0 e 5.21.0, le etichette dei nodi YARN sono memorizzate in una directory HDFS. In alcune situazioni, questo porta a ritardi di avvio del nodo principale e quindi causa il timeout del cluster e l'errore di avvio. A partire da Amazon EMR 5.22.0, questo problema è stato risolto. Le etichette dei nodi YARN sono memorizzate sul disco locale di ciascun nodo cluster, evitando dipendenze da HDFS.
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.20.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.20.0. Le modifiche sono relative alla versione 5.19.0.
Data del rilascio iniziale: 18 dicembre 2018
Ultimo aggiornamento: 22 gennaio 2019
Aggiornamenti
Flink 1.6.2
HBase 1.4.8
Hive 2.3.4
Hue 4.3.0
MXNet 1.3.1
Presto 0.214
Spark 2.4.0
TensorFlow 1.12.0
Tez 0.9.1
AWS SDK for Java 1.11.461
Nuove funzionalità
(22 gennaio 2019) Kerberos in Amazon EMR è stato migliorato per supportare l'autenticazione delle entità principali da un KDC esterno. In questo modo, la gestione dei principali viene centralizzata perché più cluster possono condividere un unico server KDC esterno. Inoltre, il server KDC esterno può avere un trust tra realm con un dominio Active Directory. In questo modo, tutti i cluster possono autenticare i principali da Active Directory. Per ulteriori informazioni, consulta Utilizzo dell'autenticazione Kerberos nella Guida alla gestione di Amazon EMR.
Modifiche, miglioramenti e problemi risolti
-
AMI predefinita di Amazon Linux per Amazon EMR
-
Il pacchetto Python3 è stato aggiornato da python 3.4 a 3.6.
-
-
Il committer ottimizzato S3 EMRFS
-
Il committer EMRFS ottimizzato per S3 è ora abilitato per impostazione predefinita, il che migliora le prestazioni di scrittura. Per ulteriori informazioni, consulta Utilizzare il committer ottimizzato S3 EMRFS.
-
-
Hive
-
Backport per HIVE-16686
.
-
-
Glue con Spark e Hive
In EMR 5.20.0 o versioni successive, l'eliminazione delle partizioni parallele viene abilitata automaticamente per Spark e Hive quando AWS Glue Data Catalog viene utilizzato come metastore. Questa modifica riduce significativamente i tempi di pianificazione delle query eseguendo più richieste in parallelo per recuperare le partizioni. Il numero totale di segmenti che è possibile eseguire contemporaneamente è compreso tra 1 e 10. Il valore di default è 5, che è l'impostazione consigliata. Puoi modificare questa impostazione specificando la proprietà
aws.glue.partition.num.segments
nella classificazione di configurazionehive-site
. Se si verifica una limitazione, è possibile disattivare la funzione modificando il valore su 1. Per ulteriori informazioni, consulta Struttura del segmento AWS Glue.
Problemi noti
-
Hue (corretto in Amazon EMR rilascio 5.24.0)
-
Hue in esecuzione su Amazon EMR non supporta Solr. A partire da Amazon EMR rilascio 5.20.0, un problema di configurazione errata causa l'attivazione di Solr e un messaggio di errore innocuo simile al seguente:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Per evitare che venga visualizzato il messaggio di errore Solr:
Effettua la connessione alla linea di comando del nodo primario tramite SSH.
Aprire il file
hue.ini
con un editor di testo. Ad esempio:sudo vim /etc/hue/conf/hue.ini
Cerca il termine
appblacklist
e modifica la riga nel modo seguente:appblacklist = search
Salva le modifiche e riavvia Hue come nell'esempio seguente:
sudo stop hue; sudo start hue
-
-
Tez
-
Questo problema è stato risolto in Amazon EMR 5.22.0.
Quando ci si connette all'interfaccia utente Tez all'indirizzo http://
MasterDNS
:8080/tez-ui tramite una connessione SSH al nodo primario del cluster, viene visualizzato l'errore "Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled (Operazione adattatore fallita: server Timeline (ATS) fuori portata. O è inattivo o CORS non è abilitato)" o le attività mostrano una dicitura N/A inaspettata.Ciò è dovuto al fatto che l'interfaccia utente Tez effettua richieste al server Timeline YARN utilizzando
localhost
anziché il nome host del nodo primario. Come soluzione alternativa, è disponibile uno script da eseguire come operazione o fase di bootstrap. Lo script aggiorna il nome host nel file Tezconfigs.env
. Per ulteriori informazioni e per la posizione dello script, consulta Istruzioni di bootstrap.
-
In Amazon EMR versione 5.19.0, 5.20.0 e 5.21.0, le etichette dei nodi YARN sono memorizzate in una directory HDFS. In alcune situazioni, questo porta a ritardi di avvio del nodo principale e quindi causa il timeout del cluster e l'errore di avvio. A partire da Amazon EMR 5.22.0, questo problema è stato risolto. Le etichette dei nodi YARN sono memorizzate sul disco locale di ciascun nodo cluster, evitando dipendenze da HDFS.
-
Problema noto nei cluster con più nodi primari e autenticazione Kerberos
Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.
Soluzione alternativa:
-
Abilita SSH come utente
hadoop
al primo nodo primario del cluster EMR con più nodi primari. -
Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente
hadoop
.kinit -kt <keytab_file> <principal>
In genere, il file keytab si trova in
/etc/hadoop.keytab
e l'entità principale si presenta nella forma dihadoop/<hostname>@<REALM>
.
Nota
Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.
-
Rilascio 5.19.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.19.0. Le modifiche sono relative alla versione 5.18.0.
Data del rilascio iniziale: 7 novembre 2018
Ultimo aggiornamento: 19 novembre 2018
Aggiornamenti
Hadoop 2.8.5
Flink 1.6.1
JupyterHub 0.9.4
MXNet 1.3.0
Presto 0.212
TensorFlow 1.11.0
ZooKeeper 3.4.13
AWS SDK for Java 1.11.433
Nuove funzionalità
(19 novembre 2018) EMR Notebooks è un ambiente gestito basato su Jupyter Notebook. Supporta i kernel Spark magic per PySpark, Spark SQL, Spark, R e Scala. EMR Notebooks può essere utilizzato con cluster creati utilizzando Amazon EMR rilascio 5.18.0 e successivi. Per ulteriori informazioni, consulta Utilizzo di EMR Notebooks nella Guida alla gestione di Amazon EMR.
Il committer EMRFS ottimizzato per S3 è disponibile durante la scrittura di file Parquet tramite Spark ed EMRFS. Questo committer migliora le prestazioni di scrittura. Per ulteriori informazioni, consulta Utilizzare il committer ottimizzato S3 EMRFS.
Modifiche, miglioramenti e problemi risolti
-
YARN
-
Modificata la logica che limita il processo master dell'applicazione all'esecuzione sui nodi principali. Questa funzionalità ora utilizza la caratteristica e le proprietà delle etichette dei nodi YARN nelle classificazioni di configurazione
yarn-site
ecapacity-scheduler
. Per informazioni, consultare, https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-instances-guidelines.html#emr-plan-spot-YARN.
-
-
AMI predefinita di Amazon Linux per Amazon EMR
-
ruby18
,php56
egcc48
non vengono più installati per impostazione predefinita. Se lo si desidera, è possibile installarli tramiteyum
. -
Il Ruby Gem aws-java-sdk non è più installato per impostazione predefinita. Se lo si desidera, è possibile installarlo tramite
gem install aws-sdk
. Possono anche essere installati componenti specifici. Ad esempio,gem install aws-sdk-s3
.
-
Problemi noti
-
EMR Notebooks: in alcune circostanze, con più editor di notebook aperti, l'editor del notebook potrebbe non essere in grado di connettersi al cluster. In questo caso, cancella i cookie del browser e riapri gli editor dei notebook.
-
Parametro ContainerPending e scalabilità automatica di CloudWatch: (corretto in 5.20.0) Amazon EMR può emettere un valore negativo per
ContainerPending
. SeContainerPending
viene utilizzato in una regola di scalabilità automatica, quest'ultima avrà un comportamento imprevisto. Non utilizzareContainerPending
con la scalabilità automatica. In Amazon EMR versione 5.19.0, 5.20.0 e 5.21.0, le etichette dei nodi YARN sono memorizzate in una directory HDFS. In alcune situazioni, questo porta a ritardi di avvio del nodo principale e quindi causa il timeout del cluster e l'errore di avvio. A partire da Amazon EMR 5.22.0, questo problema è stato risolto. Le etichette dei nodi YARN sono memorizzate sul disco locale di ciascun nodo cluster, evitando dipendenze da HDFS.
Rilascio 5.18.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.18.0. Le modifiche sono relative alla versione 5.17.0.
Data del rilascio iniziale: 24 ottobre 2018
Aggiornamenti
Flink 1.6.0
HBase 1.4.7
Presto 0.210
Spark 2.3.2
Zeppelin 0.8.0
Nuove funzionalità
A partire da Amazon EMR rilascio 5.18.0, è possibile utilizzare i repository degli artefatti di Amazon EMR per creare il codice di processo secondo le versioni esatte di librerie e dipendenze disponibili con rilasci Amazon EMR specifici. Per ulteriori informazioni, consulta Verifica delle dipendenze mediante il repository degli artifact di Amazon EMR.
Modifiche, miglioramenti e problemi risolti
Hive
Aggiunto il supporto per S3 Select. Per ulteriori informazioni, consulta Utilizzo di S3 Select con Hive per migliorare le prestazioni.
Presto
Aggiunto il supporto per S3 Select
Pushdown. Per ulteriori informazioni, consulta Uso di pushdown S3 Select con Presto per migliorare le prestazioni.
Spark
La configurazione predefinita log4j per Spark è stata modificata per eseguire i registri del container ogni ora per i processi di streaming Spark. Ciò consente di impedire l'eliminazione dei registri per i processi Spark Streaming con esecuzione prolungata.
Rilascio 5.17.1
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.17.1. Le modifiche sono relative alla versione 5.17.0.
Data del rilascio iniziale: 18 luglio 2019
Modifiche, miglioramenti e problemi risolti
Aggiornata l'AMI predefinita Amazon Linux per Amazon EMR per importanti aggiornamenti di sicurezza del kernel Linux, inclusi i problemi di negazione del servizio TCP SACK (AWS-2019-005
).
Rilascio 5.17.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.17.0. Le modifiche sono relative alla versione 5.16.0.
Data del rilascio iniziale: 30 agosto 2018
Aggiornamenti
Flink 1.5.2
HBase 1.4.6
Presto 0.206
Nuove funzionalità
Aggiunto il supporto per Tensorflow. Per ulteriori informazioni, consulta TensorFlow.
Modifiche, miglioramenti e problemi risolti
JupyterHub
Aggiunto il supporto per la persistenza notebook in Amazon S3. Per ulteriori informazioni, consulta Configurazione della persistenza per i notebook in Amazon S3.
Spark
Aggiunto il supporto per S3 Select
. Per ulteriori informazioni, consulta Usare S3 Select con Spark per migliorare le prestazioni delle query.
Risolti i problemi con i parametri Cloudwatch e la funzione di scalabilità automatica in Amazon EMR versione 5.14.0, 5.15.0 o 5.16.0.
Problemi noti
-
Quando si crea un cluster che utilizza Kerberos con Livy installato, Livy ha esito negativo e genera un errore a indicare che l'autenticazione semplice non è abilitata. Il riavvio del server Livy risolve il problema. Per ovviare al problema, è possibile aggiungere una fase durante la creazione del cluster che esegue
sudo restart livy-server
sul nodo primario. Se si utilizza un'AMI Amazon Linux personalizzata basata su un'AMI Amazon Linux con una data di creazione 2018-08-11, il server Oozie non si avvia. Se si utilizza Oozie, è possibile creare un'AMI personalizzata basata su un ID AMI Amazon Linux con una data di creazione diversa. Puoi utilizzare il comando AWS CLI seguente per restituire un elenco di ID immagine per tutte le AMI Amazon Linux HVM con una versione 2018.03, insieme alla data di rilascio, in modo da poter scegliere un'AMI Linux appropriata come base. Sostituisci MyRegion con l'identificatore della Regione, ad esempio us-west-2.
aws ec2 --region
MyRegion
describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1
Rilascio 5.16.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.16.0. Le modifiche sono relative alla versione 5.15.0.
Data del rilascio iniziale: 19 luglio 2018
Aggiornamenti
Hadoop 2.8.4
Flink 1.5.0
Livy 0.5.0
MXNet 1.2.0
Phoenix 4.14.0
Presto 0.203
Spark 2.3.1
AWS SDK for Java 1.11.336
CUDA 9.2
Driver JDBC Redshift 1.2.15.1025
Modifiche, miglioramenti e problemi risolti
HBase
Backport per HBASE-20723
Presto
Modifiche alla configurazione per supportare l'autenticazione LDAP. Per ulteriori informazioni, consulta Utilizzo dell'autenticazione LDAP con Presto on Amazon EMR.
Spark
Apache Spark versione 2.3.1, disponibile a partire da Amazon EMR rilascio 5.16.0, risolve CVE-2018-8024
e CVE-2018-1334 . Si consiglia di eseguire la migrazione delle versioni precedenti di Spark a Spark 2.3.1 o versioni successive.
Problemi noti
-
Questa versione non supporta i tipi di istanza c1.medium o m1.small. I cluster che utilizzano uno di questi tipi di istanza non vengono avviati. Come soluzione alternativa, specifica un tipo di istanza diverso o utilizza una versione di rilascio diversa.
-
Quando si crea un cluster che utilizza Kerberos con Livy installato, Livy ha esito negativo e genera un errore a indicare che l'autenticazione semplice non è abilitata. Il riavvio del server Livy risolve il problema. Per ovviare al problema, è possibile aggiungere una fase durante la creazione del cluster che esegue
sudo restart livy-server
sul nodo primario. -
Dopo il riavvio del nodo primario o il riavvio del controller dell'istanza, i parametri CloudWatch non verranno acquisiti e la caratteristica di dimensionamento automatico non sarà disponibile in Amazon EMR versione 5.14.0, 5.15.0 o 5.16.0. Questo problema è stato risolto in Amazon EMR 5.17.0.
Rilascio 5.15.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.15.0. Le modifiche sono relative alla versione 5.14.0.
Data del rilascio iniziale: 21 giugno 2018
Aggiornamenti
Aggiornato a HBase 1.4.4
Aggiornato a Hive 2.3.3
Aggiornato a Hue 4.2.0
Oozie aggiornato a 5.0.0
Aggiornato a Zookeeper 3.4.12
AWS SDK aggiornato alla versione 1.11.333
Modifiche, miglioramenti e problemi risolti
Hive
Backport per HIVE-18069
.
Hue
Hue aggiornato per autenticarsi correttamente con Livy quando Kerberos è abilitato. Livy è ora supportato quando si utilizza Kerberos con Amazon EMR.
JupyterHub
JupyterHub aggiornato affinché Amazon EMR possa installare le librerie client LDAP per impostazione predefinita.
Corretto un errore nello script che genera certificati autofirmati.
Problemi noti
-
Questa versione non supporta i tipi di istanza c1.medium o m1.small. I cluster che utilizzano uno di questi tipi di istanza non vengono avviati. Come soluzione alternativa, specifica un tipo di istanza diverso o utilizza una versione di rilascio diversa.
-
Dopo il riavvio del nodo primario o il riavvio del controller dell'istanza, i parametri CloudWatch non verranno acquisiti e la caratteristica di dimensionamento automatico non sarà disponibile in Amazon EMR versione 5.14.0, 5.15.0 o 5.16.0. Questo problema è stato risolto in Amazon EMR 5.17.0.
Rilascio 5.14.1
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.14.1. Le modifiche sono relative alla versione 5.14.0.
Data del rilascio iniziale: 17 ottobre 2018
Aggiornata l'AMI predefinita per Amazon EMR al fine di risolvere potenziali vulnerabilità di sicurezza.
Rilascio 5.14.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.14.0. Le modifiche sono relative alla versione 5.13.0.
Data del rilascio iniziale: 4 giugno 2018
Aggiornamenti
Aggiornato ad Apache Flink 1.4.2
Apache MXNet aggiornato alla versione 1.1.0
Apache Sqoop aggiornato alla versione 1.4.7
Nuove funzionalità
Aggiunto il supporto JupyterHub. Per ulteriori informazioni, consulta JupyterHub.
Modifiche, miglioramenti e problemi risolti
EMRFS
La stringa userAgent nelle richieste ad Amazon S3 è stata aggiornata per contenere le informazioni sull'utente e sul gruppo dell'entità principale che richiama. Questa può essere utilizzata con i log AWS CloudTrail per un monitoraggio più completo delle richieste.
HBase
Include HBASE-20447
, che risolve un problema che potrebbe causare errori di cache, in particolare in caso di Regioni divise.
-
MXNet
Aggiunte librerie OpenCV.
Spark
-
Quando Spark scrive i file Parquet in un percorso Amazon S3 utilizzando EMRFS, l'algoritmo FileOutputCommitter è stato aggiornato per utilizzare la versione 2 anziché la versione 1. In questo modo viene ridotta la quantità di ridenominazioni, con un conseguente miglioramento delle prestazioni delle applicazioni. Questa modifica non influisce su:
-
Applicazioni diverse da Spark.
-
Applicazioni che scrivono su altri file system, ad esempio HDFS (che utilizzano ancora la versione 1 di FileOutputCommitter).
-
Applicazioni che utilizzano altri formati di output, come testo o csv, che già utilizzano la scrittura diretta EMRFS.
-
-
Problemi noti
-
JupyterHub
-
L'utilizzo delle classificazioni di configurazione per impostare JupyterHub e singoli notebook Jupyter quando si crea un cluster non è supportato. Modifica manualmente il file jupyterhub_config.py e i file jupyter_notebook_config.py per ogni utente. Per ulteriori informazioni, consulta Configurazione di JupyterHub.
-
JupyterHub non si avvia sui cluster all'interno di una sottorete privata, generando il messaggio
Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt'
. Questo problema è causato da un errore nello script che genera certificati autofirmati. Utilizza la seguente soluzione alternativa per generare certificati autofirmati. Tutti i comandi vengono eseguiti mentre si è connessi al nodo primario.Copia lo script di generazione del certificato dal container al nodo primario:
sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
Utilizza un editor di testo per intervenire sulla riga 23 modificando il nome di host pubblico nel nome di host locale come illustrato di seguito:
local
hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local
-hostname)Esegui lo script per generare certificati autofirmati:
sudo bash ./gen_self_signed_cert.sh
Sposta i file di certificato generati dallo script nella directory
/etc/jupyter/conf/
:sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/
È possibile
tail
il filejupyter.log
per verificare che JupyterHub sia stato riavviato e stia restituendo un codice di risposta 200. Ad esempio:tail -f /var/log/jupyter/jupyter.log
Questo dovrebbe restituire una risposta simile alla seguente:
# [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
-
-
Dopo il riavvio del nodo primario o il riavvio del controller dell'istanza, i parametri CloudWatch non verranno acquisiti e la caratteristica di dimensionamento automatico non sarà disponibile in Amazon EMR versione 5.14.0, 5.15.0 o 5.16.0. Questo problema è stato risolto in Amazon EMR 5.17.0.
Rilascio 5.13.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.13.0. Le modifiche sono relative alla versione 5.12.0.
Aggiornamenti
-
Spark aggiornato a 2.3.0
-
HBase aggiornato a 1.4.2
-
Presto aggiornato a 0.194
-
Aggiornato AWS SDK for Java a 1.11.297
Modifiche, miglioramenti e problemi risolti
Hive
-
Backport per HIVE-15436
. API di Hive ottimizzate per restituire solo visualizzazioni.
-
Problemi noti
-
Al momento MXNet non dispone di librerie OpenCV.
Rilascio 5.12.2
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.12.2. Le modifiche sono relative alla versione 5.12.1.
Data del rilascio iniziale: 29 agosto 2018
Modifiche, miglioramenti e problemi risolti
Questo rilascio risolve una potenziale vulnerabilità di sicurezza.
Rilascio 5.12.1
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.12.1. Le modifiche sono relative alla versione 5.12.0.
Data del rilascio iniziale: 29 marzo 2018
Modifiche, miglioramenti e problemi risolti
Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere potenziali vulnerabilità.
Rilascio 5.12.0
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.12.0. Le modifiche sono relative alla versione 5.11.1.
Aggiornamenti
AWS SDK for Java 1.11.238 ⇒ 1.11.267. Per ulteriori informazioni, consulta il Log delle modifiche AWS SDK per Java
su GitHub Hadoop 2.7.3 ⇒ 2.8.3. Per ulteriori informazioni, consulta Rilasci di Apache Hadoop
. Flink 1.3.2 ⇒ 1.4.0. Per ulteriori informazioni, consulta l'Annuncio del rilascio di Apache Flink 1.4.0
. HBase 1.3.1 ⇒ 1.4.0. Per ulteriori informazioni, consulta l'Annuncio del rilascio di HBase
. Hue 4.0.1 ⇒ 4.1.0. Per ulteriori informazioni, consulta le Note di rilascio
. MxNet 0.12.0 ⇒ 1.0.0. Per ulteriori informazioni, consulta il Log delle modifiche MXNet
su GitHub. Presto 0.187 ⇒ 0.188. Per ulteriori informazioni, consulta le Note di rilascio
.
Modifiche, miglioramenti e problemi risolti
Hadoop
La proprietà
yarn.resourcemanager.decommissioning.timeout
è stata modificata inyarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs
. È possibile utilizzare questa proprietà per personalizzare il dimensionamento verso il basso del cluster. Per maggiori informazioni, consulta Dimensionamento verso il basso del cluster nella Guida alla gestione di Amazon EMR.L'interfaccia CLI di Hadoop ha aggiunto l'opzione
-d
per il comandocp
(copia), che specifica la copia diretta. Questo comando può essere utilizzato per evitare di creare un file.COPYING
intermediario, rendendo più veloce la copia dei dati in Amazon S3. Per ulteriori informazioni, consulta HADOOP-12384.
Pig
È stato aggiunto
pig-env
, che semplifica la configurazione delle proprietà dell'ambiente Pig. Per ulteriori informazioni, consulta Configurazione delle applicazioni.
Presto
Aggiunta la classificazione della configurazione
presto-connector-redshift
, che puoi utilizzare per configurare i valori nel file di configurazioneredshift.properties
di Presto. Per ulteriori informazioni, consulta Connettore Redshiftnella documentazione di Presto e Configurazione delle applicazioni. Il supporto Presto per EMRFS è stato aggiunto ed è la configurazione predefinita. I rilasci precedenti di Amazon EMR utilizzavano PrestoS3FileSystem, che era l'unica opzione disponibile. Per ulteriori informazioni, consulta Configurazione EMRFS e PrestoS3FileSystem.
Nota
Se interroghi i dati sottostanti in Amazon S3 con Amazon EMR versione 5.12.0, possono verificarsi errori di Presto. Questo avviene perché Presto non riesce a raccogliere i valori di classificazione della configurazione da
emrfs-site.xml
. Come soluzione alternativa, crea una sottodirectoryemrfs
inusr/lib/presto/plugin/hive-hadoop2/
e crea un collegamento simbolico inusr/lib/presto/plugin/hive-hadoop2/emrfs
sul file/usr/share/aws/emr/emrfs/conf/emrfs-site.xml
esistente. Quindi riavvia il processo presto-server (sudo presto-server stop
seguito dasudo presto-server start
).
Spark
Problemi noti
MXNet non include le librerie OpenCV.
SparkR non è disponibile per i cluster creati utilizzando un'AMI personalizzata perché R non è installato per impostazione predefinita sui nodi del cluster.
Rilascio 5.11.3
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.11.3. Le modifiche sono relative alla versione 5.11.2.
Data del rilascio iniziale: 18 luglio 2019
Modifiche, miglioramenti e problemi risolti
Aggiornata l'AMI predefinita Amazon Linux per Amazon EMR per importanti aggiornamenti di sicurezza del kernel Linux, inclusi i problemi di negazione del servizio TCP SACK (AWS-2019-005
).
Rilascio 5.11.2
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.11.2. Le modifiche sono relative alla versione 5.11.1.
Data del rilascio iniziale: 29 agosto 2018
Modifiche, miglioramenti e problemi risolti
Questo rilascio risolve una potenziale vulnerabilità di sicurezza.
Rilascio 5.11.1
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.11.1. Le modifiche sono relative al rilascio di Amazon EMR 5.11.0.
Data del rilascio iniziale: 22 gennaio 2018
Modifiche, miglioramenti e problemi risolti
Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere le vulnerabilità associate all'esecuzione speculativa (CVE-2017-5715, CVE-2017-5753 e CVE-2017-5754). Per ulteriori informazioni, consulta http://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Problemi noti
-
MXNet non include le librerie OpenCV.
-
Per impostazione predefinita, Hive 2.3.2 è impostato su
hive.compute.query.using.stats=true
. Questo fa sì che le query individuino i dati dalle statistiche esistenti anziché direttamente dai dati, il che potrebbe creare confusione. Ad esempio, se hai una tabella conhive.compute.query.using.stats=true
e carichi nuovi file sulla tabellaLOCATION
, se esegui una querySELECT COUNT(*)
sulla tabella ti restituisce il conto delle statistiche e non tiene in considerazione le righe aggiunte.Una soluzione consiste nell'usare il comando
ANALYZE TABLE
per raccogliere nuove statistiche o impostarehive.compute.query.using.stats=false
. Per ulteriori informazioni, consulta Statistiche in Hivenella documentazione di Apache Hive.
Rilascio 5.11.0
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.11.0. Le modifiche sono relative al rilascio di Amazon EMR 5.10.0.
Aggiornamenti
Le seguenti applicazioni e componenti sono stati aggiornati in questo rilascio per includere le seguenti versioni.
-
Hive 2.3.2
-
Spark 2.2.1
-
SDK per Java: 1.11.238
Nuove funzionalità
-
Spark
-
Aggiunta l'impostazione
spark.decommissioning.timeout.threshold
che migliora il comportamento di disattivazione di Spark quando si utilizzano istanze Spot. Per ulteriori informazioni, consulta Configurazione del comportamento di disattivazione di nodi. -
Aggiunto a Spark il componente
aws-sagemaker-spark-sdk
, che installa Amazon SageMaker Spark e le dipendenze associate per l'integrazione di Spark con Amazon SageMaker. Puoi utilizzare Amazon SageMaker Spark per configurare le pipeline di machine learning (ML) di Spark utilizzando le fasi di Amazon SageMaker. Per ulteriori informazioni, consulta il File readme di SageMaker Spark su GitHub e Utilizzo di Apache Spark con Amazon SageMaker nella Guida per lo sviluppatore di Amazon SageMaker.
-
Problemi noti
-
MXNet non include le librerie OpenCV.
-
Per impostazione predefinita, Hive 2.3.2 è impostato su
hive.compute.query.using.stats=true
. Questo fa sì che le query individuino i dati dalle statistiche esistenti anziché direttamente dai dati, il che potrebbe creare confusione. Ad esempio, se hai una tabella conhive.compute.query.using.stats=true
e carichi nuovi file sulla tabellaLOCATION
, se esegui una querySELECT COUNT(*)
sulla tabella ti restituisce il conto delle statistiche e non tiene in considerazione le righe aggiunte.Una soluzione consiste nell'usare il comando
ANALYZE TABLE
per raccogliere nuove statistiche o impostarehive.compute.query.using.stats=false
. Per ulteriori informazioni, consulta Statistiche in Hivenella documentazione di Apache Hive.
Rilascio 5.10.0
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.10.0. Le modifiche sono relative al rilascio di Amazon EMR 5.9.0.
Aggiornamenti
Le seguenti applicazioni e componenti sono stati aggiornati in questo rilascio per includere le seguenti versioni.
-
AWS SDK for Java 1.11.221
-
Hive 2.3.1
-
Presto 0.187
Nuove funzionalità
-
Aggiunto supporto per l'autenticazione Kerberos. Per ulteriori informazioni, consulta Utilizzo dell'autenticazione Kerberos nella Guida alla gestione di Amazon EMR
-
Aggiunto supporto per i ruoli IAM per richieste EMRFS ad Amazon S3. Per ulteriori informazioni, consulta Configurazione dei ruoli IAM per le richieste EMRFS ad Amazon S3 nella Guida alla gestione di Amazon EMR.
-
Aggiunto supporto per i tipi di istanza P2 e P3 basati su GPU. Per ulteriori informazioni, consulta Istanze P2 di Amazon EC2
e Istanze P3 di Amazon EC2 . NVIDIA driver 384.81 e CUDA driver 9.0.176 sono installati su questi tipi di istanza per impostazione predefinita. -
Aggiunta del supporto per Apache MXNet.
Modifiche, miglioramenti e problemi risolti
-
Presto
-
Aggiunto supporto per l'utilizzo di AWS Glue Data Catalog come metastore predefinito di Hive. Per ulteriori informazioni, consulta Utilizzo di Presto con AWS Glue Data Catalog.
-
Aggiunto supporto per funzioni geospaziali
. -
Aggiunto supporto spill to disk
per join. -
Aggiunto supporto per il connettore Redshift
.
-
-
Spark
-
Backport per SPARK-20640
, che rende il timeout rcp e i tentativi per i valori di registrazione shuffle configurabili utilizzando le spark.shuffle.registration.timeout
spark.shuffle.registration.maxAttempts
proprietà. -
Backport per SPARK-21549
, che corregge un errore che avviene durante la scrittura di OutputFormat personalizzato su percorsi non-HDFS.
-
-
Backport per Hadoop-13270
-
Le librerie Numpy, Scipy e Matplotlib sono state rimosse dall'AMI di base di Amazon EMR. Se hai bisogno di queste librerie per tua applicazione, sono disponibili nella repository dell'applicazione, così potrai usare un'operazione di bootstrap per installarle su tutti i nodi usando
yum install
. -
L'AMI di base Amazon EMR non dispone più dei pacchetti RPM di applicazione inclusi, per cui i pacchetti RPM non sono più presenti sui nodi cluster. Adesso, le AMI personalizzate e l'AMI di base Amazon EMR fanno riferimento al repository dei pacchetti RPM in Amazon S3.
-
A causa dell'introduzione della fatturazione al secondo in Amazon EC2, il valore predefinito Scale down behavior (Comportamento di dimensionamento verso il basso) è diventato Terminate at task completion (Termina al completamento dell'attività) anziché Terminate at instance hour (Termina all'ora dell'istanza). Per maggiori informazioni, consulta Configurazione del ridimensionamento del cluster.
Problemi noti
-
MXNet non include le librerie OpenCV.
-
Per impostazione predefinita, Hive 2.3.1 è impostato su
hive.compute.query.using.stats=true
. Questo fa sì che le query individuino i dati dalle statistiche esistenti anziché direttamente dai dati, il che potrebbe creare confusione. Ad esempio, se hai una tabella conhive.compute.query.using.stats=true
e carichi nuovi file sulla tabellaLOCATION
, se esegui una querySELECT COUNT(*)
sulla tabella ti restituisce il conto delle statistiche e non tiene in considerazione le righe aggiunte.Una soluzione consiste nell'usare il comando
ANALYZE TABLE
per raccogliere nuove statistiche o impostarehive.compute.query.using.stats=false
. Per ulteriori informazioni, consulta Statistiche in Hivenella documentazione di Apache Hive.
Rilascio 5.9.0
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.9.0. Le modifiche sono relative al rilascio di Amazon EMR 5.8.0.
Data del rilascio: 5 ottobre 2017
Ultimo aggiornamento della caratteristica: 12 ottobre 2017
Aggiornamenti
Le seguenti applicazioni e componenti sono stati aggiornati in questo rilascio per includere le seguenti versioni.
-
AWS SDK for Java versione 1.11.183
-
Flink 1.3.2
-
Hue 4.0.1
-
Pig 0.17.0
-
Presto 0.184
Nuove funzionalità
-
Aggiunto il supporto per Livy (versione 0.4.0-incubazione). Per ulteriori informazioni, consulta Apache Livy.
-
Aggiunto il supporto per Hue Notebook per Spark.
-
Aggiunto supporto per le istanze Amazon EC2 serie i3 (12 ottobre 2017).
Modifiche, miglioramenti e problemi risolti
-
Spark
-
Aggiunto un nuovo set di caratteristiche per garantire che Spark gestisca più elegantemente la terminazione dei nodi a causa di un ridimensionamento manuale o di una richiesta di policy di scalabilità automatica. Per ulteriori informazioni, consulta Configurazione del comportamento di disattivazione di nodi.
-
Viene utilizzato SSL invece di 3DES per la crittografia in transito del servizio di trasferimento dei blocchi, migliorando così le prestazioni dei tipi di istanza Amazon EC2 con AES-NI.
-
Backport per SPARK-21494
.
-
-
Zeppelin
-
Backport per ZEPPELIN-2377
.
-
-
HBase
-
Aggiunta patch HBASE-18533
che permette valori aggiuntivi per la configurazione HBase BucketCache utilizzando la classificazione della configurazione hbase-site
.
-
-
Hue
-
Aggiunto il supporto AWS Glue Data Catalog per l'editor delle query Hive su Hue.
-
Per impostazione predefinita, i superuser su Hue possono accedere a tutti i file a cui hanno accesso i ruoli IAM di Amazon EMR. Gli utenti appena creati non dispongono automaticamente delle autorizzazioni per accedere al filebrowser Amazon S3 e devono disporre delle autorizzazioni
filebrowser.s3_access
attivate per il proprio gruppo.
-
-
Risolto un problema che causava la non accessibilità ai dati JSON sottostanti creati utilizzando AWS Glue Data Catalog.
Problemi noti
-
L'avvio del cluster non va a buon fine quando tutte le applicazioni sono installate e la dimensione del volume di root Amazon EBS di default non viene modificata. Per risolvere il problema, utilizza il comando
aws emr create-cluster
da AWS CLI e specifica un parametro--ebs-root-volume-size
più grande. -
Per impostazione predefinita, Hive 2.3.0 è impostato su
hive.compute.query.using.stats=true
. Questo fa sì che le query individuino i dati dalle statistiche esistenti anziché direttamente dai dati, il che potrebbe creare confusione. Ad esempio, se hai una tabella conhive.compute.query.using.stats=true
e carichi nuovi file sulla tabellaLOCATION
, se esegui una querySELECT COUNT(*)
sulla tabella ti restituisce il conto delle statistiche e non tiene in considerazione le righe aggiunte.Una soluzione consiste nell'usare il comando
ANALYZE TABLE
per raccogliere nuove statistiche o impostarehive.compute.query.using.stats=false
. Per ulteriori informazioni, consulta Statistiche in Hivenella documentazione di Apache Hive.
Rilascio 5.8.2
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.8.2. Le modifiche sono relative alla versione 5.8.1.
Data del rilascio iniziale: 29 marzo 2018
Modifiche, miglioramenti e problemi risolti
Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere potenziali vulnerabilità.
Rilascio 5.8.1
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.8.1. Le modifiche sono relative al rilascio di Amazon EMR 5.8.0.
Data del rilascio iniziale: 22 gennaio 2018
Modifiche, miglioramenti e problemi risolti
Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere le vulnerabilità associate all'esecuzione speculativa (CVE-2017-5715, CVE-2017-5753 e CVE-2017-5754). Per ulteriori informazioni, consulta http://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Rilascio 5.8.0
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.8.0. Le modifiche sono relative al rilascio di Amazon EMR 5.7.0.
Data del rilascio iniziale: 10 agosto 2017
Ultimo aggiornamento della caratteristica: 25 settembre 2017
Aggiornamenti
Le seguenti applicazioni e componenti sono stati aggiornati in questo rilascio per includere le seguenti versioni:
-
AWS SDK 1.11.160
-
Flink 1.3.1
-
Hive 2.3.0. Per ulteriori informazioni, consulta Release notes (Note di rilascio)
sul sito di Apache Hive. -
Spark 2.2.0. Per ulteriori informazioni, consulta Release notes (Note di rilascio)
sul sito di Apache Spark.
Nuove funzionalità
-
Aggiunto supporto per la visualizzazione della cronologia dell'applicazione (25 settembre 2017). Per ulteriori informazioni, consulta Visualizzazione della cronologia dell'applicazione nella Guida alla gestione di Amazon EMR.
Modifiche, miglioramenti e problemi risolti
-
Integrazione con Glue Data Catalog di AWS
-
Aggiunta funzionalità che permette a Hive e Spark SQL di utilizzare AWS Glue Data Catalog come archivio dei metadati di Hive. Per ulteriori informazioni, consulta Utilizzo di AWS Glue Data Catalog come metastore Hive e Utilizzare AWS Glue Data Catalog come metastore Spark SQL.
-
-
Aggiunto Application history (Cronologia dell'applicazione) ai dettagli del cluster, il che ti permette di visualizzare i dati cronologici delle applicazioni YARN e i dettagli aggiuntivi per le applicazioni Spark. Per ulteriori informazioni, consulta Visualizzazione della cronologia dell'applicazione nella Guida alla gestione di Amazon EMR.
-
Oozie
-
Backport per OOZIE-2748
.
-
-
Hue
-
Backport per HUE-5859
-
-
HBase
-
Aggiunta patch per esporre il tempo di avvio del server master HBase tramite le Java Management Extensions (JMX) utilizzando
getMasterInitializedTime
. -
Aggiunta patch che migliora il tempo di avvio del cluster.
-
Problemi noti
-
L'avvio del cluster non va a buon fine quando tutte le applicazioni sono installate e la dimensione del volume di root Amazon EBS di default non viene modificata. Per risolvere il problema, utilizza il comando
aws emr create-cluster
da AWS CLI e specifica un parametro--ebs-root-volume-size
più grande. -
Per impostazione predefinita, Hive 2.3.0 è impostato su
hive.compute.query.using.stats=true
. Questo fa sì che le query individuino i dati dalle statistiche esistenti anziché direttamente dai dati, il che potrebbe creare confusione. Ad esempio, se hai una tabella conhive.compute.query.using.stats=true
e carichi nuovi file sulla tabellaLOCATION
, se esegui una querySELECT COUNT(*)
sulla tabella ti restituisce il conto delle statistiche e non tiene in considerazione le righe aggiunte.Una soluzione consiste nell'usare il comando
ANALYZE TABLE
per raccogliere nuove statistiche o impostarehive.compute.query.using.stats=false
. Per ulteriori informazioni, consulta Statistiche in Hivenella documentazione di Apache Hive. -
Spark: quando si utilizza Spark, c'è un problema di perdita del gestore di file con il daemon apppusher, che può apparire per un processo Spark a esecuzione prolungata dopo diverse ore o giorni. Per risolvere il problema, connettiti al nodo master e digita
sudo /etc/init.d/apppusher stop
. Questa azione arresta l'apppusher daemon, che Amazon EMR riavvierà automaticamente. -
Cronologia dell'applicazione
-
I dati cronologici per gli executor Spark terminati non sono disponibili.
-
La cronologia dell'applicazione non è disponibile per i cluster che utilizzano una configurazione di sicurezza per attivare la crittografia in-flight.
-
Rilascio 5.7.0
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.7.0. Le modifiche sono relative al rilascio di Amazon EMR 5.6.0.
Data del rilascio: 13 luglio 2017
Aggiornamenti
-
Flink 1.3.0
-
Phoenix 4.11.0
-
Zeppelin 0.7.2
Nuove funzionalità
-
Aggiunta la capacità di specificare un Amazon Linux AMI quando crei un cluster. Per ulteriori informazioni, consulta Utilizzo di un'AMI personalizzata.
Modifiche, miglioramenti e problemi risolti
-
HBase
-
Aggiunta la capacità di configurare la replica di lettura ai cluster di HBase. Consulta Utilizzo della replica di lettura al cluster.
-
Numerosi miglioramenti e correzioni dei bug.
-
-
Presto: aggiunta la possibilità di configurare
node.properties
. -
YARN: aggiunta la possibilità di configurare
container-log4j.properties
. -
Sqoop: backport per SQOOP-2880
, che introduce un argomento che ti permette di impostare la directory temporanea di Sqoop.
Rilascio 5.6.0
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.6.0. Le modifiche sono relative al rilascio di Amazon EMR 5.5.0.
Data del rilascio: 5 giugno 2017
Aggiornamenti
-
Flink 1.2.1
-
HBase 1.3.1
-
Mahout 0.13.0. Questa è la prima versione di Mahout che supporta Spark 2.x in Amazon EMR versione 5.0 e successive.
-
Spark 2.1.1
Modifiche, miglioramenti e problemi risolti
-
Presto
-
Aggiunta la capacità di attivare la comunicazione sicura SSL/TLS tra i nodi Presto attivando la cifratura in transito tramite la configurazione di sicurezza. Per maggiori informazioni, consulta Cifratura dei dati in transito.
-
Backport per Presto 7661
che aggiunge l'opzione VERBOSE
all'istruzioneEXPLAIN ANALYZE
per comunicare statistiche più dettagliate di basso livello relative a un piano di query.
-
Rilascio 5.5.3
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.5.3. Le modifiche sono relative alla versione 5.5.2.
Data del rilascio iniziale: 29 agosto 2018
Modifiche, miglioramenti e problemi risolti
Questo rilascio risolve una potenziale vulnerabilità di sicurezza.
Rilascio 5.5.2
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.5.2. Le modifiche sono relative alla versione 5.5.1.
Data del rilascio iniziale: 29 marzo 2018
Modifiche, miglioramenti e problemi risolti
Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere potenziali vulnerabilità.
Rilascio 5.5.1
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.5.1. Le modifiche sono relative al rilascio di Amazon EMR 5.5.0.
Data del rilascio iniziale: 22 gennaio 2018
Modifiche, miglioramenti e problemi risolti
Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere le vulnerabilità associate all'esecuzione speculativa (CVE-2017-5715, CVE-2017-5753 e CVE-2017-5754). Per ulteriori informazioni, consulta http://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Rilascio 5.5.0
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.5.0. Le modifiche sono relative al rilascio di Amazon EMR 5.4.0.
Data del rilascio: 26 aprile 2017
Aggiornamenti
-
Hue 3.12
-
Presto 0.170
-
Zeppelin 0.7.1
-
ZooKeeper 3.4.10
Modifiche, miglioramenti e problemi risolti
-
Spark
-
Backport per Spark Patch (SPARK-20115) Fix DAGScheduler per ricalcolare tutti i blocchi shuffle perduti durante la non disponibilità del servizio shuffle esterno
alla versione 2.1.0 di Spark, che è inclusa in questo rilascio.
-
-
Flink
-
Flink ora è integrato con Scala 2.11. Se utilizzi le API e le librerie Scala, ti consigliamo di utilizzare Scala 2.11 nei tuoi progetti.
-
Gestito un problema in cui i valori predefiniti di
HADOOP_CONF_DIR
eYARN_CONF_DIR
non erano impostati correttamente, per cuistart-scala-shell.sh
non funzionava. Aggiunta inoltre la capacità di impostare tali valori usandoenv.hadoop.conf.dir
eenv.yarn.conf.dir
in/etc/flink/conf/flink-conf.yaml
o la classificazione della configurazioneflink-conf
. -
Introdotto un nuovo comando specifico per EMR,
flink-scala-shell
come wrapper perstart-scala-shell.sh
. Ti consigliamo di usare questo comando anzichéstart-scala-shell
. Il nuovo comando semplifica l'esecuzione. Ad esempio,flink-scala-shell -n 2
avvia uno shell Flink Scala con un parallelismo dell'attività di 2. -
Introdotto un nuovo comando specifico per EMR,
flink-yarn-session
come wrapper peryarn-session.sh
. Ti consigliamo di usare questo comando anzichéyarn-session
. Il nuovo comando semplifica l'esecuzione. Ad esempio,flink-yarn-session -d -n 2
avvia una sessione Flink di lunga durata in uno stato scollegato con due task manager. -
Risolto (FLINK-6125) Commons httpclient non più schermato in Flink 1.2
-
-
Presto
-
Aggiunto supporto per l'autenticazione LDAP. L'utilizzo di LDAP con Presto on Amazon EMR richiede di abilitare l'accesso HTTPS per il coordinatore di Presto (
http-server.https.enabled=true
inconfig.properties
). Per dettagli sulla configurazione, consulta Autenticazione LDAPnella documentazione di Presto. -
Aggiunta del supporto per
SHOW GRANTS
.
-
-
AMI Linux di base di Amazon EMR
-
I rilasci di Amazon EMR sono ora basati su Amazon Linux 2017.03. Per ulteriori informazioni, consulta Note di rilascio dell'AMI Amazon Linux 2017.03
. -
È stato rimosso Python 2.6 dall'immagine Linux di base Amazon EMR. Python 2.7 e 3.4 vengono installati per impostazione predefinita. Puoi installare Python 2.6 manualmente se necessario.
-
Rilascio 5.4.0
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.4.0. Le modifiche sono relative al rilascio di Amazon EMR 5.3.0.
Data di rilascio: 08 marzo 2017
Aggiornamenti
I seguenti aggiornamenti sono disponibili in questo rilascio:
-
Aggiornato a Flink 1.2.0
-
Aggiornato a HBase 1.3.0
-
Aggiornato a Phoenix 4.9.0
Nota
Se effettui l'aggiornamento da una versione precedente di Amazon EMR ad Amazon EMR versione 5.4.0 o successive e utilizzi un'indicizzazione secondaria, effettua l'aggiornamento degli indici locali come descritto nella documentazione su Apache Phoenix
. Amazon EMR rimuove le configurazioni richieste dalla classificazione hbase-site
, ma gli indici devono essere ripopolati. Gli aggiornamenti online e offline degli indici sono supportati. Gli aggiornamenti online sono quelli predefiniti, il che significa che gli indici vengono ripopolati durante la fase di inizializzazione dai client Phoenix della versione 4.8.0 o più grande. Per specificare gli aggiornamenti offline, imposta la configurazionephoenix.client.localIndexUpgrade
su falso nella classificazionephoenix-site
e poi SSH sul nodo master per eseguirepsql [zookeeper] -1
. -
Aggiornato a Presto 0.166
-
Aggiornato a Zeppelin 0.7.0
Modifiche e miglioramenti
Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-5.4.0:
-
Aggiunto supporto per le istanze r4. Consulta Tipi di istanza Amazon EC2
.
Rilascio 5.3.1
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.3.1. Le modifiche sono relative al rilascio di Amazon EMR 5.3.0.
Data di rilascio: 7 febbraio 2017
Modifiche minori alle patch Zeppelin di backport e aggiornamento dell'AMI predefinita per Amazon EMR.
Rilascio 5.3.0
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.3.0. Le modifiche sono relative al rilascio di Amazon EMR 5.2.1.
Data del rilascio: 26 gennaio 2017
Aggiornamenti
I seguenti aggiornamenti sono disponibili in questo rilascio:
-
Aggiornato a Hive 2.1.1
-
Aggiornato a Hue 3.11.0
-
Aggiornato a Spark 2.1.0
-
Aggiornato a Oozie a 4.3.0
-
Aggiornato a Flink 1.1.4
Modifiche e miglioramenti
Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-5.3.0:
-
Aggiunta una patch a Hue che ti permette di utilizzare l'impostazione
interpreters_shown_on_wheel
per configurare che interpreti mostrare per primi sulla ruota di selezione Notebook, indipendentemente dall'ordine nel filehue.ini
. -
Aggiunta la classificazione della configurazione
hive-parquet-logging
, che puoi utilizzare per configurare i valori nel fileparquet-logging.properties
di Hive.
Rilascio 5.2.2
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.2.2. Le modifiche sono relative al rilascio di Amazon EMR 5.2.1.
Data di rilascio: 2 maggio 2017
Problemi noti risolti dai rilasci precedenti
-
Backport per SPARK-194459
, che risolve un problema in cui la lettura da una tabella ORC con colonne char/varchar restituisce un errore.
Rilascio 5.2.1
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.2.1. Le modifiche sono relative al rilascio di Amazon EMR 5.2.0.
Data del rilascio: 29 dicembre 2016
Aggiornamenti
I seguenti aggiornamenti sono disponibili in questo rilascio:
-
Aggiornato a Presto 0.157.1. Per ulteriori informazioni, consulta Presto release notes (Note di rilascio di Presto)
nella documentazione di Presto. -
Aggiornato a Zookeeper 3.4.9. Per ulteriori informazioni, consulta ZooKeeper release notes (Note di rilascio di ZooKeeper)
nella documentazione di Apache ZooKeeper.
Modifiche e miglioramenti
Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-5.2.1:
-
Aggiunto supporto per il tipo di istanza Amazon EC2 m4.16xlarge in Amazon EMR versione 4.8.3 e successive, escluse 5.0.0, 5.0.3 e 5.2.0.
-
I rilasci di Amazon EMR sono ora basati su Amazon Linux 2016.09. Per ulteriori informazioni, consulta http://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
. -
La posizione dei percorsi di configurazione Flink e YARN è ora impostata per default in
/etc/default/flink
e non occorre impostare le variabili di ambienteFLINK_CONF_DIR
eHADOOP_CONF_DIR
quando si eseguono gli script dei driverflink
oyarn-session.sh
per avviare processi Flink. -
Aggiunto supporto per la classe FlinkKinesisConsumer.
Problemi noti risolti dai rilasci precedenti
-
Risolto un problema in Hadoop in cui il thread ReplicationMonitor poteva bloccarsi per molto tempo a causa di un conflitto tra la replica e la cancellazione dello stesso file in un cluster di grandi dimensioni.
-
Risolto un problema in cui ControlledJob#toString restituiva un errore con una null pointer exception (NPE) quando lo stato del processo non era aggiornato correttamente.
Rilascio 5.2.0
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.2.0. Le modifiche sono relative al rilascio di Amazon EMR 5.1.0.
Data del rilascio: 21 novembre 2016
Modifiche e miglioramenti
Le seguenti modifiche e miglioramenti sono disponibili in questo rilascio:
-
Aggiunta la modalità di archiviazione Amazon S3 per HBase.
-
Ti permette di specificare un percorso Amazon S3 per la rootdir HBase. Per ulteriori informazioni, consulta HBase su Amazon S3.
Aggiornamenti
I seguenti aggiornamenti sono disponibili in questo rilascio:
-
Aggiornato a Spark 2.0.2
Problemi noti risolti dai rilasci precedenti
-
Risolto un problema con /mnt vincolato a 2 TB sui tipi di istanza solo EBS.
-
Risolto un problema con il controller dell'istanza e i log logpusher che venivano indirizzati ai file .out corrispondenti anziché ai normali file .log log4j-configured, che ruotano ogni ora. I file .out non ruotano e questo determinerà il riempimento della partizione /emr. Questo problema interessa soltanto i tipi di istanza hardware virtual machine (HVM).
Rilascio 5.1.0
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.1.0. Le modifiche sono relative al rilascio di Amazon EMR 5.0.0.
Data del rilascio: 03 novembre 2016
Modifiche e miglioramenti
Le seguenti modifiche e miglioramenti sono disponibili in questo rilascio:
-
Aggiunto supporto per Flink 1.1.3.
-
Presto è stato aggiunto come opzione nella sezione notebook di Hue.
Aggiornamenti
I seguenti aggiornamenti sono disponibili in questo rilascio:
-
Aggiornato a HBase 1.2.3
-
Aggiornato a Zeppelin 0.6.2
Problemi noti risolti dai rilasci precedenti
-
Risolto un problema con le query Tez su Amazon S3 con i file ORC: la query non veniva eseguita correttamente come nelle precedenti versioni di Amazon EMR 4.x.
Rilascio 5.0.3
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.0.3. Le modifiche sono relative al rilascio di Amazon EMR 5.0.0.
Data del rilascio: 24 ottobre 2016
Aggiornamenti
I seguenti aggiornamenti sono disponibili in questo rilascio:
-
Aggiornato a Hadoop 2.7.3
-
Aggiornato a Presto 0.152.3, che include il supporto per l'interfaccia Web di Presto. Puoi accedere all'interfaccia Web di Presto sulla porta di utilizzo del coordinatore di Presto 8889. Per ulteriori informazioni sull'interfaccia Web di Presto, consulta Web interface (Interfaccia Web)
nella documentazione di Presto. -
Aggiornato a Spark 2.0.1
-
I rilasci di Amazon EMR sono ora basati su Amazon Linux 2016.09. Per ulteriori informazioni, consulta http://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
.
Rilascio 5.0.0
Data del rilascio: 27 luglio 2016
Aggiornamenti
I seguenti aggiornamenti sono disponibili in questo rilascio:
-
Aggiornato a Hive 2.1
-
Aggiornato a Presto 0.150
-
Aggiornato a Spark 2.0
-
Aggiornato a Hue 3.10.0
-
Aggiornato a Pig 0.16.0
-
Aggiornato a Tez 0.8.4
-
Aggiornato a Zeppelin 0.6.1
Modifiche e miglioramenti
Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-5.0.0 o superiore:
-
Amazon EMR supporta le ultime versioni open source di Hive (versione 2.1) e di Pig (versione 0.16.0). Se in passato hai utilizzato Hive o Pig su Amazon EMR, questo potrebbe interessare alcuni casi d'uso. Per ulteriori informazioni, consulta Hive e Pig.
-
Il motore di esecuzione di default per Hive e Pig ora è Tez. Per modificarlo, devi cambiare i valori appropriati nelle classificazioni della configurazione rispettivamente di
hive-site
epig-properties
. -
Una caratteristica di debugging della fase potenziata è stata aggiunta per permetterti di vedere la causa sottostante degli errori della fase se il servizio è in grado di determinare la causa. Per ulteriori informazioni, consulta Debug migliorato delle fasi nella Guida alla gestione di Amazon EMR.
-
Le applicazioni che in precedenza terminavano con "-Sandbox" non avranno più quel suffisso. Questo potrebbe spezzare la tua automazione, ad esempio, se stai utilizzando gli script per lanciare i cluster con queste applicazioni. La seguente tabella mostra i nomi dell'applicazione in Amazon EMR 4.7.2 rispetto ad Amazon EMR 5.0.0.
Modifiche al nome dell'applicazioneAmazon EMR 4.7.2 Amazon EMR 5.0.0 Oozie-Sandbox Oozie Presto-Sandbox Presto Sqoop-Sandbox Sqoop Zeppelin-Sandbox Zeppelin ZooKeeper-Sandbox ZooKeeper -
Spark è compilato per Scala 2.11.
-
Java 8 è il JVM di default. Tutte le applicazioni vengono eseguite utilizzando il runtime di Java 8. Non ci sono modifiche al target del bytecode dell'applicazione. La maggior parte delle applicazioni continua a scegliere come target Java 7.
-
Zeppelin ora include le caratteristiche di autenticazione. Per ulteriori informazioni, consulta Zeppelin.
-
Aggiunto supporto per le configurazioni di sicurezza che ti permettono di creare e applicare le opzioni di cifratura più facilmente. Per ulteriori informazioni, consulta Crittografia dei dati.
Rilascio 4.9.5
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 4.9.5. Le modifiche sono relative alla versione 4.9.4.
Data del rilascio iniziale: 29 agosto 2018
Modifiche, miglioramenti e problemi risolti
HBase
Questo rilascio risolve una potenziale vulnerabilità di sicurezza.
Rilascio 4.9.4
Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 4.9.4. Le modifiche sono relative alla versione 4.9.3.
Data del rilascio iniziale: 29 marzo 2018
Modifiche, miglioramenti e problemi risolti
Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere potenziali vulnerabilità.
Rilascio 4.9.3
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.9.3. Le modifiche sono relative al rilascio di Amazon EMR 4.9.2.
Data del rilascio iniziale: 22 gennaio 2018
Modifiche, miglioramenti e problemi risolti
Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere le vulnerabilità associate all'esecuzione speculativa (CVE-2017-5715, CVE-2017-5753 e CVE-2017-5754). Per ulteriori informazioni, consulta http://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Rilascio 4.9.2
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.9.2. Le modifiche sono relative al rilascio di Amazon EMR 4.9.1.
Data del rilascio: 13 luglio 2017
Modifiche minori, correzioni dei bug e miglioramenti sono stati effettuati in questo rilascio.
Rilascio 4.9.1
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.9.1. Le modifiche sono relative al rilascio di Amazon EMR 4.8.4.
Data del rilascio: 10 aprile 2017
Problemi noti risolti dai rilasci precedenti
-
Backport di HIVE-9976
e HIVE-10106 -
Risolto un problema in YARN in cui un numero elevato di nodi (superiore a 2000) e di container (superiore a 5000) causa un errore di esaurimento della memoria, ad esempio:
"Exception in thread 'main' java.lang.OutOfMemoryError"
.
Modifiche e miglioramenti
Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-4.9.1:
-
I rilasci di Amazon EMR sono ora basati su Amazon Linux 2017.03. Per ulteriori informazioni, consulta http://aws.amazon.com/amazon-linux-ami/2017.03-release-notes/
. -
È stato rimosso Python 2.6 dall'immagine Linux di base Amazon EMR. Puoi installare Python 2.6 manualmente se necessario.
Rilascio 4.8.4
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.8.4. Le modifiche sono relative al rilascio di Amazon EMR 4.8.3.
Data di rilascio: 7 febbraio 2017
Modifiche minori, correzioni dei bug e miglioramenti sono stati effettuati in questo rilascio.
Rilascio 4.8.3
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.8.3. Le modifiche sono relative al rilascio di Amazon EMR 4.8.2.
Data del rilascio: 29 dicembre 2016
Aggiornamenti
I seguenti aggiornamenti sono disponibili in questo rilascio:
-
Aggiornato a Presto 0.157.1. Per ulteriori informazioni, consulta Presto release notes (Note di rilascio di Presto)
nella documentazione di Presto. -
Aggiornato a Spark 1.6.3. Per ulteriori informazioni, consulta Spark release notes (Note di rilascio di Spark)
nella documentazione di Apache Spark. -
Aggiornato a Zookeeper 3.4.9. Per ulteriori informazioni, consulta ZooKeeper release notes (Note di rilascio di ZooKeeper)
nella documentazione di Apache ZooKeeper.
Modifiche e miglioramenti
Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-4.8.3:
-
Aggiunto supporto per il tipo di istanza Amazon EC2 m4.16xlarge in Amazon EMR versione 4.8.3 e successive, escluse 5.0.0, 5.0.3 e 5.2.0.
-
I rilasci di Amazon EMR sono ora basati su Amazon Linux 2016.09. Per ulteriori informazioni, consulta http://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
.
Problemi noti risolti dai rilasci precedenti
-
Risolto un problema in Hadoop in cui il thread ReplicationMonitor poteva bloccarsi per molto tempo a causa di un conflitto tra la replica e la cancellazione dello stesso file in un cluster di grandi dimensioni.
-
Risolto un problema in cui ControlledJob#toString restituiva un errore con una null pointer exception (NPE) quando lo stato del processo non era aggiornato correttamente.
Rilascio 4.8.2
Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.8.2. Le modifiche sono relative al rilascio di Amazon EMR 4.8.0.
Data del rilascio: 24 ottobre 2016
Aggiornamenti
I seguenti aggiornamenti sono disponibili in questo rilascio:
-
Aggiornato a Hadoop 2.7.3
-
Aggiornato a Presto 0.152.3, che include il supporto per l'interfaccia Web di Presto. Puoi accedere all'interfaccia Web di Presto sulla porta di utilizzo del coordinatore di Presto 8889. Per ulteriori informazioni sull'interfaccia Web di Presto, consulta Web interface (Interfaccia Web)
nella documentazione di Presto. -
I rilasci di Amazon EMR sono ora basati su Amazon Linux 2016.09. Per ulteriori informazioni, consulta http://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
.
Rilascio 4.8.0
Data del rilascio: 7 settembre 2016
Aggiornamenti
I seguenti aggiornamenti sono disponibili in questo rilascio:
-
Aggiornato a HBase 1.2.2
-
Aggiornato a Presto-Sandbox 0.151
-
Aggiornato a Tez 0.8.4
-
Aggiornato a Zeppelin-Sandbox 0.6.1
Modifiche e miglioramenti
Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-4.8.0:
-
Risolto un problema con YARN dove ApplicationMaster cercava di pulire i container che non esistono più perché le loro istanze sono state terminate.
-
Corrette le azioni hive-server2 URL per Hive2 negli esempi Oozie.
-
Aggiunto supporto per i cataloghi Presto aggiuntivi.
-
Backport per patch: HIVE-8948
, HIVE-12679 , HIVE-13405 , PHOENIX-3116 , HADOOP-12689 -
Aggiunto supporto per le configurazioni di sicurezza che ti permettono di creare e applicare le opzioni di cifratura più facilmente. Per ulteriori informazioni, consulta Crittografia dei dati.
Rilascio 4.7.2
Le seguenti note di rilascio includono informazioni su Amazon EMR 4.7.2.
Data del rilascio: 15 luglio 2016
Funzionalità
Le seguenti caratteristiche sono disponibili in questo rilascio:
-
Aggiornato a Mahout 0.12.2
-
Aggiornato a Presto 0.148
-
Aggiornato a Spark 1.6.2
-
Ora puoi creare un AWSCredentialsProvider da utilizzare con EMRFS utilizzando un URI come parametro. Per ulteriori informazioni, consulta Crea un AWSCredentialsProvider per EMRFS.
-
EMRFS ora consente agli utenti di configurare un endpoint DynamoDB personalizzato per i metadata Consistent View (Visualizzazione coerente) utilizzando la proprietà
fs.s3.consistent.dynamodb.endpoint
inemrfs-site.xml
. -
Aggiunto uno script in
/usr/bin
chiamatospark-example
, che esegue il wrapping di/usr/lib/spark/spark/bin/run-example
in modo che tu possa eseguire gli esempi direttamente. Ad esempio, per eseguire un esempio SparkPi disponibile con la distribuzione Spark, puoi eseguirespark-example SparkPi 100
dalla riga di comando o utilizzandocommand-runner.jar
come fase nella API.
Problemi noti risolti dai rilasci precedenti
-
Risolto un problema in cui Oozie aveva
spark-assembly.jar
in una posizione non corretta quando Spark era installato, il che portava a un errore durante il lancio delle applicazioni Spark con Oozie. -
Risolto un problema con il logging Spark Log4j-based nei container YARN.
Rilascio 4.7.1
Data del rilascio: 10 giugno 2016
Problemi noti risolti dai rilasci precedenti
-
Risolto un problema che prolungava i tempi di avvio dei cluster lanciati in un VPC con sottoreti private. Il bug interessava soltanto i cluster lanciati con il rilascio di Amazon EMR 4.7.0.
-
Risolto un problema che gestiva in modo non corretto l'elenco dei file in Amazon EMR per i cluster lanciati con il rilascio di Amazon EMR 4.7.0.
Rilascio 4.7.0
Importante
Amazon EMR 4.7.0 è una versione obsoleta. Utilizza invece Amazon EMR 4.7.1 o versioni successive.
Data del rilascio: 2 giugno 2016
Funzionalità
Le seguenti caratteristiche sono disponibili in questo rilascio:
-
Aggiunto Apache Phoenix 4.7.0
-
Aggiunto Apache Tez 0.8.3
-
Aggiornato a HBase 1.2.1
-
Aggiornato a Mahout 0.12.0
-
Aggiornato a Presto 0.147
-
Aggiornato AWS SDK for Java a 1.10.75
-
Il flag finale è stato rimosso dalla proprietà
mapreduce.cluster.local.dir
inmapred-site.xml
per permettere agli utenti di eseguire Pig in modalità locale.
Driver JDBC Amazon Redshift disponibili sul cluster
I driver JDBC Amazon Redshift sono ora inclusi in /usr/share/aws/redshift/jdbc
. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar
è il driver JDBC Amazon Redshift compatibile con 4.1 e /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar
è il driver JDBC Amazon Redshift compatibile con 4.0. Per ulteriori informazioni, consultare Configurazione di una connessione JDBC nella Guida alla gestione di Amazon Redshift.
Java 8
A eccezione di Presto, OpenJDK 1.7 è il JDK di default utilizzato per tutte le applicazioni. Tuttavia, sia OpenJDK 1.7 sia OpenJDK 1.8 sono installati. Per informazioni su come impostare JAVA_HOME
per le applicazioni, consulta Configurazione delle applicazioni per utilizzare Java 8.
Problemi noti risolti dai rilasci precedenti
-
Risolto un problema con il kernel che influiva in modo significativo sulla performance dei volumi Throughput Optimized HDD (st1) EBS per Amazon EMR in emr-4.6.0.
-
Risolto un problema in cui un cluster restituiva un errore se una zona di cifratura HDFS veniva specificata senza scegliere Hadoop come applicazione.
-
Modificata la policy di scrittura HDFS di default da
RoundRobin
aAvailableSpaceVolumeChoosingPolicy
. Alcuni volumi non venivano utilizzati correttamente con la configurazione RoundRobin, il che portava i nodi principali a restituire un errore e alla creazione di HDFS non affidabili. -
Risolto un problema con la CLI EMRFS che causava un'eccezione durante la creazione della tabella dei metadati DynamoDB di default per viste uniformi.
-
Risolto un problema di deadlock in EMRFS che accadeva eventualmente durante le operazioni multiparte di rinomina e copia.
-
Risolto un problema con EMRFS che faceva sì che la dimensione di default di CopyPart fosse 5 MB. Il valore di default è ora di 128 MB.
-
Risolto un problema con la configurazione upstart di Zeppelin che eventualmente ti impediva di poter arrestare il servizio.
-
Risolto un problema con Spark e Zeppelin, che ti impediva di utilizzare lo schema URI
s3a://
perché/usr/lib/hadoop/hadoop-aws.jar
non era caricato correttamente nel rispettivo classpath. -
Backport per HUE-2484
. -
Backport per commit
da Hue 3.9.0 (nessun JIRA esistente) per risolvere un problema con il campione del browser HBase. -
Backport per HIVE-9073
.
Rilascio 4.6.0
Data del rilascio: 21 aprile 2016
Funzionalità
Le seguenti caratteristiche sono disponibili in questo rilascio:
-
Aggiunto HBase 1.2.0
-
Aggiunto Zookeeper-Sandbox 3.4.8
-
Aggiornato a Presto-Sandbox 0.143
-
I rilasci di Amazon EMR sono ora basati su Amazon Linux 2016.03.0. Per ulteriori informazioni, consulta http://aws.amazon.com/amazon-linux-ami/2016.03-release-notes/
.
Problema che riguarda i tipi di volume Throughput Optimized HDD (st1) EBS
Un problema nel kernel Linux versioni 4.2 e superiori influisce in modo significativo sulla performance dei volumi Throughput Optimized HDD (st1) EBS per EMR. Questo rilascio (emr-4.6.0) utilizza kernel versione 4.4.5 per cui è interessato dal problema. Per questo motivo ti consigliamo di non usare emr-4.6.0 se desideri usare i volumi st1 EBS. Puoi utilizzare i rilasci emr-4.5.0 o Amazon EMR precedenti con st1 senza che si crei alcun problema. Inoltre, forniamo la correzione per i rilasci futuri.
Valori di default di Python
Python 3.4 ora è installato di default, ma Python 2.7 rimane la versione di default del sistema. Puoi configurare Python 3.4 come la versione di default del sistema utilizzando un'operazione di bootstrap; puoi anche usare la configurazione API per impostare l'export PYSPARK_PYTHON su /usr/bin/python3.4
nella classificazione spark-env
in modo che interessi la versione di Python utilizzata da PySpark.
Java 8
A eccezione di Presto, OpenJDK 1.7 è il JDK di default utilizzato per tutte le applicazioni. Tuttavia, sia OpenJDK 1.7 sia OpenJDK 1.8 sono installati. Per informazioni su come impostare JAVA_HOME
per le applicazioni, consulta Configurazione delle applicazioni per utilizzare Java 8.
Problemi noti risolti dai rilasci precedenti
-
Risolto un problema in cui il provisioning dell'applicazione poteva restituire un errore in modo casuale a causa della password generata.
-
In precedenza,
mysqld
era installato su tutti i nodi. Ora, è installato soltanto sull'istanza master e solo se l'applicazione scelta includemysql-server
come componente. Attualmente, le seguenti applicazioni includono il componentemysql-server
: HCatalog, Hive, Hue, Presto-Sandbox e Sqoop-Sandbox. -
Modificato
yarn.scheduler.maximum-allocation-vcores
a 80 rispetto al valore di default di 32. Questa scelta risolve un errore introdotto in emr-4.4.0 che si verificava principalmente con Spark durante l'uso dell'opzionemaximizeResourceAllocation
in un cluster il cui tipo di istanza core era uno dei pochi tipi di istanza di grandi dimensioni che hanno i vcore YARN impostati su un valore superiore a 32; tra questi c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge o m4.10xlarge erano interessati dal problema. -
s3-dist-cp ora utilizza EMRFS per tutte le nomine Amazon S3 e non viene più gestito su una directory HDFS temporanea.
-
Risolto un problema con la gestione dell'eccezione per il caricamento in più parti della crittografia lato client.
-
Aggiunta un'opzione per permettere agli utenti di modificare la classe di archiviazione Amazon S3. Per default, l'impostazione è
STANDARD
. L'impostazione della classificazione della configurazioneemrfs-site
èfs.s3.storageClass
e i valori possibili sonoSTANDARD
,STANDARD_IA
eREDUCED_REDUNDANCY
. Per ulteriori informazioni sulle classi di archiviazione, consulta Classi di archiviazione nella Guida per l'utente di Amazon Simple Storage Service.
Rilascio 4.5.0
Data del rilascio: 4 aprile 2016
Funzionalità
Le seguenti caratteristiche sono disponibili in questo rilascio:
-
Aggiornato a Spark 1.6.1
-
Aggiornato a Hadoop 2.7.2
-
Aggiornato a Presto 0.140
-
Aggiunto supporto AWS KMS per la crittografia lato server Amazon S3.
Problemi noti risolti dai rilasci precedenti
-
Risolto un problema in cui i server MySQL e Apache non si riavviavano dopo il riavvio di un nodo.
-
Risolto un problema in cui IMPORT non funzionava correttamente con le tabelle non partizionate archiviate in Amazon S3
-
Risolto un problema con Presto dove si richiedeva che la directory di gestione temporanea fosse
/mnt/tmp
anziché/tmp
quando si scrive sulla tabelle Hive.
Rilascio 4.4.0
Data di rilascio: 14 marzo 2016
Funzionalità
Le seguenti caratteristiche sono disponibili in questo rilascio:
-
Aggiunto HCatalog 1.0.0
-
Aggiunto Sqoop-Sandbox 1.4.6
-
Aggiornato a Presto 0.136
-
Aggiornato a Zeppelin 0.5.6
-
Aggiornato a Mahout 0.11.1
-
Abilitato
dynamicResourceAllocation
per impostazione predefinita. -
Aggiunta una tabella di tutte le classificazioni della configurazione per il rilascio. Per ulteriori informazioni, consulta la tabella sulle classificazioni della configurazione in Configurazione delle applicazioni.
Problemi noti risolti dai rilasci precedenti
-
Risolto un problema in cui l'impostazione
maximizeResourceAllocation
non avrebbe riservato memoria sufficiente per i daemon YARN ApplicationMaster. -
Risolto un problema rilevato con un DNS personalizzato. Se le voci in
resolve.conf
precedono le voci personalizzate fornite, allora le voci personalizzate non sono risolvibili. Questo comportamento è stato influenzato dai cluster in un VPC dove il server di nomi VPC di default era inserito come prima voce inresolve.conf
. -
Risolto un problema in cui il Python di default era spostato nella versione 2.7 e boto non era installato per quella versione.
-
Risolto un problema in cui i container YARN e le applicazioni Spark generavano un file unico del round robin database (rrd) di Ganglia il che portava al collegamento del primo disco al riempimento dell'istanza. Per via di questa correzione, i parametri a livello del container YARN sono stati disattivati così come quelli a livello dell'applicazione Spark.
-
Risolto un problema in log pusher che avrebbe cancellato tutte le cartelle vuote dei log. La conseguenza era che Hive CLI non era in grado di effettuare l'accesso perché log pusher cancellava la cartella vuota
user
sotto/var/log/hive
. -
Risolto un problema che riguardava le importazioni di Hive, che interessava il partizionamento e produceva un errore durante l'importazione.
-
Risolto un problema in cui EMRFS e s3-dist-cp non gestivano correttamente i nomi dei bucket che contengono punti.
-
Modificato un comportamento in EMRFS che prevedeva che nei bucket con funzione Versioni multiple abilitata il file marker
_$folder$
non venisse creato in modo continuo, il che potrebbe portare a un miglioramento delle prestazioni per i bucket con funzione Versioni multiple abilitata. -
Modificato il comportamento in EMRFS in modo tale che non utilizzi i file di istruzione tranne nei casi in cui la crittografia lato client sia abilitata. Se vuoi cancellare i file di istruzione mentre utilizzi la crittografia lato client, puoi configurare la proprietà emrfs-site.xml property,
fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled
, su true. -
Modificata l'aggregazione dei log YARN per conservare i log nella destinazione dell'aggregazione per due giorni. La destinazione di default è lo storage HDFS del cluster. Se desideri modificare la durata, modifica il valore di
yarn.log-aggregation.retain-seconds
utilizzando la classificazione della configurazioneyarn-site
durante la creazione del cluster. Come sempre, puoi salvare i log dell'applicazione in Amazon S3 utilizzando il parametrolog-uri
quando crei il cluster.
Patch applicate
Le seguenti patch di progetti open source sono state incluse in questo rilascio:
Rilascio 4.3.0
Data del rilascio: 19 gennaio 2016
Funzionalità
Le seguenti caratteristiche sono disponibili in questo rilascio:
-
Aggiornato a Hadoop 2.7.1
-
Aggiornato a Spark 1.6.0
-
Aggiornato Ganglia a 3.7.2
-
Aggiornato Presto a 0.130
Amazon EMR ha effettuato alcune modifiche a spark.dynamicAllocation.enabled
quando è impostato su true (vero); è false (falso) per impostazione predefinita. Quando è impostato su true, interessa i valori predefiniti definiti dall'impostazione maximizeResourceAllocation
:
-
Se
spark.dynamicAllocation.enabled
è impostato su true,spark.executor.instances
non è impostato damaximizeResourceAllocation
. -
L'impostazione
spark.driver.memory
ora è configurata in base ai tipi di istanza nel cluster in modo simile a come è impostatospark.executors.memory
. Tuttavia, dato che l'applicazione del driver di Spark potrebbe essere eseguita o sull'istanza master o su una delle istanze core (ad esempio, nelle modalità client YARN e cluster, rispettivamente), l'impostazionespark.driver.memory
è definita in base al tipo di istanza del tipo di istanza più piccola tra questi due gruppi di istanze. -
L'impostazione
spark.default.parallelism
è ora definita al doppio dei core CPU disponibili per i container YARN. Nei rilasci precedenti, era la metà del valore. -
I calcoli per il sovraccarico della memoria allocata ai processi YARN di Spark sono stati modificati per essere più precisi, generando un piccolo aumento della quantità di memoria disponibile per Spark (ovvero,
spark.executor.memory
).
Problemi noti risolti dai rilasci precedenti
-
L'aggregazione dei log YARN ora è abilitata per impostazione predefinita.
-
Risolto un problema in cui i log non venivano inviati al bucket di log Amazon S3 del cluster quando l'aggregazione dei log YARN era abilitata.
-
Le dimensioni del container YARN ora sono di un minimo di 32 su tutti i tipi di nodo.
-
Risolto un problema con Ganglia che provocava un I/O su disco eccessivo sul nodo master nei cluster di grandi dimensioni.
-
Risolto un problema che evitava che i log delle applicazioni venissero trasmessi ad Amazon S3 quando un cluster veniva disattivato.
-
Risolto un problema in EMRFS CLI che faceva sì che alcuni comandi restituissero errori.
-
Risolto un problema con Zeppelin che evitava che le dipendenze venissero caricate nello SparkContext sottostante.
-
Risolto un problema causato dall'emissione di un tentativo di ridimensionamento per aggiungere le istanze.
-
Risolto un problema in Hive dove CREATE TABLE AS SELECT effettua troppe chiamate dell'elenco su Amazon S3.
-
Risolto un problema in cui i cluster di grandi dimensioni non effettuano correttamente il provisioning quando sono istallati Hue, Oozie e Ganglia.
-
Risolto un problema in s3-dist-cp dove avrebbe restituito un codice di uscita diverso zero se avesse restituito un errore.
Patch applicate
Le seguenti patch di progetti open source sono state incluse in questo rilascio:
Rilascio 4.2.0
Data del rilascio: 18 novembre 2015
Funzionalità
Le seguenti caratteristiche sono disponibili in questo rilascio:
-
Aggiunto supporto per Ganglia
-
Aggiornato a Spark 1.5.2
-
Aggiornato a Presto 0.125
-
Aggiornato Oozie a 4.2.0
-
Aggiornato Zeppelin a 0.5.5
-
Aggiornato AWS SDK for Java a 1.10.27
Problemi noti risolti dai rilasci precedenti
-
Risolto un problema con EMRFS CLI dove non utilizzava il nome della tabella dei metadata di default.
-
Risolto un problema che avveniva durante l'uso delle tabelle supportate da ORC in Amazon S3.
-
Risolto un problema che avveniva con una mancanza di corrispondenza della versione di Python nella configurazione di Spark.
-
Risolto un problema quando lo stato di un nodo YARN non riusciva a effettuare il report a causa di problemi di DNS per i cluster in un VPC.
-
Risolto un problema che si verificava quando YARN disattivava i nodi, generando applicazioni bloccate o impedendo di programmare nuove applicazioni.
-
Risolto un problema che si verificava quando i cluster terminavano con lo stato TIMED_OUT_STARTING.
-
Risolto un problema che si verificava quando si include la dipendenza di EMRFS Scala in altre compilazioni. La dipendenza da Scala è stata rimossa.