Archivio delle note di rilascio di Amazon EMR - Amazon EMR

Archivio delle note di rilascio di Amazon EMR

Le note di rilascio per tutti i rilasci di Amazon EMR sono disponibili di seguito. Per informazioni complete su ogni rilascio, consulta le sezioni Versioni di rilascio di Amazon EMR 6.x, Versioni del rilascio di Amazon EMR 5.x e Versioni del rilascio di Amazon EMR 4.x.

Iscriviti al feed RSS per le note di rilascio di Amazon EMR all'indirizzo https://docs.aws.amazon.com/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss per ricevere aggiornamenti quando è disponibile un nuovo rilascio di Amazon EMR.

Versione 6.14.0

Le seguenti note di rilascio includono informazioni relative alla versione 6.14.0 di Amazon EMR. Le modifiche sono relative alla versione 6.13.0. Per ulteriori informazioni sulla tempistica di pubblicazione, consulta il Log delle modifiche.

Nuove funzionalità di
  • Amazon EMR 6.14.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-2, Flink 1.17.1, Iceberg 1.3.1, and Trino 422.

  • La scalabilità gestita di Amazon EMR è ora disponibile nella regione ap-southeast-3 Asia Pacific (Giacarta) per i cluster creati con Amazon EMR 6.14.0 e versioni successive.

Modifiche, miglioramenti e problemi risolti
  • La versione 6.14.0 ottimizza la gestione dei log con Amazon EMR in esecuzione su Amazon EC2. Di conseguenza, potresti notare una leggera riduzione dei costi di archiviazione per i log del cluster.

  • La versione 6.14.0 migliora il flusso di lavoro di dimensionamento per tenere conto delle diverse istanze principali che presentano una variazione sostanziale delle dimensioni dei loro volumi Amazon EBS. Questo miglioramento si applica solo ai nodi principali; le operazioni di riduzione delle dimensioni per i nodi di attività non sono influenzate.

  • La versione 6.14.0 migliora il modo in cui Amazon EMR interagisce con applicazioni open source come Apache Hadoop YARN ResourceManager and HDFS NameNode. Questo miglioramento riduce il rischio di ritardi operativi dovuti nel dimensionamento del cluster e mitiga gli errori di avvio dovuti a problemi di connettività con le applicazioni open source.

  • La versione 6.14.0 ottimizza l'installazione delle applicazioni all'avvio del cluster. Ciò migliora i tempi di avvio del cluster per determinate combinazioni di applicazioni Amazon EMR.

  • La versione 6.14.0 corregge un problema a causa del quale le operazioni di riduzione del cluster potrebbero bloccarsi quando un cluster in esecuzione in un VPC con un dominio personalizzato rileva un riavvio del nodo principale o del nodo attività.

  • Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.

    OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate
    2.0.20230906.0 4.14.322 11 settembre 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv)

Versione 6.13.0

Le seguenti note di rilascio includono informazioni relative alla versione 6.13.0 di Amazon EMR. Le modifiche sono relative alla versione 6.12.0. Per ulteriori informazioni sulla tempistica di pubblicazione, consulta il Log delle modifiche.

Nuove funzionalità di
  • Amazon EMR 6.13.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-1, CUDA Toolkit 11.8.0, and JupyterHub 1.5.0.

Modifiche, miglioramenti e problemi risolti
  • La versione 6.13.0 migliora il daemon di gestione dei log di Amazon EMR per garantire che tutti i log vengano caricati a cadenza regolare su Amazon S3 quando viene emesso un comando di terminazione del cluster. Ciò facilita le terminazioni più rapide dei cluster.

  • La versione 6.13.0 migliora le funzionalità di gestione dei log di Amazon EMR per garantire il caricamento coerente e tempestivo di tutti i file di log su Amazon S3. Ciò avvantaggia in particolare i cluster EMR di lunga durata.

  • Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.

    OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate
    2.0.20230808.0 4.14.320 24 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv)

Versione 6.12.0

Le seguenti note di rilascio includono informazioni relative alla versione 6.12.0 di Amazon EMR. Le modifiche sono relative alla versione 6.11.0. Per ulteriori informazioni sulla tempistica di pubblicazione, consulta il Log delle modifiche.

Nuove funzionalità di
  • Amazon EMR 6.12.0 supports Apache Spark 3.4.0, Apache Spark RAPIDS 23.06.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.1-amzn-0, Apache Iceberg 1.3.0-amzn-0, Trino 414, and PrestoDB 0.281.

  • Le versioni 6.12.0 e successive di Amazon EMR supportano l'integrazione LDAP con Apache Livy, Apache Hive tramite HiveServer2 (HS2), Trino, Presto e Hue. Inoltre, puoi installare Apache Spark e Apache Hadoop su un cluster EMR che utilizza 6.12.0 o versioni successive e configurarli per l'utilizzo di LDAP. Per ulteriori informazioni, consulta Utilizzo dei server Active Directory o LDAP per l'autenticazione con Amazon EMR.

Modifiche, miglioramenti e problemi risolti
  • Le versioni 6.12.0 e successive di Amazon EMR forniscono il supporto di runtime Java 11 per Flink. Per ulteriori informazioni, consulta Configurazione di Flink per l'esecuzione con Java 11.

  • Amazon EMR 6.12.0 supporta tutte le applicazioni con Amazon Corretto 8 per impostazione predefinita, ad eccezione di Trino. Per Trino, Amazon EMR supporta Amazon Corretto 17 per impostazione predefinita a partire dalla versione 6.9.0 di Amazon EMR. Amazon EMR supporta anche alcune applicazioni con Amazon Corretto 11 e 17. Queste applicazioni sono elencate nella seguente tabella. Se desideri modificare la JVM predefinita sul cluster, segui le istruzioni riportate in Configurazione delle applicazioni per l'uso di una macchina virtuale Java specifica per ogni applicazione in esecuzione sul cluster. Puoi utilizzare solo una delle versioni di runtime Java per cluster. Amazon EMR non supporta l'esecuzione di nodi o applicazioni differenti su versioni di runtime diverse sullo stesso cluster.

    Sebbene Amazon EMR supporti Amazon Corretto 11 e 17 su Apache Spark, Apache Hadoop e Apache Hive, le prestazioni potrebbero peggiorare per alcuni carichi di lavoro quando utilizzi queste versioni di Corretto. Consigliamo di testare i carichi di lavoro prima di modificare i valori predefiniti.

    Versioni Java predefinite per le applicazioni in Amazon EMR 6.12
    Applicazione Versione Java/Amazon Corretto (l'impostazione predefinita è in grassetto)
    Delta 17, 11, 8
    Flink 11, 8
    Ganglia 8
    HBase 11, 8
    HCatalog 17, 11, 8
    Hadoop 17, 11, 8
    Hive 17, 11, 8
    Hudi 17, 11, 8
    Iceberg 17, 11, 8
    Livy 17, 11, 8
    Oozie 17, 11, 8
    Phoenix 8
    PrestoDB 8
    Spark 17, 11, 8
    Spark RAPIDS 17, 11, 8
    Sqoop 8
    Tez 17, 11, 8
    Trino 17
    Zeppelin 8
    Pig 8
    Zookeeper 8
  • La versione 6.12.0 aggiunge un nuovo meccanismo di tentativi al flusso di lavoro dimensionabile per i cluster EMR che eseguono Presto o Trino. Questo miglioramento riduce la possibilità che il ridimensionamento del cluster si blocchi a tempo indeterminato a causa di una singola operazione di ridimensionamento con esito negativo. Inoltre, migliora l'utilizzo del cluster, poiché quest'ultimo aumenta e riduce più rapidamente.

  • La versione 6.12.0 corregge un problema a causa del quale le operazioni di riduzione del cluster potrebbero bloccarsi quando un nodo principale sottoposto a una disattivazione graduale perde integrità per qualsiasi motivo prima della completa disattivazione.

  • La versione 6.12.0 migliora la logica di riduzione del cluster in modo che quest'ultimo non tenti di ridurre i nodi principali al di sotto dell'impostazione del fattore di replica HDFS per il cluster. Ciò è in linea con i requisiti di ridondanza dei dati e riduce la possibilità che un'operazione di dimensionamento si blocchi.

  • La versione 6.12.0 migliora le prestazioni e l'efficienza del servizio di monitoraggio dell'integrità per Amazon EMR aumentando la velocità con cui registra le modifiche di stato per le istanze. Questo miglioramento riduce la possibilità di un peggioramento delle prestazioni per i nodi del cluster che eseguono più strumenti client personalizzati o applicazioni di terze parti.

  • La versione 6.12.0 migliora le prestazioni del daemon di gestione dei log sul cluster per Amazon EMR. Di conseguenza, ci sono meno possibilità di ridurre le prestazioni con i cluster EMR che eseguono fasi con elevata simultaneità.

  • Con la versione 6.12.0 di Amazon EMR, il daemon di gestione dei log è stato aggiornato per identificare tutti i log che sono in uso attivo con handle di file aperti sull'archiviazione dell'istanza locale e i processi associati. Questo aggiornamento garantisce che Amazon EMR elimini correttamente i file e recuperi lo spazio di archiviazione dopo la memorizzazione dei log su Amazon S3.

  • La versione 6.12.0 include un miglioramento del daemon di gestione dei log che elimina le directory delle fasi vuote e inutilizzate nel file system del cluster locale. Un numero eccessivo di directory vuote può ridurre le prestazioni dei daemon Amazon EMR e causare un utilizzo eccessivo del disco.

  • La versione 6.12.0 consente la rotazione dei log di YARN Timeline Server. Ciò riduce al minimo gli scenari di utilizzo eccessivo del disco, in particolare per i cluster di lunga durata.

  • La dimensione predefinita del volume root è aumentata a 15 GB in Amazon EMR 6.10.0 e versioni successive. Le versioni precedenti avevano una dimensione predefinita del volume root di 10 GB.

  • Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.

    OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate
    2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv)
    2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv)
    2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)

Versione 6.11.1

Le seguenti note di rilascio includono informazioni relative alla versione 6.11.1 di Amazon EMR. Le modifiche sono relative alla versione 6.11.0. Per ulteriori informazioni sulla tempistica di pubblicazione, consulta il Log delle modifiche.

Modifiche, miglioramenti e problemi risolti
  • A causa di un conflitto di blocco, un nodo può entrare in una situazione di stallo se viene aggiunto o rimosso contemporaneamente al tentativo di disattivazione. Di conseguenza, Hadoop Resource Manager (YARN) non risponde e influisce su tutti i container in entrata e quelli attualmente in esecuzione.

  • Questa versione include una modifica che consente ai cluster ad alta disponibilità di ripristinare lo stato di errore dopo il riavvio.

  • Questa versione include correzioni di sicurezza per Hue e HBase.

  • Questa versione corregge un problema per cui i cluster che eseguono carichi di lavoro su Spark con Amazon EMR potrebbero ricevere silenziosamente risultati errati con contains, startsWith, endsWith e like. Questo problema si verifica quando utilizzi le espressioni su campi partizionati che contengono metadati in Amazon EMR Hive3 Metastore Server (HMS).

  • Questa versione corregge un problema di limitazione (della larghezza di banda della rete) sul lato Glue quando non sono presenti funzioni definite dall'utente (UDF).

  • Questa versione corregge un problema che comporta l'eliminazione dei log dei container tramite il servizio di aggregazione dei log dei nodi prima che il pusher possa inviarli a S3 in caso di disattivazione di YARN.

  • Questa versione corregge un problema con i parametri di FairShare Scheduler quando Node Label è abilitato per Hadoop.

  • Questa versione corregge un problema che influiva sulle prestazioni di Spark quando veniva impostato un valore true predefinito per la configurazione di spark.yarn.heterogeneousExecutors.enabled in spark-defaults.conf.

  • Questa versione corregge un problema a causa del quale Reduce Task non era in grado di leggere i dati shuffle. Il problema ha causato errori nelle query di Hive con un errore di memoria danneggiata.

  • Questa versione aggiunge un nuovo meccanismo di tentativi al flusso di lavoro dimensionabile per i cluster EMR che eseguono Presto o Trino. Questo miglioramento riduce la possibilità che il ridimensionamento del cluster si blocchi a tempo indeterminato a causa di una singola operazione di ridimensionamento con esito negativo. Inoltre, migliora l'utilizzo del cluster, poiché quest'ultimo aumenta e riduce più rapidamente.

  • Questa versione migliora la logica di riduzione del cluster in modo che quest'ultimo non tenti di ridurre i nodi principali al di sotto dell'impostazione del fattore di replica HDFS per il cluster. Ciò è in linea con i requisiti di ridondanza dei dati e riduce la possibilità che un'operazione di dimensionamento si blocchi.

  • Il daemon di gestione dei log è stato aggiornato per identificare tutti i log che sono in uso attivo con handle di file aperti sull'archiviazione dell'istanza locale e i processi associati. Questo aggiornamento garantisce che Amazon EMR elimini correttamente i file e recuperi lo spazio di archiviazione dopo la memorizzazione dei log su Amazon S3.

  • Questa versione include un miglioramento del daemon di gestione dei log che elimina le directory delle fasi vuote e inutilizzate nel file system del cluster locale. Un numero eccessivo di directory vuote può ridurre le prestazioni dei daemon Amazon EMR e causare un utilizzo eccessivo del disco.

  • Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.

    OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate
    2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)

Versione 6.11.0

Le seguenti note di rilascio includono informazioni relative alla versione 6.11.0 di Amazon EMR. Le modifiche sono relative alla versione 6.10.0. Per ulteriori informazioni sulla tempistica di rilascio, consulta il log delle modifiche.

Nuove funzionalità di
  • Amazon EMR 6.11.0 supporta Apache Spark 3.3.2-amzn-0, Apache Spark RAPIDS 23.02.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.0-amzn-0, Apache Iceberg 1.2.0-amzn-0, Trino 410-amzn-0 e PrestoDB 0.279-amzn-0.

Modifiche, miglioramenti e problemi risolti
  • Con Amazon EMR 6.11.0, il connettore DynamoDB è stato aggiornato alla versione 5.0.0. La versione 5.0.0 utilizza AWS SDK for Java 2.x. Le versioni precedenti utilizzavano AWS SDK for Java 1.x. Come risultato di questo aggiornamento, consigliamo vivamente di testare il codice prima di utilizzare il connettore DynamoDB con Amazon EMR 6.11.

  • Quando il connettore DynamoDB per Amazon EMR 6.11.0 chiama il servizio DynamoDB, utilizza il valore della regione fornito per la proprietà di dynamodb.endpoint. Consigliamo di configurare anche dynamodb.region quando utilizzi dynamodb.endpoint e che entrambe le proprietà abbiano come destinazione la stessa Regione AWS. Se utilizzi dynamodb.endpoint e non configuri dynamodb.region, il connettore DynamoDB per Amazon EMR 6.11.0 restituisce un'eccezione della regione non valida e tenta di riconciliare le informazioni della Regione AWS dal servizio di metadati di istanza (IMDS) Amazon EC2. Se il connettore non è in grado di recuperare la regione da IMDS, il valore predefinito è Stati Uniti orientali (Virginia settentrionale) (us-east-1). L'errore seguente è un esempio dell'eccezione della regione non valida che potresti ottenere se non configuri correttamente la proprietà dynamodb.region: error software.amazon.awssdk.services.dynamodb.model.DynamoDbException: Credential should be scoped to a valid region. per ulteriori informazioni sulle classi interessate dall'aggiornamento di AWS SDK for Java a 2.x, consulta il commit Aggiornamento di AWS SDK for Java da 1.x a 2.x (#175) nel repository GitHub per il connettore Amazon EMR - DynamoDB.

  • Questa versione corregge un problema per cui i dati diventano NULL quando utilizzi Delta Lake per archiviare i dati delle tabelle Delta in Amazon S3 dopo l'operazione di ridenominazione delle colonne. Per ulteriori informazioni su questa funzionalità sperimentale di Delta Lake, consulta Operazione di ridenominazione delle colonne nella Guida per l'utente di Delta Lake.

  • La versione 6.11.0 corregge un problema che potrebbe verificarsi quando si crea un nodo edge replicando uno dei nodi primari da un cluster con più nodi primari. Il nodo edge replicato potrebbe causare ritardi nelle operazioni di riduzione o comportare un elevato utilizzo della memoria sui nodi primari. Per ulteriori informazioni su come creare un nodo edge per comunicare con il cluster EMR, consulta Strumento per creare nodi edge nel repository aws-samples su GitHub.

  • La versione 6.11.0 migliora il processo di automazione utilizzato da Amazon EMR per rimontare i volumi Amazon EBS su un'istanza dopo un riavvio.

  • La versione 6.11.0 corregge un problema che causava discontinuità nei parametri Hadoop pubblicati da Amazon EMR su Amazon CloudWatch.

  • La versione 6.11.0 corregge un problema con i cluster EMR per cui un aggiornamento del file di configurazione YARN che contiene l'elenco di esclusione dei nodi per il cluster viene interrotto a causa dell'eccessivo utilizzo del disco. L'aggiornamento incompleto ostacola le future operazioni di riduzione del cluster. Questa versione garantisce l'integrità del cluster e il corretto funzionamento delle operazioni di dimensionamento.

  • La dimensione predefinita del volume root è aumentata a 15 GB in Amazon EMR 6.10.0 e versioni successive. Le versioni precedenti avevano una dimensione predefinita del volume root di 10 GB.

  • Hadoop 3.3.3 ha introdotto una modifica in YARN (YARN-9608) che mantiene i nodi in cui erano in esecuzione i container in uno stato di disattivazione fino al completamento dell'applicazione. Questa modifica assicura che i dati locali, come i dati shuffle, non vadano persi e non è necessario eseguire nuovamente il processo. Questo approccio potrebbe anche portare a un utilizzo insufficiente delle risorse sui cluster con o senza Scalabilità gestita abilitata.

    Con le versioni 6.11.0 e successive di Amazon EMR, nonché 6.8.1, 6.9.1 e 6.10.1, il valore di yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications è impostato su false in yarn-site.xml per risolvere questo problema.

    Sebbene la correzione si occupi dei problemi introdotti da YARN-9608, potrebbe influire sulla corretta esecuzione dei processi di Hive a causa della perdita dei dati shuffle sui cluster con Scalabilità gestita abilitata. In questa versione abbiamo mitigato tale rischio impostando anche yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-shuffle-data per i carichi di lavoro di Hive. Questa configurazione è disponibile solo con Amazon EMR 6.11.0 e versioni successive.

  • Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.

    Nota

    Questa versione non riceve più aggiornamenti automatici delle AMI poiché è stata sostituita da un'altra versione di patch. La versione della patch è indicata dal numero dopo il secondo separatore decimale (6.8.1). Per scoprire se stai utilizzando l'ultima versione della patch, controlla le versioni disponibili nella Guida alle versioni o consulta il menu a discesa Versione Amazon EMR quando crei un cluster nella console o utilizzi l'API ListReleaseLabels o l'operazione list-release-labels nella CLI. Per ricevere aggiornamenti sulle nuove versioni, iscriviti al feed RSS nella pagina Novità.

    OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate
    2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv)
    2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv)
    2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)
    2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)
    2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)

Versione 6.10.0

Le seguenti note di rilascio includono informazioni relative alla versione 6.10.0 di Amazon EMR. Le modifiche sono relative alla versione 6.9.0. Per ulteriori informazioni sulla tempistica di rilascio, consulta il log delle modifiche.

Nuove funzionalità di
  • Amazon EMR 6.10.0 supporta Apache Spark 3.3.1, Apache Spark RAPIDS 22.12.0, CUDA 11.8.0, Apache Hudi 0.12.2-amzn-0, Apache Iceberg 1.1.0-amzn-0, Trino 403 e PrestoDB 0.278.1.

  • Amazon EMR 6.10.0 include un connettore Trino-Hudi nativo che fornisce l'accesso in lettura ai dati nelle tabelle Hudi. Puoi attivare il connettore con trino-cli --catalog hudi e configurarlo in base alle tue esigenze con trino-connector-hudi. L'integrazione nativa con Amazon EMR indica che non è più necessario utilizzare trino-connector-hive per eseguire query sulle tabelle Hudi. Per un elenco delle configurazioni supportate con il nuovo connettore, consulta la pagina Connettori Hudi nella documentazione di Trino.

  • Le versioni 6.10.0 e successive di Amazon EMR supportano l'integrazione di Apache Zeppelin con Apache Flink. Per ulteriori informazioni, consulta Utilizzo dei processi Flink di Zeppelin in Amazon EMR.

Problemi noti
  • Hadoop 3.3.3 ha introdotto una modifica in YARN (YARN-9608) che mantiene i nodi in cui erano in esecuzione i container in uno stato di disattivazione fino al completamento dell'applicazione. Questa modifica assicura che i dati locali, come i dati shuffle, non vadano persi e non è necessario eseguire nuovamente il processo. Questo approccio potrebbe anche portare a un utilizzo insufficiente delle risorse sui cluster con o senza Scalabilità gestita abilitata.

    Per risolvere questo problema in Amazon EMR 6.10.0, puoi impostare il valore di yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications su false in yarn-site.xml. Nelle versioni 6.11.0 e successive di Amazon EMR, nonché 6.8.1, 6.9.1 e 6.10.1, la configurazione è impostata su false per impostazione predefinita per risolvere questo problema.

Modifiche, miglioramenti e problemi risolti
  • Amazon EMR 6.10.0 rimuove la dipendenza da minimal-json.jar per l'integrazione Amazon Redshift per Apache Spark e aggiunge automaticamente i jar necessari relativi a Spark-Redshift al percorso della classe dell'esecutore per Spark: spark-redshift.jar, spark-avro.jar e RedshiftJDBC.jar.

  • La versione 6.10.0 migliora il daemon di gestione dei log sul cluster per monitorare cartelle di log aggiuntive nel cluster EMR. Questo miglioramento riduce al minimo gli scenari di utilizzo eccessivo del disco.

  • La versione 6.10.0 riavvia automaticamente il daemon di gestione dei log sul cluster quando si arresta. Questo miglioramento riduce la possibilità che i nodi appaiano non integri a causa dell'eccessivo utilizzo del disco.

  • Amazon EMR 6.10.0 supporta gli endpoint regionali per la mappatura degli utenti EMRFS.

  • La dimensione predefinita del volume root è aumentata a 15 GB in Amazon EMR 6.10.0 e versioni successive. Le versioni precedenti avevano una dimensione predefinita del volume root di 10 GB.

  • La versione 6.10.0 corregge un problema che causava il blocco dei processi Spark quando tutti gli esecutori Spark rimanenti si trovavano su un host in fase di disattivazione con il gestore di risorse YARN.

  • Con le versioni da 6.6.0 a 6.9.x di Amazon EMR, le query INSERT con partizione dinamica e una clausola ORDER BY o SORT BY avranno sempre due riduttori. Questo problema è causato dalla modifica dell'OSS HIVE-20703, che assoggetta l'ottimizzazione dinamica delle partizioni di ordinamento a una decisione basata sui costi. Se il carico di lavoro non richiede l'ordinamento delle partizioni dinamiche, ti consigliamo di impostare la proprietà hive.optimize.sort.dynamic.partition.threshold su -1 per disabilitare la nuova caratteristica e ottenere il numero di riduttori calcolato correttamente. Questo problema è stato corretto in OSS Hive come parte di HIVE-22269 ed è stato risolto in Amazon EMR 6.10.0.

  • Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.

    Nota

    Questa versione non riceve più aggiornamenti automatici delle AMI poiché è stata sostituita da un'altra versione di patch. La versione della patch è indicata dal numero dopo il secondo separatore decimale (6.8.1). Per scoprire se stai utilizzando l'ultima versione della patch, controlla le versioni disponibili nella Guida alle versioni o consulta il menu a discesa Versione Amazon EMR quando crei un cluster nella console o utilizzi l'API ListReleaseLabels o l'operazione list-release-labels nella CLI. Per ricevere aggiornamenti sulle nuove versioni, iscriviti al feed RSS nella pagina Novità.

    OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate
    2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv)
    2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv)
    2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)
    2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)
    2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)
    2.0.20230418.0 4.14.311 3 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)
    2.0.20230404.1 4.14.311 18 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale), Medio Oriente (Emirati Arabi Uniti)
    2.0.20230404.0 4.14.311 10 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Europa (Parigi)
    2.0.20230320.0 4.14.309 30 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale), Medio Oriente (Emirati Arabi Uniti)
    2.0.20230207.0 4.14.304 22 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale), Medio Oriente (Emirati Arabi Uniti)

Rilascio 6.9.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.9.0. Le modifiche sono relative al rilascio di Amazon EMR 6.8.0. Per ulteriori informazioni sulla tempistica di rilascio, consulta il log delle modifiche.

Nuove caratteristiche
  • Amazon EMR rilascio 6.9.0 supporta Apache Spark RAPIDS 22.08.0, Apache Hudi 0.12.1, Apache Iceberg 0.14.1, Trino 398 e Tez 0.10.2.

  • Amazon EMR rilascio 6.9.0 include una nuova applicazione open source, Delta Lake 2.1.0.

  • L'integrazione di Amazon Redshift per Apache Spark è inclusa in Amazon EMR rilascio 6.9.0 e successivi. In precedenza uno strumento open source, l'integrazione nativa è un connettore Spark che è possibile utilizzare per creare applicazioni Apache Spark in grado di leggere e scrivere dati in Amazon Redshift e Amazon Redshift Serverless. Per ulteriori informazioni, consulta Utilizzo dell'integrazione di Amazon Redshift per Apache Spark su Amazon EMR.

  • Amazon EMR rilascio 6.9.0 aggiunge il supporto per l'archiviazione dei log su Amazon S3 durante la riduzione dei cluster. In precedenza, era possibile archiviare i file di log in Amazon S3 solo durante la terminazione del cluster. La nuova funzionalità garantisce la persistenza su Amazon S3 dei file di log generati nel cluster anche dopo la terminazione del nodo. Per ulteriori informazioni, consulta Configurazione della registrazione e del debug di cluster.

  • Per supportare le query di lunga durata, Trino ora include un meccanismo di esecuzione con tolleranza ai guasti. L'esecuzione con tolleranza ai guasti mitiga gli errori delle query ritentando le query non riuscite o le attività dei loro componenti. Per ulteriori informazioni, consulta Esecuzione con tolleranza ai guasti in Trino.

  • È possibile utilizzare Apache Flink su Amazon EMR per l'elaborazione BATCH e STREAM unificata delle tabelle Apache Hive o dei metadati di qualsiasi origine di tabella Flink, come Iceberg, Kinesis o Kafka. È possibile specificare AWS Glue Data Catalog come metastore per Flink utilizzando la AWS Management Console, la AWS CLI o l'API di Amazon EMR. Per ulteriori informazioni, consulta Configurazione di Flink in Amazon EMR.

  • Ora è possibile specificare i ruoli di runtime AWS Identity and Access Management (IAM) e il controllo degli accessi basato su AWS Lake Formation per Apache Spark, Apache Hive e Presto su Amazon EMR sui cluster EC2 con Amazon SageMaker Studio. Per ulteriori informazioni, consulta Configurazione dei ruoli di runtime per le fasi di Amazon EMR.

Problemi noti
  • Per Amazon EMR rilascio 6.9.0, Trino non funziona su cluster abilitati per Apache Ranger. Se hai la necessità di utilizzare Trino con Ranger, contatta il AWS Support.

  • Se utilizzi l'integrazione di Amazon Redshift per Apache Spark e disponi di un'indicazione temporale time, timez, timestamp o timestamptz con una precisione di microsecondi in formato Parquet, il connettore arrotonda i valori temporali al valore in millisecondi più vicino. Come soluzione alternativa, utilizza il parametro unload_s3_format del formato di scaricamento del testo.

  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

  • Le connessioni ai cluster Amazon EMR da Amazon SageMaker Studio possono fallire in modo intermittente con un codice di risposta 403 Forbidden. Questo errore si verifica quando l'impostazione del ruolo IAM sul cluster richiede più di 60 secondi. Come soluzione alternativa, puoi installare una patch Amazon EMR per consentire nuovi tentativi e aumentare il timeout a un minimo di 300 secondi. Completa la seguente procedura per applicare l'operazione bootstrap all'avvio del cluster.

    1. Scarica lo script di bootstrap e i file RPM tramite i seguenti URL Amazon S3.

      s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/replace-rpms.sh s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/emr-secret-agent-1.18.0-SNAPSHOT20221121212949.noarch.rpm
    2. Carica i file della fase precedente in un bucket Amazon S3 di tua proprietà. Il bucket deve trovarsi nella stessa Regione AWS in cui intendi avviare il cluster.

    3. Includi la seguente operazione di bootstrap durante l'avvio del cluster EMR. Sostituisci bootstrap_URI e RPM_URI con gli URI corrispondenti di Amazon S3.

      --bootstrap-actions "Path=bootstrap_URI,Args=[RPM_URI]"
  • Con le release 5.36.0 e da 6.6.0 a 6.9.0 di Amazon EMR, i componenti dei servizi SecretAgent e RecordServer servizio potrebbero subire una perdita di dati di log a causa di una configurazione errata del modello nome file nelle proprietà Log4j2. Ca sua della configurazione errata, i componenti generano un solo file di log al giorno. Quando si applica la strategia di rotazione, sovrascrive il file esistente invece di generare un nuovo file di log come previsto. Come soluzione alternativa, utilizza un'azione bootstrap per generare file di log ogni ora e accoda un numero intero con incremento automatico nel nome file per gestire la rotazione.

    Per le release da 6.6.0 a 6.9.0 di Amazon EMR, utilizza la seguente azione bootstrap quando avvii un cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Per Amazon EMR 5.36.0, utilizza la seguente azione bootstrap quando avvii un cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
  • Apache Flink fornisce connettori nativi per i file system S3 e Hadoop che consentono alle applicazioni di creare un FileSink e di scrivere i dati in Amazon S3. Questo FileSink fallisce con una delle due eccezioni seguenti.

    java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS
    Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryPolicies.retryOtherThanRemoteAndSaslException(Lorg/apache/hadoop/io/retry/RetryPolicy;Ljava/util/Map;)Lorg/apache/hadoop/io/retry/RetryPolicy; at org.apache.hadoop.yarn.client.RMProxy.createRetryPolicy(RMProxy.java:302) ~[hadoop-yarn-common-3.3.3-amzn-0.jar:?]

    Come soluzione alternativa, puoi installare una patch Amazon EMR, che risolve il problema sopra riportato in Flink. Per applicare l'operazione bootstrap all'avvio del cluster, completa la seguente procedura.

    1. Scarica il flink-rpm nel bucket Amazon S3. Il tuo percorso RPM è s3://DOC-EXAMPLE-BUCKET/rpms/flink/.

    2. Scarica lo script di bootstrap e i file RPM da Amazon S3 utilizzando il seguente URI. Sostituisci regionName con la Regione AWS in cui prevedi di avviare il cluster.

      s3://emr-data-access-control-regionName/customer-bootstrap-actions/gcsc/replace-rpms.sh
    3. Hadoop 3.3.3 ha introdotto una modifica in YARN (YARN-9608) che mantiene i nodi in cui erano in esecuzione i container in uno stato di disattivazione fino al completamento dell'applicazione. Questa modifica assicura che i dati locali, come i dati shuffle, non vadano persi e non è necessario eseguire nuovamente il processo. In Amazon EMR 6.8.0 e 6.9.0, questo approccio potrebbe anche portare a un utilizzo insufficiente delle risorse sui cluster con o senza Scalabilità gestita abilitata.

      Con Amazon EMR 6.10.0, esiste una soluzione alternativa a questo problema per impostare il valore di yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications su false in yarn-site.xml. Nelle versioni 6.11.0 e successive di Amazon EMR, nonché 6.8.1, 6.9.1 e 6.10.1, la configurazione è impostata su false per impostazione predefinita per risolvere questo problema.

Modifiche, miglioramenti e problemi risolti
  • Per la release 6.9.0 e successive di Amazon EMR, tutti i componenti installati da Amazon EMR che utilizzano librerie Log4j utilizzano Log4j versione 2.17.1 o successiva.

  • Quando utilizzi il connettore DynamoDB con Spark nelle versioni 6.6.0, 6.7.0 e 6.8.0 di Amazon EMR, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Amazon EMR rilascio 6.9.0 risolve questo problema.

  • Amazon EMR 6.9.0 aggiunge un supporto limitato per il controllo degli accessi basato su Lake Formation con Apache Hudi durante la lettura dei dati tramite Spark SQL. Il supporto è per le query SELECT che utilizzano Spark SQL ed è limitato al controllo degli accessi a livello di colonna. Per ulteriori informazioni, consulta Hudi e Formation.

  • Quando usi Amazon EMR 6.9.0 per creare un cluster Hadoop con le Etichette nodo abilitate, l'API delle metriche YARN restituisce informazioni aggregate su tutte le partizioni, anziché sulla partizione predefinita. Per ulteriori informazioni, consulta YARN-11414.

  • Con Amazon EMR 6.9.0, abbiamo aggiornato Trino alla versione 398, che utilizza Java 17. La versione precedente supportata di Trino per Amazon EMR 6.8.0 era Trino 388 in esecuzione su Java 11. Per ulteriori informazioni su questa modifica, consulta Aggiornamenti di Trino a Java 17 sul blog di Trino.

  • Questa versione corregge un problema di mancata corrispondenza della sequenza temporale tra Apache BigTop e Amazon EMR nella sequenza di avvio del cluster EC2. Questa mancata corrispondenza della sequenza temporale si verifica quando un sistema tenta di eseguire due o più operazioni contemporaneamente anziché eseguirle nella sequenza corretta. Di conseguenza, alcune configurazioni del cluster hanno registrato timeout di avvio delle istanze e tempi di avvio del cluster più lenti.

  • Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.

    Nota

    Questa versione non riceve più aggiornamenti automatici delle AMI poiché è stata sostituita da un'altra versione di patch. La versione della patch è indicata dal numero dopo il secondo separatore decimale (6.8.1). Per scoprire se stai utilizzando l'ultima versione della patch, controlla le versioni disponibili nella Guida alle versioni o consulta il menu a discesa Versione Amazon EMR quando crei un cluster nella console o utilizzi l'API ListReleaseLabels o l'operazione list-release-labels nella CLI. Per ricevere aggiornamenti sulle nuove versioni, iscriviti al feed RSS nella pagina Novità.

    OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate
    2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv)
    2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale), Israele (Tel Aviv)
    2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230418.0 4.14.311 3 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230404.1 4.14.311 18 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230404.0 4.14.311 10 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Europa (Parigi)
    2.0.20230320.0 4.14.309 30 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230307.0 4.14.305 15 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230207.0 4.14.304 22 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20221210.1 4.14.301 12 gennaio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20221103.3 4.14.296 5 dicembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)

Rilascio 6.8.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.8.0. Le modifiche sono relative alla versione 6.7.0

Nuove caratteristiche
  • Le fasi di Amazon EMR supportano gli endpoint Apache Livy e i client JDBC/ODBC. Per ulteriori informazioni, consulta Configurazione dei ruoli di runtime per le fasi di Amazon EMR.

  • Il rilascio 6.8.0 di Amazon EMR include Spark per Apache HBase 2.4.12. Con questa versione di HBase, è possibile archiviare ed eliminare le tabelle HBase. Il processo di archiviazione di Amazon S3 rinomina tutti i file della tabella nella directory di archivio. Questo processo può essere lungo e costoso. Ora è possibile saltare il processo di archiviazione ed eliminare rapidamente tabelle di grandi dimensioni. Per ulteriori informazioni, consulta Utilizzo della shell HBase.

Problemi noti
  • Hadoop 3.3.3 ha introdotto una modifica in YARN (YARN-9608) che mantiene i nodi in cui erano in esecuzione i container in uno stato di disattivazione fino al completamento dell'applicazione. Questa modifica assicura che i dati locali, come i dati shuffle, non vadano persi e non è necessario eseguire nuovamente il processo. In Amazon EMR 6.8.0 e 6.9.0, questo approccio potrebbe anche portare a un utilizzo insufficiente delle risorse sui cluster con o senza Scalabilità gestita abilitata.

    Con Amazon EMR 6.10.0, esiste una soluzione alternativa a questo problema per impostare il valore di yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications su false in yarn-site.xml. Nelle versioni 6.11.0 e successive di Amazon EMR, nonché 6.8.1, 6.9.1 e 6.10.1, la configurazione è impostata su false per impostazione predefinita per risolvere questo problema.

Modifiche, miglioramenti e problemi risolti
  • Quando i rilasci 6.5.0, 6.6.0 o 6.7.0 di Amazon EMR leggevano le tabelle di Apache Phoenix tramite la shell Apache Spark, Amazon EMR produceva un NoSuchMethodError. Il rilascio 6.8.0 di Amazon EMR risolve questo problema.

  • Il rilascio 6.8.0 di Amazon EMR include Apache Hudi 0.11.1; tuttavia, i cluster Amazon EMR 6.8.0 sono compatibili anche con l'open source hudi-spark3.3-bundle_2.12 di Hudi 0.12.0.

  • Il rilascio 6.8.0 di Amazon EMR con Apache Spark 3.3.0. Questa versione di Spark utilizza Apache Log4j 2 e il file log4j2.properties per configurare Log4j nei processi Spark. Se utilizzi Spark nel cluster o crei cluster EMR con parametri di configurazione personalizzati e desideri eseguire l'aggiornamento alla versione 6.8.0 di Amazon EMR, devi migrare alla nuova classificazione della configurazione e formato chiave spark-log4j2 per Apache Log4j 2. Per ulteriori informazioni, consulta Migrazione da Apache Log4j 1.x a Log4j 2.x.

  • Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.

    Nota

    Questa versione non riceve più aggiornamenti automatici delle AMI poiché è stata sostituita da un'altra versione di patch. La versione della patch è indicata dal numero dopo il secondo separatore decimale (6.8.1). Per scoprire se stai utilizzando l'ultima versione della patch, controlla le versioni disponibili nella Guida alle versioni o consulta il menu a discesa Versione Amazon EMR quando crei un cluster nella console o utilizzi l'API ListReleaseLabels o l'operazione list-release-labels nella CLI. Per ricevere aggiornamenti sulle nuove versioni, iscriviti al feed RSS nella pagina Novità.

    OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate
    2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Asia Pacifico (Melbourne), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)
    2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230418.0 4.14.311 3 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230404.1 4.14.311 18 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230404.0 4.14.311 10 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Europa (Parigi)
    2.0.20230320.0 4.14.309 30 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230307.0 4.14.305 15 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230207.0 4.14.304 22 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230119.1 4.14.301 3 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20221210.1 4.14.301 22 dicembre 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20221103.3 4.14.296 5 dicembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20221004.0 4.14.294 2 novembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20220912.1 4.14.291 6 settembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
Problemi noti
  • Quando usi il connettore DynamoDB con Spark nelle versioni di Amazon EMR 6.6.0, 6.7.0 e 6.8.0, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Questo perché Spark 3.2.0 imposta spark.hadoopRDD.ignoreEmptySplits su true di default. Come soluzione alternativa, imposta esplicitamente spark.hadoopRDD.ignoreEmptySplits su false. Amazon EMR rilascio 6.9.0 risolve questo problema.

  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

  • Con le release 5.36.0 e da 6.6.0 a 6.9.0 di Amazon EMR, i componenti dei servizi SecretAgent e RecordServer servizio potrebbero subire una perdita di dati di log a causa di una configurazione errata del modello nome file nelle proprietà Log4j2. Ca sua della configurazione errata, i componenti generano un solo file di log al giorno. Quando si applica la strategia di rotazione, sovrascrive il file esistente invece di generare un nuovo file di log come previsto. Come soluzione alternativa, utilizza un'azione bootstrap per generare file di log ogni ora e accoda un numero intero con incremento automatico nel nome file per gestire la rotazione.

    Per le release da 6.6.0 a 6.9.0 di Amazon EMR, utilizza la seguente azione bootstrap quando avvii un cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Per Amazon EMR 5.36.0, utilizza la seguente azione bootstrap quando avvii un cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

Per ulteriori informazioni sulla tempistica di rilascio, consulta il log delle modifiche.

Rilascio 6.7.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.7.0. Le modifiche sono relative alla versione 6.6.0.

Data del rilascio iniziale: 15 luglio 2022

Nuove caratteristiche
  • Amazon EMR ora supporta Apache Spark 3.2.1, Apache Hive 3.1.3, HUDI 0.11, PrestoDB 0.272 e Trino 0.378.

  • Supporta i controlli degli accessi basati su ruoli IAM e Lake Formation con fasi EMR (Spark, Hive) per Amazon EMR sui cluster EC2.

  • Supporta le istruzioni di definizione dei dati Apache Spark su cluster abilitati Apache Ranger. Adesso, include il supporto per le applicazioni Trino che leggono e scrivono metadati Apache Hive su cluster abilitati Apache Ranger. Per ulteriori informazioni, consulta la sezione Abilitazione della governance federata utilizzando Trino e Apache Ranger su Amazon EMR.

  • Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.

    OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate
    2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)
    2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230418.0 4.14.311 3 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230404.1 4.14.311 18 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230404.0 4.14.311 10 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Europa (Parigi)
    2.0.20230320.0 4.14.309 30 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230307.0 4.14.305 15 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230207.0 4.14.304 22 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230119.1 4.14.301 3 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20221210.1 4.14.301 22 dicembre 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20221103.3 4.14.296 5 dicembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20221004.0 4.14.294 2 novembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20220912.1 4.14.291 7 ottobre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20220719.0 4.14.287 10 agosto 2022 us‑west‑1, eu‑west‑3, eu‑north‑1, ap‑south‑1, me‑south‑1
    2.0.20220606.1 4.14.281 15 luglio 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
Problemi noti
  • Quando le release 6.5.0, 6.6.0 o 6.7.0 di Amazon EMR leggono le tabelle di Apache Phoenix tramite la shell (interprete di comandi) Apache Spark, si verifica un NoSuchMethodError perché Amazon EMR utilizza un valore errato Hbase.compat.version. Il rilascio 6.8.0 di Amazon EMR risolve questo problema.

  • Quando usi il connettore DynamoDB con Spark nelle versioni di Amazon EMR 6.6.0, 6.7.0 e 6.8.0, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Questo perché Spark 3.2.0 imposta spark.hadoopRDD.ignoreEmptySplits su true di default. Come soluzione alternativa, imposta esplicitamente spark.hadoopRDD.ignoreEmptySplits su false. Amazon EMR rilascio 6.9.0 risolve questo problema.

  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

  • Con le release 5.36.0 e da 6.6.0 a 6.9.0 di Amazon EMR, i componenti dei servizi SecretAgent e RecordServer servizio potrebbero subire una perdita di dati di log a causa di una configurazione errata del modello nome file nelle proprietà Log4j2. Ca sua della configurazione errata, i componenti generano un solo file di log al giorno. Quando si applica la strategia di rotazione, sovrascrive il file esistente invece di generare un nuovo file di log come previsto. Come soluzione alternativa, utilizza un'azione bootstrap per generare file di log ogni ora e accoda un numero intero con incremento automatico nel nome file per gestire la rotazione.

    Per le release da 6.6.0 a 6.9.0 di Amazon EMR, utilizza la seguente azione bootstrap quando avvii un cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Per Amazon EMR 5.36.0, utilizza la seguente azione bootstrap quando avvii un cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

Rilascio 6.6.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.6.0. Le modifiche sono relative alla versione 6.5.0.

Data del rilascio iniziale: 9 maggio 2022

Ultimo aggiornamento della documentazione: 15 giugno 2022

Nuove caratteristiche
  • Amazon EMR 6.6 ora supporta Apache Spark 3.2, Apache Spark RAPIDS 22.02, CUDA 11, Apache Hudi 0.10.1, Apache Iceberg 0.13, Trino 0.367 e PrestoDB 0.267.

  • Quando avvii un cluster con l'ultima versione di patch di Amazon EMR 5.36 o successiva, o 6.6 o successiva, Amazon EMR utilizza l'ultima versione di Amazon Linux 2 per l'AMI Amazon EMR predefinita. Per ulteriori informazioni, consulta Utilizzo dell'AMI Amazon Linux predefinita per Amazon EMR.

    OsReleaseLabel (versione di Amazon Linux) Versione del kernel di Amazon Linux Data di disponibilità Regioni supportate
    2.0.20230727.0 4.14.320 14 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230719.0 4.14.320 2 agosto 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Spagna), Europa (Francoforte), Europa (Zurigo), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Hyderabad), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Medio Oriente (Emirati Arabi Uniti), Canada (Centrale)
    2.0.20230628.0 4.14.318 12 luglio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230612.0 4.14.314 23 giugno 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230504.1 4.14.313 16 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230418.0 4.14.311 3 maggio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230404.1 4.14.311 18 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230404.0 4.14.311 10 aprile 2023 Stati Uniti orientali (Virginia settentrionale), Europa (Parigi)
    2.0.20230320.0 4.14.309 30 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230307.0 4.14.305 15 marzo 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230207.0 4.14.304 22 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20230119.1 4.14.301 3 febbraio 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20221210.1 4.14.301 22 dicembre 2023 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20221103.3 4.14.296 5 dicembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20221004.0 4.14.294 2 novembre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20220912.1 4.14.291 7 ottobre 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20220805.0 4.14.287 30 agosto 2022 us‑west‑1
    2.0.20220719.0 4.14.287 10 agosto 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20220426.0 4.14.281 10 giugno 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
    2.0.20220406.1 4.14.275 2 maggio 2022 Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Europa (Stoccolma), Europa (Milano), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Asia Pacifico (Hong-Kong), Asia Pacifico (Mumbai), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Osaka-Locale), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacific (Giacarta), Africa (Città del Capo), Sud America (San Paolo), Medio Oriente (Bahrein), Canada (Centrale)
  • Le applicazioni Amazon EMR versione 6.6 e successive che usano Log4j 1.x e Log4j 2.x sono aggiornate per usare rispettivamente Log4j 1.2.17 (o superiore) e Log4j 2.17.1 (o superiore) e non richiedono l'uso di operazioni di bootstrap per mitigare i problemi CVE.

  • [Dimensionamento] Ottimizzazione del dimensionamento gestito dei dati di shuffle di Spark - Per Amazon EMR versioni 5.34.0 e successive e EMR 6.4.0 e successive, il dimensionamento gestito è ora consapevole dei dati di shuffle di Spark (dati che Spark ridistribuisce tra le partizioni per eseguire operazioni specifiche). Per ulteriori informazioni sulle operazioni di shuffle, consulta Utilizzo del dimensionamento gestito da EMR in Amazon EMR nella Guida di gestione di Amazon EMR e Guida di programmazione Spark.

  • A partire da Amazon EMR 5.32.0 e 6.5.0, il ridimensionamento dell'executor dinamico per Apache Spark è abilitato di default. Per attivare o disattivare questa caratteristica, è possibile utilizzare il spark.yarn.heterogeneousExecutors.enabled parametro di configurazione.

Modifiche, miglioramenti e problemi risolti
  • Amazon EMR riduce in media i tempi di avvio del cluster fino a 80 secondi per i cluster che utilizzano l'opzione AMI di default EMR e installano solo applicazioni comuni, come Apache Hadoop, Apache Spark e Apache Hive.

Problemi noti
  • Quando le release 6.5.0, 6.6.0 o 6.7.0 di Amazon EMR leggono le tabelle di Apache Phoenix tramite la shell (interprete di comandi) Apache Spark, si verifica un NoSuchMethodError perché Amazon EMR utilizza un valore errato Hbase.compat.version. Il rilascio 6.8.0 di Amazon EMR risolve questo problema.

  • Quando usi il connettore DynamoDB con Spark nelle versioni di Amazon EMR 6.6.0, 6.7.0 e 6.8.0, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Questo perché Spark 3.2.0 imposta spark.hadoopRDD.ignoreEmptySplits su true di default. Come soluzione alternativa, imposta esplicitamente spark.hadoopRDD.ignoreEmptySplits su false. Amazon EMR rilascio 6.9.0 risolve questo problema.

  • Su cluster Trino a lunga esecuzione Amazon EMR 6.6.0 abilita i parametri di registrazione della rimozione di oggetti inutili (Garbage Collection) in Trino jvm.config per ottenere informazioni migliori dai log di Garbage Collection. Questa modifica aggiunge molti registri di Garbage Collection al file launcher.log (/var/log/trino/launcher.log). Se esegui cluster Trino in Amazon EMR 6.6.0, potresti riscontrare che i nodi esauriscono lo spazio su disco dopo che il cluster è stato in esecuzione per un paio di giorni a causa dei registri che sono stati aggiunti.

    La soluzione alternativa per questo problema è eseguire lo script sottostante come operazione Bootstrap per disabilitare i parametri di registrazione di rimozione di oggetti inutili (garbage collection) in jvm.config durante la creazione o la clonazione del cluster per Amazon EMR 6.6.0.

    #!/bin/bash set -ex PRESTO_PUPPET_DIR='/var/aws/emr/bigtop-deploy/puppet/modules/trino' sudo bash -c "sed -i '/-Xlog/d' ${PRESTO_PUPPET_DIR}/templates/jvm.config"
  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

  • Con le release 5.36.0 e da 6.6.0 a 6.9.0 di Amazon EMR, i componenti dei servizi SecretAgent e RecordServer servizio potrebbero subire una perdita di dati di log a causa di una configurazione errata del modello nome file nelle proprietà Log4j2. Ca sua della configurazione errata, i componenti generano un solo file di log al giorno. Quando si applica la strategia di rotazione, sovrascrive il file esistente invece di generare un nuovo file di log come previsto. Come soluzione alternativa, utilizza un'azione bootstrap per generare file di log ogni ora e accoda un numero intero con incremento automatico nel nome file per gestire la rotazione.

    Per le release da 6.6.0 a 6.9.0 di Amazon EMR, utilizza la seguente azione bootstrap quando avvii un cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Per Amazon EMR 5.36.0, utilizza la seguente azione bootstrap quando avvii un cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

Rilascio 5.35.0

Questa è la nota di rilascio di Amazon EMR 5.35.0.

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.35.0. Le modifiche sono relative alla versione 5.34.0.

Data del rilascio iniziale: 30 marzo 2022

Nuove caratteristiche
  • Le applicazioni Amazon EMR versione 5.35 che usano Log4j 1.x e Log4j 2.x sono aggiornate per usare rispettivamente Log4j 1.2.17 (o superiore) e Log4j 2.17.1 (o superiore) e non richiedono l'uso di operazioni di bootstrap per mitigare i problemi CVE nelle versioni precedenti. Per informazioni, consultare Approccio per mitigare il CVE-2021-44228.

Modifiche, miglioramenti e problemi risolti

Modifiche di Flink
Tipo di modifica Descrizione
Aggiornamenti
  • Aggiorna la versione di flink alla 1.14.2.

  • log4j aggiornato a 2.17.1.

Cambiamenti di Hadoop
Tipo di modifica Descrizione
Backport open source di Hadoop da EMR 5.34.0
  • YARN-10438: Gestire null ContainerID in ClientRemService#getContainerReport()

  • YARN-7266: thread del gestore eventi Timeline Server bloccati

  • YARN-10438: ATS 1.5 non si avvia se i file RollingLevelDB sono danneggiati o mancanti

  • HADOOP-13500: Sincronizzazione dell'iterazione dell'oggetto delle proprietà di configurazione

  • YARN-10651: CapacityScheduler si è bloccato con NPE in AbstractyArnScheduler.updateNodeResource()

  • HDFS-12221: Sostituisci gli xerces in XmlEditsVisitor

  • HDFS-16410: analisi Xml non sicura in OfflineEditSXMLLoader

Modifiche e correzioni di Hadoop
  • Tomcat utilizzato in KMS e HTTPFS è aggiornato a 8.5.75

  • In FileSystemOptimizedCommitterV2, il marker di successo è stato scritto nel percorso di output CommitJob definito durante la creazione del committer. Poiché i percorsi di output CommitJob e livello di attività possono essere diversi, il percorso è stato corretto per utilizzare quello definito nei file manifest. Per i lavori Hive, ciò comporta che il marker di successo venga scritto correttamente durante l'esecuzione di operazioni come la partizione dinamica o UNION ALL.

Cambiamenti Hive
Tipo di modifica Descrizione
Hive aggiornato a open sourceversione 2.3.9, incluse queste correzioni JIRA
  • HIVE-17155: findConfFile() in HiveConf.java presenta alcuni problemi con il percorso conf

  • HIVE-24797.: disabilita la convalida dei valori predefiniti durante l'analisi degli schemi Avro

  • HIVE-21563: Migliora le prestazioni di Table #getEmptyTable disabilita RegisterAllFunctionsOnce

  • HIVE-18147: i test possono fallire con java.net.bindeXception: indirizzo già in uso

  • HIVE-24608: torna a get_table nel client HMS per Hive 2.3.x

  • HIVE-21200: Vectorization - colonna data che lancia java.lang.UnsupportedOperationException per parquet

  • HIVE-19228: rimuovere l'utilizzo di commons-httpclient 3.x

Hive backport open source da EMR 5.34.0
  • HIVE-19990: la query con intervallo letterale nella condizione di join non riesce

  • HIVE-25824: Aggiorna branch-2.3 a log4j 2.17.0

  • TEZ-4062: la pianificazione dei tentativi speculativi deve essere interrotta al completamento dell'attività

  • TEZ-4108: NullPointerException durante la condizione di gara di esecuzione speculativa

  • TEZ-3918: L'impostazione di tez.task.log.level non funziona

Aggiornamenti e correzioni di Hive
  • Aggiorna la versione di Log4j a 2.17.1

  • Aggiorna la versione di ORC a 1.4.3

  • Stallo fisso dovuto al thread di penalità in ShuffleScheduler

Nuove funzionalità di
  • Aggiunta la funzione per stampare Hive Query nei registri AM. Questa opzione è disabilitata per impostazione predefinita. Bandiera/Conf:tez.am.emr.print.hive.query.in.log. Stato (predefinito): FALSE.

Modifiche Oozie
Tipo di modifica Descrizione
Backport open source di Oozie da EMR 5.34.0
  • OOZIE-3652: Oozie launcher dovrebbe riprovare l'elenco delle directory quando si verifica NoSuchFileException

Cambiamenti Pig
Tipo di modifica Descrizione
Aggiornamenti
  • log4j aggiornato a 1.2.17.

Problemi noti
  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

Rilascio 5.34.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.34.0. Le modifiche sono relative alla versione 5.33.1.

Data del rilascio iniziale: 20 gennaio 2022

Data di rilascio aggiornata: 21 marzo 2022

Nuove caratteristiche
  • [Dimensionamento] Ottimizzazione del dimensionamento gestito dei dati di shuffle di Spark - Per Amazon EMR versioni 5.34.0 e successive e EMR 6.4.0 e successive, il dimensionamento gestito è ora consapevole dei dati di shuffle di Spark (dati che Spark ridistribuisce tra le partizioni per eseguire operazioni specifiche). Per ulteriori informazioni sulle operazioni di shuffle, consulta Utilizzo del dimensionamento gestito da EMR in Amazon EMR nella Guida di gestione di Amazon EMR e Guida di programmazione Spark.

  • [Hudi] Miglioramenti per semplificare la configurazione Hudi. Optimistic Concurrency Control disabilitato per impostazione predefinita.

Modifiche, miglioramenti e problemi risolti
  • Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.

  • In precedenza, il riavvio manuale del gestore delle risorse su un cluster multi-master provocava il ricaricamento, da parte dei daemon su cluster di Amazon EMR come Zookeeper, di tutti i nodi precedentemente disattivati o persi nel file znode di Zookeeper. Ciò causava il superamento dei limiti predefiniti in determinate situazioni. Ora Amazon EMR rimuove i record dei nodi disattivati o persi più vecchi di un'ora dal file Zookeeper e i limiti interni sono stati aumentati.

  • È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.

  • I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.

  • SPARK-29683. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati.

  • YARN-9011. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi.

  • È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.

  • È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.

  • Zeppelin aggiornato alla versione 0.10.0.

  • Livy Fix: aggiornato alla versione 0.7.1

  • Miglioramento delle prestazioni di Spark: gli esecutori eterogenei sono disabilitati quando alcuni valori di configurazione Spark vengono sovrascritti in EMR 5.34.0.

  • I server HttpFS e WebHDFS sono disabilitati per impostazione predefinita. Puoi abilitare nuovamente WebHDFS utilizzando la configurazione di Hadoop, dfs.webhdfs.enabled. Il server HttpFS può essere avviato utilizzando sudo systemctl start hadoop-httpfs.

Problemi noti
  • La caratteristica di Amazon EMR Notebooks utilizzata con la rappresentazione utente di Livy non funziona perché HttpFS è disabilitato per impostazione predefinita. In questo caso, EMR Notebooks non può connettersi al cluster in cui è abilitata la rappresentazione di Livy. La soluzione alternativa consiste nell'avviare il server HttpFS prima di connettere EMR Notebooks al cluster utilizzando sudo systemctl start hadoop-httpfs.

  • Le query Hue non funzionano in Amazon EMR 6.4.0 perché il server HttpFS di Apache Hadoop è disabilitato per impostazione predefinita. Per utilizzare Hue su Amazon EMR 6.4.0, avvia manualmente il server HttpFS sul nodo primario di Amazon EMR utilizzando sudo systemctl start hadoop-httpfs oppure utilizza una fase di Amazon EMR.

  • La caratteristica di Amazon EMR Notebooks utilizzata con la rappresentazione utente di Livy non funziona perché HttpFS è disabilitato per impostazione predefinita. In questo caso, EMR Notebooks non può connettersi al cluster in cui è abilitata la rappresentazione di Livy. La soluzione alternativa consiste nell'avviare il server HttpFS prima di connettere EMR Notebooks al cluster utilizzando sudo systemctl start hadoop-httpfs.

  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

Rilascio 6.5.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.5.0. Le modifiche sono relative alla versione 6.4.0.

Data del rilascio iniziale: 20 gennaio 2022

Data di rilascio aggiornata: 21 marzo 2022

Nuove caratteristiche
  • [Dimensionamento] Ottimizzazione del dimensionamento gestito dei dati di shuffle di Spark - Per Amazon EMR versioni 5.34.0 e successive e EMR 6.4.0 e successive, il dimensionamento gestito è ora consapevole dei dati di shuffle di Spark (dati che Spark ridistribuisce tra le partizioni per eseguire operazioni specifiche). Per ulteriori informazioni sulle operazioni di shuffle, consulta Utilizzo del dimensionamento gestito da EMR in Amazon EMR nella Guida di gestione di Amazon EMR e Guida di programmazione Spark.

  • A partire da Amazon EMR 5.32.0 e 6.5.0, il ridimensionamento dell'executor dinamico per Apache Spark è abilitato di default. Per attivare o disattivare questa caratteristica, è possibile utilizzare il spark.yarn.heterogeneousExecutors.enabled parametro di configurazione.

  • Supporto per il formato di tabella aperta Apache Iceberg per enormi set di dati analitici.

  • Supporto per ranger–trino-plugin 2.0.1-amzn-1

  • Supporto per toree 0.5.0

Modifiche, miglioramenti e problemi risolti
  • La versione del rilascio 6.5 di Amazon EMR ora supporta Apache Iceberg 0.12.0 e offre miglioramenti al tempo di esecuzione con Amazon EMR Runtime per Apache Spark, Amazon EMR Runtime per Presto e Amazon EMR Runtime per Apache Hive.

  • Apache Iceberg è un formato di tabella aperta per set di dati di grandi dimensioni in Amazon S3 e fornisce prestazioni di query rapide su tabelle di grandi dimensioni, commit atomici, scritture simultanee ed evoluzione delle tabelle compatibili con SQL. Con EMR 6.5, è possibile utilizzare Apache Spark 3.1.2 con il formato tabella Iceberg.

  • Apache Hudi 0.9 aggiunge il supporto Spark SQL DDL e DML. Ciò consente di creare e modificare le tabelle Hudi usando solo istruzioni SQL. Apache Hudi 0.9 include anche miglioramenti delle prestazioni sul lato query e sul lato scrittore.

  • Amazon EMR Runtime per Apache Hive migliora le prestazioni di Apache Hive su Amazon S3 rimuovendo le operazioni di ridenominazione durante le operazioni di gestione temporanea e migliora le prestazioni per i comandi di metastore check (MSCK) utilizzati per la riparazione delle tabelle.

Problemi noti
  • Quando le release 6.5.0, 6.6.0 o 6.7.0 di Amazon EMR leggono le tabelle di Apache Phoenix tramite la shell (interprete di comandi) Apache Spark, si verifica un NoSuchMethodError perché Amazon EMR utilizza un valore errato Hbase.compat.version. Il rilascio 6.8.0 di Amazon EMR risolve questo problema.

  • I cluster bundle Hbase in High Availability (HA) non riescono a effettuare il provisioning con la dimensione del volume e il tipo di istanza di default. La soluzione alternativa per questo problema consiste nell'aumentare la dimensione del volume principale.

  • Per utilizzare le operazioni Spark con Apache Oozie, devi aggiungere la seguente configurazione al tuo file workflow.xml Oozie. In caso contrario, diverse librerie critiche come Hadoop e EMRFS non saranno presenti nella classpath degli esecutori Spark lanciati da Oozie.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

Rilascio 6.4.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.4.0. Le modifiche sono relative alla versione 6.3.0.

Data del rilascio iniziale: 20 settembre 2021

Data di rilascio aggiornata: 21 marzo 2022

Applicazioni supportate
  • AWS SDK for Java versione 1.12.31

  • CloudWatch Sink versione 2.2.0

  • DynamoDB Connector versione 4.16.0

  • EMRFS versione 2.47.0

  • Amazon EMR Goodies versione 3.2.0

  • Amazon EMR Kinesis Connector versione 3.5.0

  • Amazon EMR Record Server versione 2.1.0

  • Amazon EMR Scripts versione 2.5.0

  • Flink versione 1.13.1

  • Ganglia versione 3.7.2

  • AWS Glue Hive Metastore Client versione 3.3.0

  • Hadoop versione 3.2.1-amzn-4

  • HBase versione 2.4.4-amzn-0

  • HBase-operator-tools 1.1.0

  • HCatalog versione 3.1.2-amzn-5

  • Hive versione 3.1.2-amzn-5

  • Hudi versione 0.8.0-amzn-0

  • Hue versione 4.9.0

  • Java JDK versione Corretto-8.302.08.1 (build 1.8.0_302-b08)

  • JupyterHub versione 1.4.1

  • Livy versione 0.7.1-incubating

  • MXNet versione 1.8.0

  • Oozie versione 5.2.1

  • Phoenix versione 5.1.2

  • Pig versione 0.17.0

  • Presto versione 0.254.1-amzn-0

  • Trino versione 359

  • Apache Ranger KMS (crittografia trasparente multi-master) versione 2.0.0

  • ranger-plugins 2.0.1-amzn-0

  • ranger-s3-plugin 1.2.0

  • SageMaker Spark SDK versione 1.4.1

  • Scala versione 2.12.10 (VM server OpenJDK a 64 bit, Java 1.8.0_282)

  • Spark versione 3.1.2-amzn-0

  • spark-rapids 0.4.1

  • Sqoop versione 1.4.7

  • TensorFlow versione 2.4.1

  • tez versione 0.9.2

  • Zeppelin versione 0.9.0

  • Zookeeper versione 3.5.7

  • Connettori e driver: DynamoDB Connector 4.16.0

Nuove funzionalità di
  • [Dimensionamento] Ottimizzazione del dimensionamento gestito dei dati di shuffle di Spark - Per Amazon EMR versioni 5.34.0 e successive e EMR 6.4.0 e successive, il dimensionamento gestito è ora consapevole dei dati di shuffle di Spark (dati che Spark ridistribuisce tra le partizioni per eseguire operazioni specifiche). Per ulteriori informazioni sulle operazioni di shuffle, consulta Utilizzo del dimensionamento gestito da EMR in Amazon EMR nella Guida di gestione di Amazon EMR e Guida di programmazione Spark.

  • Sui cluster Amazon EMR abilitati ad Apache Ranger, puoi utilizzare Apache Spark SQL per inserire o aggiornare i dati nelle tabelle dei metastore di Apache Hive utilizzando INSERT INTO, INSERT OVERWRITE, e ALTER TABLE. Quando si utilizza ALTER TABLE con Spark SQL, una posizione di partizione deve essere la directory figlio di una posizione di tabella. Al momento Amazon EMR non supporta l'inserimento di dati in una partizione in cui la posizione della partizione è diversa da quella della tabella.

  • PrestoSQL è stato rinominato in Trino.

  • Hive: l'esecuzione di semplici query SELECT con clausola LIMIT viene accelerata interrompendo l'esecuzione della query non appena viene recuperato il numero di registri menzionati nella clausola LIMIT. Le query SELECT semplici sono query che non hanno una clausola GROUP BY/ORDER by o query che non hanno uno stadio di riduzione. Ad esempio, SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>.

Controlli di simultaneità Hudi
  • Hudi ora supporta Optimistic Concurrency Control (OCC), che può essere sfruttato con operazioni di scrittura come UPSERT e INSERT per consentire modifiche da più scrittori alla stessa tabella Hudi. Questo è livello di file OCC, quindi due commit (o scrittori) possono scrivere sulla stessa tabella, se le modifiche non sono in conflitto. Per ulteriori informazioni, consulta Controllo della concorrenza Hudi.

  • I cluster Amazon EMR hanno installato Zookeeper, che può essere sfruttato come provider di blocchi per OCC. Per semplificare l'utilizzo di questa funzione, i cluster Amazon EMR hanno le seguenti proprietà preconfigurate:

    hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<EMR Zookeeper URL> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port> hoodie.write.lock.zookeeper.base_path=/hudi

    Per abilitare OCC, è necessario configurare le seguenti proprietà con le relative opzioni di processo Hudi o a livello di cluster utilizzando l'API di configurazione Amazon EMR:

    hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=<Key to uniquely identify the Hudi table> (Table Name is a good option)
Monitoraggio Hudi: integrazione di Amazon CloudWatch per segnalare i parametri Hudi
  • Amazon EMR supporta la pubblicazione di parametri Hudi su Amazon CloudWatch. È abilitato impostando le seguenti configurazioni richieste:

    hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
  • Di seguito sono riportate le configurazioni Hudi opzionali che è possibile modificare:

    Impostazione Descrizione Valore

    hoodie.metrics.cloudwatch.report.period.seconds

    Frequenza (in secondi) con cui segnalare i parametri ad Amazon CloudWatch

    Il valore di default è 60s, il che va bene per la risoluzione di default di un minuto offerta da Amazon CloudWatch

    hoodie.metrics.cloudwatch.metric.prefix

    Prefisso da aggiungere a ciascun nome parametro

    Il valore di default è vuoto (nessun prefisso)

    hoodie.metrics.cloudwatch.namespace

    Spazio dei nomi Amazon CloudWatch in base al quale vengono pubblicati i parametri

    Il valore di default è Hudi

    hoodie.metrics.cloudwatch.maxDatumsPerRequest

    Numero massimo di riferimenti da includere in una richiesta ad Amazon CloudWatch

    Il valore di default è 20, uguale a quello di default di Amazon CloudWatch

Supporto e miglioramenti delle configurazioni Amazon EMR Hudi
  • I clienti possono ora sfruttare l'API di configurazione EMR e la funzione di riconfigurazione per configurare le configurazioni Hudi a livello di cluster. Un nuovo supporto per la configurazione basato su file è stato introdotto tramite /etc/hudi/conf/hudi-defaults.conf sulla linea di altre applicazioni come Spark, Hive ecc. EMR configura alcuni valori di default per migliorare l'esperienza utente:

    hoodie.datasource.hive_sync.jdbcurl è configurato per l'URL del server Hive del cluster e non deve più essere specificato. Ciò è particolarmente utile quando si esegue un processo in modalità cluster Spark, dove in precedenza era necessario specificare l'IP principale Amazon EMR.

    — Configurazioni specifiche di HBase, utili per l'utilizzo dell'indice HBase con Hudi.

    — Configurazione specifica del provider di blocco Zookeeper, come discusso sotto il controllo della concorrenza, che semplifica l'utilizzo di Optimistic Concurrency Control (OCC).

  • Sono state introdotte ulteriori modifiche per ridurre il numero di configurazioni che devi passare e per dedurre automaticamente laddove possibile:

    — La parola chiave partitionBy può essere utilizzata per specificare la colonna della partizione.

    — Quando si abilita Hive Sync, non è più obbligatorio passare HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY. Tali valori possono essere dedotti dal nome della tabella Hudi e dal campo della partizione.

    KEYGENERATOR_CLASS_OPT_KEY non è obbligatorio passare e può essere dedotto da casi più semplici di SimpleKeyGenerator e ComplexKeyGenerator.

Avvertenze Hudi
  • Hudi non supporta l'esecuzione vettorizzata nelle tabelle Hive for Merge on Read (MoR) e Bootstrap. Ad esempio: count(*) fallisce con la tabella in tempo reale Hudi quando hive.vectorized.execution.enabled è impostato su VERO. Come soluzione alternativa, puoi disabilitare la lettura vettorizzata impostando hive.vectorized.execution.enabled a false.

  • Il supporto multi-writer non è compatibile con la caratteristica bootstrap Hudi.

  • Flink Streamer e Flink SQL sono caratteristiche sperimentali di questa versione. Queste caratteristiche non sono consigliate per l'uso nelle distribuzioni di produzione.

Modifiche, miglioramenti e problemi risolti

Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.

  • In precedenza, il riavvio manuale del gestore delle risorse su un cluster multi-master provocava il ricaricamento, da parte dei daemon su cluster di Amazon EMR come Zookeeper, di tutti i nodi precedentemente disattivati o persi nel file znode di Zookeeper. Ciò causava il superamento dei limiti predefiniti in determinate situazioni. Ora Amazon EMR rimuove i record dei nodi disattivati o persi più vecchi di un'ora dal file Zookeeper e i limiti interni sono stati aumentati.

  • È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.

  • I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.

  • SPARK-29683. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati.

  • YARN-9011. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi.

  • È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.

  • È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.

  • Configurazione di un cluster per risolvere i problemi di prestazioni di Apache YARN Timeline Server versione 1 e 1.5

    Le versioni 1 e 1.5 di Apache YARN Timeline Server possono causare problemi di prestazioni con cluster EMR molto attivi e di grandi dimensioni, in particolare con yarn.resourcemanager.system-metrics-publisher.enabled=true, che è l'impostazione predefinita in Amazon EMR. Un YARN Timeline Server v2 open source risolve il problema di prestazioni relativo alla scalabilità di YARN Timeline Server.

    Altre soluzioni alternative per questo problema includono:

    • La configurazione di yarn.resourcemanager.system-metrics-publisher.enabled=false in yarn-site.xml.

    • L'abilitazione della correzione per questo problema durante la creazione di un cluster, come descritto di seguito.

    I seguenti rilasci di Amazon EMR contengono una correzione per questo problema di prestazioni di YARN Timeline Server.

    EMR 5.30.2, 5.31.1, 5.32.1, 5.33.1, 5.34.x, 6.0.1, 6.1.1, 6.2.1, 6.3.1 e 6.4.x

    Per abilitare la correzione su una delle versioni di Amazon EMR sopra specificate, imposta queste proprietà su true in un file JSON di configurazioni che viene passato utilizzando il parametro del comando aws emr create-cluster: --configurations file://./configurations.json. Oppure abilita la correzione utilizzando l'interfaccia utente della console di riconfigurazione.

    Esempio del contenuto del file configurations.json:

    [ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
  • I server HttpFS e WebHDFS sono disabilitati per impostazione predefinita. Puoi abilitare nuovamente WebHDFS utilizzando la configurazione di Hadoop, dfs.webhdfs.enabled. Il server HttpFS può essere avviato utilizzando sudo systemctl start hadoop-httpfs.

  • Il protocollo HTTPS ora è abilitato per impostazione predefinita per i repository Amazon Linux. Se utilizzi una policy Amazon S3 VPCE per limitare l'accesso a specifici bucket, devi aggiungere il nuovo ARN del bucket Amazon Linux arn:aws:s3:::amazonlinux-2-repos-$region/* alla tua policy (sostituisci $region con la Regione in cui si trova l'endpoint). Per ulteriori informazioni, consulta questo argomento nella forum di discussione di AWS. Annuncio: Amazon Linux 2 ora supporta la possibilità di utilizzare HTTPS durante la connessione ai repository dei pacchetti .

  • Hive: le prestazioni delle query di scrittura sono migliorate abilitando l'uso di una directory Scratch su HDFS per l'ultimo processo. I dati temporanei per il processo finale vengono scritti su HDFS anziché su Amazon S3 e le prestazioni sono migliorate perché i dati vengono spostati da HDFS alla posizione finale della tabella (Amazon S3) anziché tra i dispositivi Amazon S3.

  • Hive: miglioramento del tempo di compilazione delle query fino a 2,5 volte con Glue metastore Partition Pruning.

  • Per impostazione predefinita, quando le FDU integrate vengono passate da Hive al Hive Metastore Server, solo un sottoinsieme di tali FDU incorporati viene passato al Glue Metastore poiché Glue supporta solo operatori di espressioni limitate. Se hai impostato hive.glue.partition.pruning.client=true, quindi tutta la eliminazione delle partizioni avviene sul lato client. Se hai impostato hive.glue.partition.pruning.server=true, quindi tutta la eliminazione delle partizioni avviene sul lato server.

Problemi noti
  • Le query Hue non funzionano in Amazon EMR 6.4.0 perché il server HttpFS di Apache Hadoop è disabilitato per impostazione predefinita. Per utilizzare Hue su Amazon EMR 6.4.0, avvia manualmente il server HttpFS sul nodo primario di Amazon EMR utilizzando sudo systemctl start hadoop-httpfs oppure utilizza una fase di Amazon EMR.

  • La caratteristica di Amazon EMR Notebooks utilizzata con la rappresentazione utente di Livy non funziona perché HttpFS è disabilitato per impostazione predefinita. In questo caso, EMR Notebooks non può connettersi al cluster in cui è abilitata la rappresentazione di Livy. La soluzione alternativa consiste nell'avviare il server HttpFS prima di connettere EMR Notebooks al cluster utilizzando sudo systemctl start hadoop-httpfs.

  • In Amazon EMR versione 6.4.0, Phoenix non supporta il componente dei connettori Phoenix.

  • Per utilizzare le operazioni Spark con Apache Oozie, devi aggiungere la seguente configurazione al tuo file workflow.xml Oozie. In caso contrario, diverse librerie critiche come Hadoop e EMRFS non saranno presenti nella classpath degli esecutori Spark lanciati da Oozie.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

Rilascio 5.32.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.32.0. Le modifiche sono relative alla versione 5.31.0.

Data del rilascio iniziale: 8 gennaio 2021

Aggiornamenti
  • Connettore Amazon Glue aggiornato alla versione 1.14.0

  • Aggiornamento di Amazon SageMaker Spark SDK alla versione 1.4.1

  • Aggiornato AWS SDK for Java alla versione 1.11.890

  • EMR DynamoDB Connector aggiornato alla versione 4.16.0

  • EMRFS aggiornato alla versione 2.45.0

  • Parametri di analisi dei log EMR aggiornati alla versione 1.18.0

  • Client MetricsAndEventsApiGateway EMR aggiornato alla versione 1.5.0

  • EMR Record Server aggiornato alla versione 1.8.0

  • EMR S3 Dist CP aggiornato alla versione 2.17.0

  • EMR Secret Agent aggiornato alla versione 1.7.0

  • Flink aggiornato alla versione 1.11.2

  • Hadoop aggiornato alla versione 2.10.1-amzn-0

  • Hive aggiornato alla versione 2.3.7-amzn-3

  • Hue aggiornato alla versione 4.8.0

  • MXNet aggiornato alla versione 1.7.0

  • OpenCV aggiornato alla versione 4.4.0

  • Presto aggiornato alla versione 0.240.1-amzn-0

  • Spark aggiornato alla versione 2.4.7-amzn-0

  • TensorFlow aggiornato alla versione 2.3.1

Modifiche, miglioramenti e problemi risolti
  • Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.

  • È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.

  • I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.

  • SPARK-29683. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati.

  • YARN-9011. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi.

  • È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.

  • È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.

  • Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).

  • Versioni dei componenti aggiornate.

  • Per un elenco delle versioni dei componenti, consulta Informazioni sui rilasci di Amazon EMR in questa guida.

Nuove funzionalità di
  • A partire da Amazon EMR 5.32.0 e 6.5.0, il ridimensionamento dell'executor dinamico per Apache Spark è abilitato di default. Per attivare o disattivare questa caratteristica, è possibile utilizzare il spark.yarn.heterogeneousExecutors.enabled parametro di configurazione.

  • Stato del supporto IMDS (Instance Metadata Service) V2: Amazon EMR 5.23.1, 5.27.1 e 5.32 o versioni successive utilizzano IMDSv2 per tutte le chiamate IMDS. Per le chiamate IMDS nel codice dell'applicazione, è possibile utilizzare sia IMDSv1 che IMDSv2 oppure configurare IMDS per utilizzare solo IMDSv2 per una maggiore sicurezza. Per altri rilasci EMR 5.x, la disattivazione di IMDSv1 causa un errore di avvio del cluster.

  • A partire da Amazon EMR 5.32.0, è possibile avviare un cluster che si integra nativamente con Apache Ranger. Apache Ranger è un framework open source che consente di abilitare, monitorare e gestire la sicurezza completa dei dati attraverso la piattaforma Hadoop. Per ulteriori informazioni, consulta Apache Ranger. L'integrazione nativa consente di utilizzare Apache Ranger per imporre un controllo granulare di accesso ai dati su Amazon EMR. Consulta Integrazione di Amazon EMR con Apache Ranger nella Guida ai rilasci di Amazon EMR.

  • Amazon EMR 5.32.0 supporta Amazon EMR su EKS. Per ulteriori dettagli su come iniziare a utilizzare EMR su EKS, consulta Che cos'è Amazon EMR su EKS?.

  • Amazon EMR 5.32.0 supporta Amazon EMR Studio (anteprima). Per ulteriori informazioni sulle nozioni di base di EMR Studio, consulta Amazon EMR Studio (anteprima).

  • Criteri gestiti con ambito: per allinearsi con le best practice di AWS, Amazon EMR ha introdotto le policy con ambito gestite di default EMR v2 come sostituzioni per le policy che saranno rese obsolete. Consulta Policy gestite di Amazon EMR.

Problemi noti
  • Per i cluster della sottorete privata di Amazon EMR 6.3.0 e 6.2.0 non è possibile accedere all'interfaccia utente Web di Ganglia. Verrà visualizzato l'errore "access denied (403) (accesso negato (403))". Altre interfacce utente Web, come Spark, Hue, JupyterHub, Zeppelin, Livy e Tez funzionano normalmente. Anche l'accesso all'interfaccia utente Web di Ganglia sui cluster della sottorete pubblica funziona normalmente. Per risolvere il problema, riavvia il servizio httpd sul nodo primario con sudo systemctl restart httpd. Questo problema è stato risolto in Amazon EMR 6.4.0.

  • Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.

    Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.

    Impostazione di un ulimit esplicito dalla riga di comando
    1. Modifica /etc/systemd/system/instance-controller.service per aggiungere i seguenti parametri alla sezione Servizio.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Riavvio di InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Impostazione di un ulimit usando l'operazione di bootstrap (BA)

    È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Importante

    I cluster Amazon EMR che eseguono le AMI (Amazon Linux Machine Images) Amazon Linux o Amazon Linux 2 utilizzano il comportamento predefinito di Amazon Linux e non scaricano e installano automaticamente aggiornamenti importanti e critici dei kernel che richiedono un riavvio. Si tratta dello stesso comportamento assunto da altre istanze Amazon EC2 che eseguono l'AMI predefinita di Amazon Linux. Se nuovi aggiornamenti software Amazon Linux che richiedono un riavvio (ad esempio, aggiornamenti del kernel, NVIDIA e CUDA) risultano disponibili dopo il rilascio di una versione di Amazon EMR, le istanze del cluster Amazon EMR che eseguono l'AMI predefinita non scaricano e installano automaticamente tali aggiornamenti. Per ottenere gli aggiornamenti del kernel, puoi personalizzare l'AMI di Amazon EMR per utilizzare l'AMI di Amazon Linux più recente.

  • Il supporto della console per creare una configurazione di sicurezza che specifichi l'opzione di integrazione AWS Ranger non è attualmente abilitato nella Regione GovCloud. La configurazione della sicurezza può essere eseguita utilizzando la CLI. Consulta Creazione della configurazione di sicurezza EMR nella Guida per la gestione di Amazon EMR.

  • Quando la crittografia AtRestEncryption o HDFS è abilitata in un cluster che utilizza Amazon EMR 5.31.0 o 5.32.0, le query Hive determinano la seguente eccezione di runtime.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

Rilascio 6.2.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.2.0. Le modifiche sono relative alla versione 6.1.0.

Data del rilascio iniziale: 9 dicembre 2020

Ultimo aggiornamento: 4 ottobre 2021

Applicazioni supportate
  • AWS SDK for Java versione 1.11.828

  • emr-record-server versione 1.7.0

  • Flink versione 1.11.2

  • Ganglia versione 3.7.2

  • Hadoop versione 3.2.1-amzn-1

  • HBase versione 2.2.6-amzn-0

  • HBase-operator-tools 1.0.0

  • HCatalog versione 3.1.2-amzn-0

  • Hive versione 3.1.2-amzn-3

  • Hudi versione 0.6.0-amzn-1

  • Hue versione 4.8.0

  • JupyterHub versione 1.1.0

  • Livy versione 0.7.0

  • MXNet versione 1.7.0

  • Oozie versione 5.2.0

  • Phoenix versione 5.0.0

  • Pig versione 0.17.0

  • Presto versione 0.238.3-amzn-1

  • PrestoSQL versione 343

  • Spark versione 3.0.1-amzn-0

  • spark-rapids 0.2.0

  • TensorFlow versione 2.3.1

  • Zeppelin versione 0.9.0-preview1

  • Zookeeper versione 3.4.14

  • Connettori e driver: DynamoDB Connector 4.16.0

Nuove funzionalità di
  • HBase: rimossa la rinomina in fase di commit e aggiunto il tracciamento HFile persistente. Consulta Tracciamento HFile persistente nella Guida ai rilasci di Amazon EMR.

  • HBase: backport per Creazione di una configurazione che costringe a memorizzare nella cache i blocchi sulla compattazione.

  • PrestoDB: miglioramenti all'eliminazione delle partizioni dinamiche. Join Reorder basato su regole funziona su dati non partizionati.

  • Criteri gestiti con ambito: per allinearsi con le best practice di AWS, Amazon EMR ha introdotto le policy con ambito gestite di default EMR v2 come sostituzioni per le policy che saranno rese obsolete. Consulta Policy gestite di Amazon EMR.

  • Stato del supporto IMDS (Instance Metadata Service) V2: per Amazon EMR 6.2 o versioni successive, i componenti Amazon EMR utilizzano IMDSv2 per tutte le chiamate IMDS. Per le chiamate IMDS nel codice dell'applicazione, è possibile utilizzare sia IMDSv1 che IMDSv2 oppure configurare IMDS per utilizzare solo IMDSv2 per una maggiore sicurezza. Se si disabilita IMDSv1 nelle versioni precedenti di Amazon EMR 6.x, si verificherà un errore di avvio del cluster.

Modifiche, miglioramenti e problemi risolti
  • Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.

  • È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.

  • I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.

  • SPARK-29683. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati.

  • YARN-9011. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi.

  • È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.

  • È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.

  • Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).

  • Spark: miglioramenti delle prestazioni del runtime Spark.

Problemi noti
  • Amazon EMR 6.2 dispone di autorizzazioni errate impostate sul file /etc/cron.d/libinstance-controller-java in EMR 6.2.0. Le autorizzazioni sul file sono 645 (-rw-r--r-x), quando dovrebbero essere 644 (-rw-r--r--). Di conseguenza, Amazon EMR versione 6.2 non registra i log dello stato delle istanze e la directory /emr/instance-logs è vuota. Questo problema è stato risolto in Amazon EMR 6.3.0 e successive.

    Per risolvere il problema, esegui il seguente script come operazione di bootstrap all'avvio del cluster.

    #!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
  • Per i cluster della sottorete privata di Amazon EMR 6.2.0 e 6.3.0 non è possibile accedere all'interfaccia utente Web di Ganglia. Verrà visualizzato l'errore "access denied (403) (accesso negato (403))". Altre interfacce utente Web, come Spark, Hue, JupyterHub, Zeppelin, Livy e Tez funzionano normalmente. Anche l'accesso all'interfaccia utente Web di Ganglia sui cluster della sottorete pubblica funziona normalmente. Per risolvere il problema, riavvia il servizio httpd sul nodo primario con sudo systemctl restart httpd. Questo problema è stato risolto in Amazon EMR 6.4.0.

  • C'è un problema in Amazon EMR 6.2.0 in cui httpd ha continuamente esito negativo, causando la non disponibilità di Ganglia. Viene visualizzato un errore "cannot connect to the server (impossibile connettersi al server)". Per risolvere questo problema in un cluster che è già in esecuzione, abilita SSH sul nodo primario del cluster e aggiungi la riga Listen 80 al file httpd.conf presente in /etc/httpd/conf/httpd.conf. Questo problema è stato risolto in Amazon EMR 6.3.0.

  • HTTPD ha esito negativo su cluster EMR 6.2.0 quando si utilizza una configurazione di sicurezza. Ciò rende l'interfaccia utente dell'applicazione Web Ganglia non disponibile. Per accedere all'interfaccia utente dell'applicazione Web Ganglia, aggiungi Listen 80 al file /etc/httpd/conf/httpd.conf sul nodo primario del cluster. Per ulteriori informazioni su come connettersi al cluster, consulta la sezione Connect to the Primary Node Using SSH (Connessione al nodo primario tramite SSH).

    Inoltre, EMR Notebooks non riesce a stabilire una connessione con cluster EMR 6.2.0 quando si utilizza una configurazione di sicurezza. Il notebook non riuscirà a elencare i kernel e a inviare processi Spark. Ti consigliamo invece di utilizzare EMR Notebooks con un'altra versione di Amazon EMR.

  • Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.

    Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.

    Impostazione di un ulimit esplicito dalla riga di comando
    1. Modifica /etc/systemd/system/instance-controller.service per aggiungere i seguenti parametri alla sezione Servizio.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Riavvio di InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Impostazione di un ulimit usando l'operazione di bootstrap (BA)

    È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Importante

    Amazon EMR 6.1.0 e 6.2.0 includono un problema di prestazioni che può influire in modo critico su tutte le operazioni di inserimento, upsert ed eliminazione di Hudi. Se intendi utilizzare Hudi con Amazon EMR 6.1.0 o 6.2.0, contatta il supporto AWS per ottenere un RPM Hudi con patch.

  • Importante

    I cluster Amazon EMR che eseguono le AMI (Amazon Linux Machine Images) Amazon Linux o Amazon Linux 2 utilizzano il comportamento predefinito di Amazon Linux e non scaricano e installano automaticamente aggiornamenti importanti e critici dei kernel che richiedono un riavvio. Si tratta dello stesso comportamento assunto da altre istanze Amazon EC2 che eseguono l'AMI predefinita di Amazon Linux. Se nuovi aggiornamenti software Amazon Linux che richiedono un riavvio (ad esempio, aggiornamenti del kernel, NVIDIA e CUDA) risultano disponibili dopo il rilascio di una versione di Amazon EMR, le istanze del cluster Amazon EMR che eseguono l'AMI predefinita non scaricano e installano automaticamente tali aggiornamenti. Per ottenere gli aggiornamenti del kernel, puoi personalizzare l'AMI di Amazon EMR per utilizzare l'AMI di Amazon Linux più recente.

  • Gli artifact di Amazon EMR 6.2.0 Maven non vengono pubblicati. Saranno pubblicati con una futura versione di Amazon EMR.

  • Il tracciamento HFile persistente che utilizza la tabella di sistema Storefile di HBase non supporta la funzionalità di replica della regione HBase. Per ulteriori informazioni sulla replica della regione HBase, consulta Letture ad alta disponibilità coerenti con la tempistica.

  • Differenze di versione dei bucket Hive tra Amazon EMR 6.x e EMR 5.x

    EMR 5.x utilizza OOS Apache Hive 2, mentre EMR 6.x utilizza OOS Apache Hive 3. L'Hive2 open source utilizza bucket di versione 1, mentre l'Hive3 open source utilizza bucket di versione 2. Questa differenza di versione dei bucket tra Hive 2 (EMR 5.x) e Hive 3 (EMR 6.x) presuppone un funzionamento diverso dell'hashing dei bucket Hive. Vedere l'esempio sottostante.

    La tabella seguente è un esempio creato rispettivamente in EMR 6.x ed EMR 5.x.

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    Sono stati inseriti gli stessi dati in EMR 6.x ed EMR 5.x.

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    Osservando la posizione S3, si nota che il nome del file di bucket è diverso, poiché la funzione di hashing è diversa tra EMR 6.x (Hive 3) e EMR 5.x (Hive 2).

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    Puoi notare la differenza di versione anche eseguendo il comando riportato di seguito nella CLI Hive in EMR 6.x. Potrai notare che la CLI restituisce bucket di versione 2.

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

Rilascio 5.31.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.31.0. Le modifiche sono relative alla versione 5.30.1.

Data del rilascio iniziale: 9 ottobre 2020

Ultimo aggiornamento: 15 ottobre 2020

Aggiornamenti
  • Connettore Amazon Glue aggiornato alla versione 1.13.0

  • Amazon SageMaker Spark SDK aggiornato alla versione 1.4.0

  • Connettore Amazon Kinesis aggiornato alla versione 3.5.9

  • Aggiornato AWS SDK for Java alla versione 1.11.852

  • Bigtop-tomcat aggiornato alla versione 8.5.56

  • EMR FS aggiornato alla versione 2.43.0

  • Client MetricsAndEventsApiGateway EMR aggiornato alla versione 1.4.0

  • EMR S3 Dist CP aggiornato alla versione 2.15.0

  • EMR S3 Select aggiornato alla versione 1.6.0

  • Flink aggiornato alla versione 1.11.0

  • Hadoop aggiornato alla versione 2.10.0

  • Hive aggiornato alla versione 2.3.7

  • Hudi aggiornato alla versione 0.6.0

  • Hue aggiornato alla versione 4.7.1

  • Aggiornato JupyterHub alla versione 1.1.0

  • MXNet aggiornato alla versione 1.6.0

  • OpenCV aggiornato alla versione 4.3.0

  • Presto aggiornato alla versione 0.238.3

  • TensorFlow aggiornato alla versione 2.1.0

Modifiche, miglioramenti e problemi risolti
  • Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.

  • È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.

  • I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.

  • SPARK-29683. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati.

  • YARN-9011. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi.

  • È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.

  • È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.

  • Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).

  • Le statistiche di colonna Hive sono supportate per Amazon EMR 5.31.0 e versioni successive.

  • Versioni dei componenti aggiornate.

  • Supporto di EMRFS S3EC V2 in Amazon EMR 5.31.0. In S3 Java SDK 1.11.837 e versioni successive, il client di crittografia versione 2 (S3EC V2) è stato introdotto con vari miglioramenti alla sicurezza. Per ulteriori informazioni, consulta gli argomenti seguenti:

    Il client di crittografia V1 è ancora disponibile nell'SDK per la compatibilità con le versioni precedenti.

Nuove funzionalità di
  • Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.

    Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.

    Impostazione di un ulimit esplicito dalla riga di comando
    1. Modifica /etc/systemd/system/instance-controller.service per aggiungere i seguenti parametri alla sezione Servizio.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Riavvio di InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Impostazione di un ulimit usando l'operazione di bootstrap (BA)

    È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Con Amazon EMR 5.31.0, puoi avviare un cluster che si integra con Lake Formation. L'integrazione fornisce un filtraggio dei dati granulare a livello di colonna a database e tabelle in AWS Glue Data Catalog. Inoltre, consente l'accesso federato single sign-on a EMR Notebooks o Apache Zeppelin da un sistema di identità aziendale. Per ulteriori informazioni, consulta Integrazione di Amazon EMR con AWS Lake Formation nella Guida alla gestione di Amazon EMR.

    Amazon EMR con Lake Formation è attualmente disponibile in 16 regioni AWS: Stati Uniti orientali (Ohio e N. Virginia), Stati Uniti occidentali (California settentrionale e Oregon), Asia Pacifico (Mumbai, Seoul, Singapore, Sydney e Tokyo), Canada (Centrale), Europa (Francoforte, Irlanda, Londra, Parigi e Stoccolma), Sud America (San Paolo).

Problemi noti
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

  • Quando la crittografia AtRestEncryption o HDFS è abilitata in un cluster che utilizza Amazon EMR 5.31.0 o 5.32.0, le query Hive determinano la seguente eccezione di runtime.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

Rilascio 6.1.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.1.0. Le modifiche sono relative alla versione 6.0.0.

Data del rilascio iniziale: 4 settembre 2020

Ultimo aggiornamento: 15 ottobre 2020

Applicazioni supportate
  • AWS SDK for Java versione 1.11.828

  • Flink versione 1.11.0

  • Ganglia versione 3.7.2

  • Hadoop versione 3.2.1-amzn-1

  • HBase versione 2.2.5

  • HBase-operator-tools 1.0.0

  • HCatalog versione 3.1.2-amzn-0

  • Hive versione 3.1.2-amzn-1

  • Hudi versione 0.5.2 in fase di sviluppo

  • Hue versione 4.7.1

  • JupyterHub versione 1.1.0

  • Livy versione 0.7.0

  • MXNet versione 1.6.0

  • Oozie versione 5.2.0

  • Phoenix versione 5.0.0

  • Presto versione 0.232

  • PrestoSQL versione 338

  • Spark versione 3.0.0-amzn-0

  • TensorFlow versione 2.1.0

  • Zeppelin versione 0.9.0-preview1

  • Zookeeper versione 3.4.14

  • Connettori e driver: DynamoDB Connector 4.14.0

Nuove funzionalità di
  • I tipi di istanze ARM sono supportati a partire da Amazon EMR versione 5.30.0 e Amazon EMR versione 6.1.0.

  • I tipi di istanze per uso generico M6g sono supportati a partire dalle versioni di Amazon EMR 6.1.0 e 5.30.0. Per ulteriori informazioni, consulta Tipi di istanza supportati nella Guida alla gestione di Amazon EMR.

  • La caratteristica del gruppo di collocamento EC2 è supportata a partire da Amazon EMR versione 5.23.0 come opzione per i cluster con più nodi primari. Attualmente, solo i tipi di nodi primari sono supportati dalla caratteristica del gruppo di collocamento e la strategia SPREAD viene applicata a tali nodi primari. La strategia SPREAD colloca un piccolo gruppo di istanze su hardware sottostante separato per evitare la perdita di più nodi primari in caso di guasto hardware. Per ulteriori informazioni, consulta Integrazione di EMR con il gruppo di collocamento EC2 nella Guida alla gestione di Amazon EMR.

  • Scalabilità gestita: con la versione 6.1.0 di Amazon EMR, puoi abilitare Scalabilità gestita di Amazon EMR per aumentare o diminuire automaticamente il numero di istanze o unità nel cluster in base al carico di lavoro. Amazon EMR valuta continuamente i parametri dei cluster per prendere decisioni di dimensionamento che ottimizzano i cluster in termini di costi e velocità. Il dimensionamento gestito è disponibile anche su Amazon EMR versione 5.30.0 e successive, tranne 6.0.0. Per maggiori informazioni, consulta Dimensionamento delle risorse del cluster nella Guida alla gestione di Amazon EMR.

  • PrestoSQL versione 338 è supportata con EMR 6.1.0. Per ulteriori informazioni, consulta Presto.

    • PrestoSQL è supportata solo su EMR 6.1.0 e versioni successive, non su EMR 6.0.0 o EMR 5.x.

    • Il nome dell'applicazione Presto continua ad essere utilizzato per installare PrestoDB sui cluster. Per installare PrestoSQL sui cluster, utilizza il nome dell'applicazione PrestoSQL.

    • È possibile installare PrestoDB o PrestoSQL, ma non è possibile installare entrambi in un singolo cluster. Se durante il tentativo di creare un cluster vengono specificati sia PrestoDB che PrestoSQL, si verifica un errore di convalida e la richiesta di creazione del cluster ha esito negativo.

    • PrestoSQL è supportato su entrambi i cluster single-master e muti-master. Nei cluster multi-master, è necessario un metastore Hive esterno per eseguire PrestoSQL o PrestoDB. Consulta la sezione Applicazioni supportate in un cluster EMR con più nodi primari.

  • Supporto per l'autenticazione automatica ECR su Apache Hadoop e Apache Spark con Docker: gli utenti di Docker possono utilizzare le immagini Docker da Docker Hub e Amazon Elastic Container Registry (Amazon ECR) per definire le dipendenze dell'ambiente e della libreria.

    Consulta Configurazione di Docker ed Esecuzione di applicazioni Spark con Docker utilizzando Amazon EMR 6.x.

  • EMR supporta le transazioni Apache Hive ACID: Amazon EMR 6.1.0 aggiunge il supporto per le transazioni Hive ACID in modo che sia conforme alle proprietà ACID di un database. Con questa funzione, puoi eseguire operazioni INSERT, UPDATE, DELETE, e MERGE nelle tabelle gestite da Hive con dati in Amazon Simple Storage Service (Amazon S3). Questa è una caratteristica chiave per casi d'uso come l'importazione dati in streaming, il riavvio dei dati, gli aggiornamenti in blocco tramite MERGE e la graduale variazione delle dimensioni. Per ulteriori informazioni, inclusi esempi di configurazione e casi d'uso, consulta Amazon EMR supporta le transazioni Apache Hive ACID.

Modifiche, miglioramenti e problemi risolti
  • Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.

  • È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.

  • I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.

  • SPARK-29683. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati.

  • YARN-9011. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi.

  • È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.

  • È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.

  • Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).

  • Apache Flink non è supportata su EMR 6.0.0, ma è supportata su EMR 6.1.0 con Flink 1.11.0. Si tratta della prima versione di Flink a supportare ufficialmente Hadoop 3. Consulta Annuncio del rilascio di Apache Flink 1.11.0.

  • Ganglia è stato rimosso dai pacchetti EMR 6.1.0 di default.

Problemi noti
  • Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.

    Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.

    Impostazione di un ulimit esplicito dalla riga di comando
    1. Modifica /etc/systemd/system/instance-controller.service per aggiungere i seguenti parametri alla sezione Servizio.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Riavvio di InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Impostazione di un ulimit usando l'operazione di bootstrap (BA)

    È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Importante

    Amazon EMR 6.1.0 e 6.2.0 includono un problema di prestazioni che può influire in modo critico su tutte le operazioni di inserimento, upsert ed eliminazione di Hudi. Se intendi utilizzare Hudi con Amazon EMR 6.1.0 o 6.2.0, contatta il supporto AWS per ottenere un RPM Hudi con patch.

  • L'impostazione di configurazioni di garbage collection personalizzate con spark.driver.extraJavaOptions e spark.executor.extraJavaOptions genera un errore di avvio del driver o dell'executor con EMR 6.1 a causa di una configurazione di garbage collection in conflitto. Con il rilascio EMR 6.1.0, è invece necessario specificare la configurazione di garbage collection Spark personalizzata per driver ed executor con le proprietà spark.driver.defaultJavaOptions e spark.executor.defaultJavaOptions. Per maggiori informazioni, consulta Ambiente di runtime Apache Spark e Configurazione di garbage collection Spark su Amazon EMR 6.1.0.

  • L'utilizzo di Pig con Oozie (e all'interno di Hue, dal momento che Hue utilizza le operazioni Oozie per eseguire gli script Pig) genera un errore che impedisce il caricamento di una libreria native-lzo. Questo messaggio di errore è informativo e non impedisce l'esecuzione di Pig.

  • Supporto della simultaneità di Hudi: attualmente, le scritture simultanee in una singola tabella Hudi non sono supportate. Inoltre, Hudi esegue il rollback di tutte le modifiche apportate dalle istanze di scrittura in corso prima di consentire l'avvio di una nuova istanza di scrittura. Le scritture simultanee possono interferire con questo meccanismo e introdurre condizioni di competizione, le quali possono causare il danneggiamento dei dati. È necessario assicurarsi che, come parte del flusso di lavoro di elaborazione dei dati, ci sia sempre una sola istanza di scrittura Hudi che opera su una tabella Hudi. Hudi supporta più istanze di lettura simultanee che operano sulla stessa tabella Hudi.

  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

  • Si è verificato un problema in Amazon EMR 6.1.0 che interessa i cluster che eseguono Presto. Dopo un lungo periodo di tempo (giorni), il cluster potrebbe generare errori come "su: failed to execute /bin/bash: Resource temporarily unavailable (su: impossibile eseguire /bin/bash: risorsa temporaneamente non disponibile)" o "shell request failed on channel 0 (richiesta shell non riuscita sul canale 0)". Questo problema è causato da un processo interno di Amazon EMR (InstanceController) che genera un numero eccessivo di processi leggeri (LWP) e, alla fine, fa sì che l'utente Hadoop superi il limite nproc. Ciò impedisce all'utente di aprire ulteriori processi. La soluzione a questo problema consiste nell'eseguire l'aggiornamento a EMR 6.2.0.

Rilascio 6.0.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 6.0.0.

Data del rilascio iniziale: 10 marzo 2020

Applicazioni supportate
  • AWS SDK for Java versione 1.11.711

  • Ganglia versione 3.7.2

  • Hadoop versione 3.2.1

  • HBase versione 2.2.3

  • HCatalog versione 3.1.2

  • Hive versione 3.1.2

  • Hudi versione 0.5.0 in fase di sviluppo

  • Hue versione 4.4.0

  • JupyterHub versione 1.0.0

  • Livy versione 0.6.0

  • MXNet versione 1.5.1

  • Oozie versione 5.1.0

  • Phoenix versione 5.0.0

  • Presto versione 0.230

  • Spark versione 2.4.4

  • TensorFlow versione 1.14.0

  • Zeppelin versione 0.9.0-SNAPSHOT

  • Zookeeper versione 3.4.14

  • Connettori e driver: DynamoDB Connector 4.14.0

Nota

Flink, Sqoop, Pig e Mahout non sono disponibili in Amazon EMR versione 6.0.0.

Nuove funzionalità di
Modifiche, miglioramenti e problemi risolti
  • Questa versione risolve i problemi di dimensionamento di Amazon EMR nei casi in cui non riesce ad aumentare/ridurre correttamente un cluster o causa errori dell'applicazione.

  • È stato risolto il problema per cui le richieste di dimensionamento avevano esito negativo per i cluster di grandi dimensioni e ad alto utilizzo quando i daemon su cluster di Amazon EMR eseguivano attività di controllo dell'integrità, come la raccolta dello stato del nodo YARN e dello stato del nodo HDFS. Ciò si verificava perché i daemon su cluster non erano in grado di comunicare i dati sullo stato di integrità di un nodo ai componenti interni di Amazon EMR.

  • I daemon su cluster di EMR sono stati migliorati per monitorare correttamente gli stati dei nodi quando gli indirizzi IP vengono riutilizzati per migliorare l'affidabilità durante le operazioni di dimensionamento.

  • SPARK-29683. È stato risolto il problema per cui si verificavano errori di processo durante la riduzione del cluster poiché Spark presupponeva che tutti i nodi disponibili fossero negati.

  • YARN-9011. È stato risolto il problema per cui si verificavano errori di processo a causa di una race condition nella disattivazione di YARN quando il cluster tentava di aumentare o ridursi.

  • È stato risolto il problema relativo agli errori di fase o processo durante il dimensionamento del cluster garantendo che gli stati dei nodi siano sempre coerenti tra i daemon su cluster di Amazon EMR e YARN/HDFS.

  • È stato risolto il problema a causa del quale le operazioni del cluster, come la riduzione e l'invio di fasi, non riuscivano per i cluster Amazon EMR abilitati con autenticazione Kerberos. Questo era dovuto al fatto che il daemon su cluster di Amazon EMR non rinnovava il ticket di Kerberos, necessario per comunicare in modo sicuro con HDFS/YARN in esecuzione sul nodo primario.

  • Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).

  • Amazon Linux

    • Amazon Linux 2 è il sistema operativo per la serie EMR 6.x.

    • systemd viene utilizzato per la gestione dei servizi al posto di upstart utilizzato in Amazon Linux 1.

  • Java Development Kit (JDK)

    • Corretto JDK 8 è il JDK predefinito per la serie delle versioni EMR 6.x.

  • Scala

    • Scala 2.12 è usato con Apache Spark e Apache Livy.

  • Python 3

    • Python 3 è ora la versione predefinita di Python in EMR.

  • Etichette nodo YARN

    • A partire dalla serie di rilascio Amazon EMR 6.x, la funzione etichette nodo YARN è disabilitata per impostazione predefinita. Per impostazione predefinita, i processi master dell'applicazione possono essere eseguiti su entrambi i nodi di task e core. È possibile abilitare la caratteristica etichette nodo YARN configurando le seguenti proprietà: yarn.node-labels.enabled e yarn.node-labels.am.default-node-label-expression. Per ulteriori informazioni, consulta la sezione Understanding Primary, Core, and Task Nodes (Informazioni sui nodi primari, core e attività).

Problemi noti
  • Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.

    Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.

    Impostazione di un ulimit esplicito dalla riga di comando
    1. Modifica /etc/systemd/system/instance-controller.service per aggiungere i seguenti parametri alla sezione Servizio.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Riavvio di InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Impostazione di un ulimit usando l'operazione di bootstrap (BA)

    È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • La shell interattiva di Spark, inclusi PySpark, SparkR e spark-shell, non supporta l'utilizzo di Docker con librerie aggiuntive.

  • Per utilizzare Python 3 con Amazon EMR versione 6.0.0, è necessario aggiungere PATH a yarn.nodemanager.env-whitelist.

  • La funzionalità Live Long and Process (LLAP) non è supportata quando si utilizza AWS Glue Data Catalog come metastore per Hive.

  • Quando si utilizza Amazon EMR 6.0.0 con l'integrazione di Spark e Docker, è necessario configurare le istanze nel cluster con lo stesso tipo di istanza e la stessa quantità di volumi EBS per evitare errori durante l'invio di un processo Spark con il runtime di Docker.

  • In Amazon EMR 6.0.0, la modalità di archiviazione di HBase su Amazon S3 è influenzata dal problema HBASE-24286. Impossibile inizializzare il master HBase quando il cluster viene creato utilizzando dati S3 esistenti.

  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.30.1

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.30.1. Le modifiche sono relative alla versione 5.30.0.

Data del rilascio iniziale: 30 giugno 2020

Ultimo aggiornamento: 24 agosto 2020

Modifiche, miglioramenti e problemi risolti
  • Le versioni più recenti di Amazon EMR risolvono il problema con un limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente di Amazon EMR. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono ora una correzione permanente con un'impostazione "Max open files" (Max. file aperti).

  • Risolto il problema per cui il processo del controller di istanza generava un numero infinito di processi.

  • Risolto un problema per cui Hue non era in grado di eseguire una query Hive, mostrando il messaggio "database is locked (database bloccato)" e impedendo l'esecuzione di query.

  • Risolto un problema Spark per consentire l'esecuzione simultanea di più attività nel cluster EMR.

  • Risolto un problema del notebook Jupyter che causava l'errore "too many open files (troppi file aperti)" nel server Jupyter.

  • Corretto un problema relativo all'ora di inizio del cluster.

Nuove funzionalità di
  • Le interfacce utente delle applicazioni persistenti Timeline Server di YARN e Tez sono disponibili con Amazon EMR versioni 6.x ed EMR versione 5.30.1 e successive. L'accesso ai collegamenti One-Click alla cronologia dell'applicazione persistente consente di accedere rapidamente alla cronologia dei processi senza configurare un proxy Web tramite una connessione SSH. I log dei cluster attivi e terminati sono disponibili per 30 giorni dopo la fine dell'applicazione. Per ulteriori informazioni, consulta Visualizzazione delle interfacce utente delle applicazioni persistenti nella Guida alla gestione di Amazon EMR.

  • Le API di esecuzione di EMR Notebooks sono disponibili per eseguire i notebook EMR tramite uno script o una riga di comando. La possibilità di avviare, arrestare, elencare e descrivere le esecuzioni dei notebook EMR senza la console AWS consente di controllare a livello di codice un notebook EMR. Utilizzando una cella del notebook parametrizzata, è possibile passare diversi valori di parametro a un notebook senza doverne creare una copia per ogni nuovo set di valori dei parametri. Consulta Operazioni dell'API EMR. Per un codice di esempio, consulta Comandi di esempio per eseguire EMR Notebooks a livello di codice.

Problemi noti
  • Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.

    Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.

    Impostazione di un ulimit esplicito dalla riga di comando
    1. Modifica /etc/systemd/system/instance-controller.service per aggiungere i seguenti parametri alla sezione Servizio.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Riavvio di InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Impostazione di un ulimit usando l'operazione di bootstrap (BA)

    È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • EMR Notebooks

    La caratteristica che consente di installare kernel e librerie Python aggiuntive sul nodo primario del cluster è disabilitata per impostazione predefinita in EMR versione 5.30.1. Per ulteriori informazioni su questa caratteristica, consulta la sezione Installing Kernels and Python Libraries on a Cluster Primary Node (Installazione di kernel e librerie Python su un nodo primario del cluster).

    Per abilitare questa funzione, procedi come segue:

    1. Assicurati che le policy di autorizzazione associate al ruolo di servizio per EMR Notebooks consentano l'operazione seguente:

      elasticmapreduce:ListSteps

      Per ulteriori informazioni, consultare il Ruolo del servizio per EMR Notebooks.

    2. Utilizza la AWS CLI per eseguire un passaggio sul cluster che imposta EMR Notebooks, come mostrato nell'esempio seguente. Sostituisci us-east-1 con la Regione in cui risiede il cluster. Per ulteriori informazioni, consulta Aggiunta di fasi a un cluster utilizzando la AWS CLI.

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • Dimensionamento gestito

    Le operazioni di dimensionamento gestito su cluster 5.30.0 e 5.30.1 senza Presto installato possono causare errori delle applicazioni o far sì che un gruppo di istanze o un parco istanze uniforme mantenga lo stato ARRESTED, in particolare quando un'operazione di dimensionamento verso il basso è seguita rapidamente da un'operazione di dimensionamento verso l'alto.

    Come soluzione alternativa, scegli Presto come applicazione da installare quando crei un cluster con Amazon EMR rilasci 5.30.0 e 5.30.1, anche se il tuo processo non richiede Presto.

  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

Rilascio 5.30.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.30.0. Le modifiche sono relative alla versione 5.29.0.

Data del rilascio iniziale: 13 marzo 2020

Ultimo aggiornamento: 25 giugno 2020

Aggiornamenti
  • Aggiornato AWS SDK for Java alla versione 1.11.759

  • Aggiornamento di Amazon SageMaker Spark SDK alla versione 1.3.0

  • Aggiornato EMR Record Server alla versione 1.6.0

  • Flink aggiornato alla versione 1.10.0

  • Aggiornato Ganglia alla versione 3.7.2

  • HBase aggiornato alla versione 1.4.13

  • Aggiornato Hudi alla versione 0.5.2-incubating

  • Hue aggiornato alla versione 4.6.0

  • Aggiornato JupyterHub alla versione 1.1.0

  • Livy aggiornato alla versione 0.7.0-incubating

  • Aggiornato Oozie alla versione 5.2.0

  • Presto aggiornato alla versione 0.232

  • Aggiornato Spark alla versione 2.4.5

  • Connettori e driver aggiornati: connettore Amazon Glue 1.12.0; connettore Amazon Kinesis 3.5.0; connettore EMR DynamoDB 4.14.0

Nuove funzionalità di
  • EMR Notebooks: se utilizzato con cluster EMR creati con 5.30.0, i kernel di EMR Notebooks vengono eseguiti sul cluster. Ciò migliora le prestazioni dei notebook e consente di installare e personalizzare i kernel. Puoi anche installare librerie Python sul nodo primario del cluster. Per ulteriori informazioni, consulta l'argomento relativo all'installazione e l'utilizzo di kernel e librerie nella Guida alla gestione di EMR.

  • Dimensionamento gestito: con la versione 5.30.0 e successive di Amazon EMR, puoi abilitare il dimensionamento gestito da EMR per aumentare o diminuire automaticamente il numero di istanze o unità nel cluster in base al carico di lavoro. Amazon EMR valuta continuamente i parametri dei cluster per prendere decisioni di dimensionamento che ottimizzano i cluster in termini di costi e velocità. Per maggiori informazioni, consulta Dimensionamento delle risorse del cluster nella Guida alla gestione di Amazon EMR.

  • Crittografia dei file di log archiviati in Amazon S3: con Amazon EMR versione 5.30.0 e successive, puoi crittografare i file di log archiviati in Amazon S3 con una chiave gestita dal cliente AWS KMS. Per ulteriori informazioni, consulta Crittografia dei file di log archiviati in Amazon S3 nella Guida alla gestione di Amazon EMR.

  • Supporto di Amazon Linux 2: nella versione EMR 5.30.0 e successive, EMR utilizza il sistema operativo Amazon Linux 2. Le nuove AMI personalizzate (Amazon Machine Image) devono essere basate sull'AMI Amazon Linux 2. Per ulteriori informazioni, consulta Utilizzo di un AMI personalizzato.

  • Scalabilità automatica Presto con tolleranza: i cluster EMR che usano 5.30.0 possono essere impostati con un periodo di timeout di scalabilità automatica che consente alle attività Presto di terminare l'esecuzione prima che il loro nodo venga disattivato. Per ulteriori informazioni, consulta Utilizzo della scalabilità automatica Presto con disattivazione con tolleranza.

  • Creazione di parchi istanze con nuova opzione di strategia di allocazione: una nuova opzione di strategia di allocazione è disponibile in EMR versione 5.12.1 e successive. Offre un provisioning dei cluster più rapido, un'allocazione di istanze Spot più accurata e una minore interruzione delle istanze Spot. Sono necessari aggiornamenti ai ruoli di servizio EMR non predefiniti. Consulta Configurazione di parchi istanze.

  • Comandi sudo systemctl stop e sudo systemctl start: nella versione EMR 5.30.0 e successive, le quali usano il sistema operativo Amazon Linux 2 OS, EMR utilizza i comandi sudo systemctl stop e sudo systemctl start per riavviare i servizi. Per ulteriori informazioni, consulta Come riavviare un servizio in Amazon EMR?.

Modifiche, miglioramenti e problemi risolti
  • EMR versione 5.30.0 non installa Ganglia per impostazione predefinita. È possibile selezionare esplicitamente Ganglia da installare quando si crea un cluster.

  • Ottimizzazione delle prestazioni di Spark.

  • Ottimizzazione delle prestazioni di Presto.

  • Python 3 è l'impostazione predefinita per Amazon EMR 5.30.0 e versioni successive.

  • Il gruppo di sicurezza gestito predefinito per l'accesso al servizio nelle sottoreti private è stato aggiornato con nuove regole. Se si utilizza un gruppo di sicurezza personalizzato per l'accesso al servizio, è necessario includere le stesse regole del gruppo di sicurezza gestito predefinito. Per ulteriori informazioni, consulta Gruppo di sicurezza gestito da Amazon EMR per l'accesso al servizio (sottoreti private). Se si utilizza un ruolo di servizio personalizzato per Amazon EMR, è necessario concedere l'autorizzazione a ec2:describeSecurityGroups per consentire a EMR di convalidare se i gruppi di sicurezza sono stati creati correttamente. Se si utilizza EMR_DefaultRole, questa autorizzazione è già inclusa nella policy gestita di default.

Problemi noti
  • Riduci il limite "Max open files" (Max. file aperti) sulla versione di AL2 meno recente [corretto nelle versioni più recenti]. Rilasci di Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 ed emr-6.2.0 si basano sulle versioni precedenti di Amazon Linux 2 (AL2), le quali hanno un'impostazione ulimit inferiore per "Max open files (Max. file aperti)" quando i cluster Amazon EMR vengono creati con l'AMI predefinita. Le versioni di Amazon EMR 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e successive includono una correzione permanente con un'impostazione "Max open files" (Max. file aperti). Le versioni con il limite minimo del file aperto causano l'errore "Too many open files" (Troppi file aperti) durante l'invio del processo Spark. Nelle versioni interessate, l'AMI predefinita di Amazon EMR ha un'impostazione ulimit di default di 4096 per "Max open files" (Max. file aperti), che è inferiore al limite di file 65536 nell'ultima AMI di Amazon Linux 2. L'impostazione ulimit inferiore per "Max open files (Max. file aperti)" causa il fallimento del processo Spark quando il driver e l'executor Spark tentano di aprire più di 4096 file. Per risolvere il problema, Amazon EMR dispone di uno script dell'operazione bootstrap (BA) che regola l'impostazione ulimit durante la creazione del cluster.

    Se utilizzi una versione di Amazon EMR meno recente che non ha la soluzione permanente per questo problema, la seguente soluzione alternativa consente di impostare esplicitamente l'ulimit del controller dell'istanza su un massimo di 65536 file.

    Impostazione di un ulimit esplicito dalla riga di comando
    1. Modifica /etc/systemd/system/instance-controller.service per aggiungere i seguenti parametri alla sezione Servizio.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Riavvio di InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Impostazione di un ulimit usando l'operazione di bootstrap (BA)

    È inoltre possibile utilizzare uno script dell'operazione di bootstrap (BA) per configurare l'ulimit del controller di istanza a 65536 file durante la creazione del cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Dimensionamento gestito

    Le operazioni di dimensionamento gestito su cluster 5.30.0 e 5.30.1 senza Presto installato possono causare errori delle applicazioni o far sì che un gruppo di istanze o un parco istanze uniforme mantenga lo stato ARRESTED, in particolare quando un'operazione di dimensionamento verso il basso è seguita rapidamente da un'operazione di dimensionamento verso l'alto.

    Come soluzione alternativa, scegli Presto come applicazione da installare quando crei un cluster con Amazon EMR rilasci 5.30.0 e 5.30.1, anche se il tuo processo non richiede Presto.

  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

  • Il motore di database predefinito per Hue 4.6.0 è SQLite, che causa problemi quando si tenta di utilizzare Hue con un database esterno. Per risolvere questo problema, imposta engine nella tua classificazione di configurazione hue-ini su mysql. Questo problema è stato risolto nella versione 5.30.1 di Amazon EMR.

  • Se utilizzi Spark con la formattazione della posizione delle partizioni Hive per leggere i dati in Amazon S3 ed esegui Spark nei rilasci di Amazon EMR da 5.30.0 a 5.36.0 e da 6.2.0 a 6.9.0, potresti riscontrare un problema che impedisce al cluster di leggere correttamente i dati. Ciò può accadere se le partizioni presentano tutte le seguenti caratteristiche:

    • Due o più partizioni vengono scansionate dalla stessa tabella.

    • Almeno un percorso di directory di partizione è il prefisso di almeno un altro percorso della directory di partizione, ad esempio s3://bucket/table/p=a è un prefisso di s3://bucket/table/p=a b.

    • Il primo carattere che segue il prefisso nell'altra directory di partizione ha un valore UTF-8 inferiore al carattere / (U+002F). Ad esempio, rientra in questa categoria il carattere dello spazio (U+0020) che compare tra a e b in s3://bucket/table/p=a b. Tieni presente che esistono altri 14 caratteri non di controllo: !"#$%&‘()*+,-. Per ulteriori informazioni, consulta la sezione UTF-8 encoding table and Unicode characters (Tabella di codifica UTF-8 e caratteri Unicode).

    Per ovviare a questo problema, imposta la configurazione di spark.sql.sources.fastS3PartitionDiscovery.enabled su false nella classificazione di spark-defaults.

Rilascio 5.29.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.29.0. Le modifiche sono relative alla versione 5.28.1.

Data del rilascio iniziale: 17 gennaio 2020

Aggiornamenti
  • Aggiornato AWS SDK for Java alla versione 1.11.682

  • Hive aggiornato alla versione 2.3.6

  • Flink aggiornato alla versione 1.9.1

  • EmrFS aggiornato alla versione 2.38.0

  • EMR DynamoDB Connector aggiornato alla versione 4.13.0

Modifiche, miglioramenti e problemi risolti
  • Spark

    • Ottimizzazione delle prestazioni di Spark.

  • EMRFS

    • La Guida alla gestione aggiorna le impostazioni predefinite di emrfs-site.xml per una visualizzazione coerente.

Problemi noti
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.28.1

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.28.1. Le modifiche sono relative alla versione 5.28.0.

Data del rilascio iniziale: 10 gennaio 2020

Modifiche, miglioramenti e problemi risolti
  • Spark

    • Risolti i problemi di compatibilità di Spark.

  • Parametri di CloudWatch

    • È stata corretta la pubblicazione dei parametri di Amazon CloudWatch su un cluster EMR con più nodi primari.

  • Messaggio di log disattivato

    • Messaggio di falso log disabilitato, "[...] utilizzando la vecchia versione (<4.5.8) del client http Apache".

Problemi noti
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.28.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.28.0. Le modifiche sono relative alla versione 5.27.0.

Data del rilascio iniziale: 12 novembre 2019

Aggiornamenti
  • Flink aggiornato alla versione 1.9.0

  • Hive aggiornato alla versione 2.3.6

  • MXNet aggiornato alla versione 1.5.1

  • Phoenix aggiornato alla versione 4.14.3

  • Presto aggiornato alla versione 0.227

  • Zeppelin aggiornato alla versione 0.8.2

Nuove funzionalità di
  • Apache Hudi è ora disponibile per Amazon EMR per l'installazione durante la creazione di un cluster. Per ulteriori informazioni, consulta Hudi.

  • (25 novembre 2019) È ora possibile scegliere di eseguire più fasi in parallelo per migliorare l'utilizzo dei cluster e risparmiare sui costi. È anche possibile annullare sia le fasi in attesa che quelle in esecuzione. Per ulteriori informazioni, consultare Utilizzo di fasi mediante l'AWS CLI e la console.

  • (3 dicembre 2019) Adesso è possibile creare ed eseguire cluster EMR su AWS Outposts. AWS Outposts abilita i servizi nativi di, l'infrastruttura e i modelli operativi di AWS nelle strutture in locale. Negli ambienti AWS Outposts è possibile utilizzare le stesse API, strumenti e infrastruttura AWS utilizzati in AWS Cloud. Per ulteriori informazioni, consulta Cluster EMR su AWS Outposts.

  • (11 marzo 2020) A partire dalla versione Amazon EMR 5.28.0, è possibile creare ed eseguire i cluster Amazon EMR in una sottorete di AWS Local Zones come estensione logica di una Regione AWS che supporta le Local Zones. Una Local Zone consente ad Amazon EMR di individuare le funzionalità e un subset di servizi AWS, come i servizi di calcolo e archiviazione, per essere il più possibile vicina agli utenti, fornendo accesso a latenza molto bassa alle applicazioni in esecuzione localmente. Per un elenco delle Local Zones disponibili, consulta AWS Local Zones. Per informazioni sull'accesso disponibile per le Local Zones AWS, consulta Regioni, zone di disponibilità e Local Zones.

    Attualmente, Local Zones non supporta Amazon EMR Notebooks e non supporta connessioni effettuate direttamente ad Amazon EMR utilizzando l'interfaccia endpoint VPC (AWS PrivateLink).

Modifiche, miglioramenti e problemi risolti
  • Ampliato il supporto delle applicazioni per i cluster a elevata disponibilità

  • Spark

    • Ottimizzazione delle prestazioni

  • Hive

    • Ottimizzazione delle prestazioni

  • Presto

    • Ottimizzazione delle prestazioni

Problemi noti
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Release 5.27.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.27.0. Le modifiche sono relative alla versione 5.26.0.

Data del rilascio iniziale: 23 settembre 2019

Aggiornamenti
  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • TensorFlow 1.14.0

  • Connettori e driver:

    • DynamoDB Connector 4.12.0

Nuove funzionalità di
  • (24 ottobre 2019) Le seguenti nuove caratteristiche in EMR Notebooks sono disponibili con tutte le versioni di Amazon EMR

    • Ora è possibile associare repository Git ai notebook EMR per archiviare i notebook in un ambiente controllato dalla versione. È possibile condividere il codice con i peer e riutilizzare i notebook Jupyter esistenti tramite repository Git remoti. Per ulteriori informazioni, consulta Associazione di repository Git ad Amazon EMR Notebooks nella Guida alla gestione di Amazon EMR.

    • L'utility nbdime è ora disponibile in EMR Notebooks per semplificare il confronto e la fusione di notebook.

    • Adesso, EMR Notebooks supporta JupyterLab. JupyterLab è un ambiente di sviluppo interattivo basato sul Web completamente compatibile con i notebook Jupyter. Ora è possibile scegliere di aprire il notebook nell'editor del notebook Jupyter o JupyterLab.

  • (30 ottobre 2019) Con Amazon EMR versione 5.25.0 e successive, è possibile connettersi all'interfaccia utente di Spark History Server dalla pagina Summary (Riepilogo) del cluster o dalla scheda Application history (Cronologia applicazioni) nella console. Anziché configurare un proxy Web tramite una connessione SSH, puoi accedere rapidamente all'interfaccia utente del server della cronologia Spark per visualizzare i parametri dell'applicazione e accedere ai file di log pertinenti per cluster attivi e terminati. Per ulteriori informazioni, consulta Accesso fuori cluster alle interfacce utente dell'applicazione persistente nella Guida alla gestione di Amazon EMR.

Modifiche, miglioramenti e problemi risolti
Problemi noti
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.26.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.26.0. Le modifiche sono relative alla versione 5.25.0.

Data del rilascio iniziale: 8 agosto 2019

Ultimo aggiornamento: 19 agosto 2019

Aggiornamenti
  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • Connettori e driver:

    • DynamoDB Connector 4.11.0

    • MariaDB Connector 2.4.2

    • Driver JDBC Amazon Redshift 1.2.32.1056

Nuove funzionalità di
  • (Beta) Con Amazon EMR 5.26.0 puoi avviare un cluster che si integra con Lake Formation. L'integrazione fornisce un accesso granulare a livello di colonna a database e tabelle in AWS Glue Data Catalog. Inoltre, consente l'accesso federato single sign-on a EMR Notebooks o Apache Zeppelin da un sistema di identità aziendale. Per ulteriori informazioni, consulta Integrazione di Amazon EMR con AWS Lake Formation (Beta).

  • (19 agosto 2019) Il blocco dell'accesso pubblico in Amazon EMR è ora disponibile con tutti i rilasci di Amazon EMR che supportano i gruppi di sicurezza. Il blocco dell'accesso pubblico è un'impostazione a livello di account applicata a ogni Regione AWS. Il blocco degli accessi pubblici impedisce l'avvio di un cluster quando per un gruppo di sicurezza a esso associato è impostata una regola che consente il traffico in entrata da IPv4 0.0.0.0/0 o IPv6 ::/0 (accesso pubblico) su una porta, a meno che la porta non sia specificata come eccezione. La porta 22 è un'eccezione per impostazione predefinita. Per ulteriori informazioni, consulta Utilizzo del blocco dell'accesso pubblico in Amazon EMR nella Guida alla gestione di Amazon EMR.

Modifiche, miglioramenti e problemi risolti
  • Notebook EMR

    • Con EMR 5.26.0 e versioni successive, EMR Notebooks supporta librerie Python con ambito notebook oltre alle librerie Python predefinite. È possibile installare librerie con ambito notebook dall'editor di notebook senza dover ricreare un cluster o ricollegare un notebook a un cluster. Le librerie con ambito notebook vengono create in un ambiente Python virtuale in modo da essere applicate esclusivamente alla sessione di notebook corrente. Ciò consente di isolare le dipendenze dei notebook. Per ulteriori informazioni, consulta Utilizzo di librerie con ambito notebook nella Guida alla gestione di Amazon EMR.

  • EMRFS

    • È possibile abilitare una funzione di verifica ETag (Beta) impostando fs.s3.consistent.metadata.etag.verification.enabled su true. Con questa caratteristica, EMRFS utilizza gli ETag Amazon S3 per verificare che gli oggetti letti siano la versione più recente disponibile. Questa caratteristica è utile per i casi d'uso read-after-update in cui i file in Amazon S3 vengono sovrascritti mantenendo lo stesso nome. Questa caratteristica di verifica ETag attualmente non funziona con S3 Select. Per ulteriori informazioni, consulta Configurazione della visualizzazione coerente.

  • Spark

    • Le seguenti ottimizzazioni sono ora abilitate per impostazione predefinita: eliminazione dinamica delle partizioni, DISTINCT prima di INTERSECT, miglioramenti nell'inferenza delle statistiche del piano SQL per JOIN seguita da query DISTINCT, appiattimento delle sottoquery scalari, riordino di join ottimizzato e join del filtro Bloom. Per ulteriori informazioni, consulta Ottimizzazione delle prestazioni Spark.

    • Migliorata la generazione del codice della fase per Sort Merge Join.

    • Migliorato il frammento di query e il riutilizzo delle sottoquery.

    • Miglioramenti per assegnare preventivamente gli executor all'avvio di Spark.

    • I join del filtro Bloom non vengono più applicati quando il lato più piccolo del join include un suggerimento per la trasmissione.

  • Tez

    • Risolto un problema con Tez. Ora l'interfaccia utente di Tez funziona su un cluster Amazon EMR con più nodi primari.

Problemi noti
  • Le funzionalità migliorate di generazione del codice dell'intera fase per Sort Merge Join possono aumentare la pressione della memoria quando abilitate. Questa ottimizzazione migliora le prestazioni, ma può comportare tentativi multipli o errori di processo se spark.yarn.executor.memoryOverheadFactor non è regolato per fornire una memoria sufficiente. Per disabilitare questa funzionalità, imposta spark.sql.sortMergeJoinExec.extendedCodegen.enabled su false (falso).

  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.25.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.25.0. Le modifiche sono relative alla versione 5.24.1

Data del rilascio iniziale: 17 luglio 2019

Ultimo aggiornamento: 30 ottobre 2019

Amazon EMR 5.25.0

Aggiornamenti
  • AWS SDK for Java 1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • ZooKeeper 3.4.14

Nuove funzionalità di
  • (30 ottobre 2019) A partire da Amazon EMR versione 5.25.0, è possibile connettersi all'interfaccia utente di Spark History Server dalla pagina Summary (Riepilogo) del cluster o dalla scheda Application history (Cronologia applicazioni) nella console. Anziché configurare un proxy Web tramite una connessione SSH, puoi accedere rapidamente all'interfaccia utente del server della cronologia Spark per visualizzare i parametri dell'applicazione e accedere ai file di log pertinenti per cluster attivi e terminati. Per ulteriori informazioni, consulta Accesso fuori cluster alle interfacce utente dell'applicazione persistente nella Guida alla gestione di Amazon EMR.

Modifiche, miglioramenti e problemi risolti
  • Spark

    • Migliorate le prestazioni di alcuni join utilizzando i filtri Bloom per pre-filtrare gli input. L'ottimizzazione è disattivata per impostazione predefinita e può essere abilitata impostando il parametro di configurazione Spark spark.sql.bloomFilterJoin.enabled su true.

    • Migliorate le prestazioni del raggruppamento per colonne di tipo stringa.

    • Migliorata la memoria dell'executor Spark predefinita e la configurazione dei nodi principali dei tipi di istanza R4 per i cluster senza HBase installato.

    • Risolto un problema precedente correlato alla caratteristica di eliminazione delle partizioni dinamiche in cui la tabella eliminata deve trovarsi sul lato sinistro del join.

    • Migliorata l'ottimizzazione di DISTINCT prima di INTERSECT da applicare a casi aggiuntivi che coinvolgono alias.

    • Migliore inferenza delle statistiche del piano SQL per JOIN seguita da query DISTINCT. Questo miglioramento è disattivato per impostazione predefinita e può essere abilitato impostando il parametro di configurazione Spark spark.sql.statsImprovements.enabled su true. Questa ottimizzazione è richiesta dalla funzionalità Distinct prima di Intersect e verrà abilitata automaticamente quando spark.sql.optimizer.distinctBeforeIntersect.enabled è impostato su true.

    • Ordine di join ottimizzato in base alle dimensioni della tabella e ai filtri. Questa ottimizzazione è disattivata per impostazione predefinita e può essere abilitata impostando il parametro di configurazione Spark spark.sql.optimizer.sizeBasedJoinReorder.enabled su true.

    Per ulteriori informazioni, consulta Ottimizzazione delle prestazioni Spark.

  • EMRFS

    • L'impostazione EMRFS, fs.s3.buckets.create.enabled, è ora disabilitata per impostazione predefinita. A seguito di alcuni test, abbiamo scoperto che la disattivazione di questa impostazione migliora le prestazioni e impedisce la creazione involontaria di bucket S3. Se l'applicazione si basa su questa funzionalità, è possibile attivarla impostando la proprietà fs.s3.buckets.create.enabled su true nella classificazione di configurazione emrfs-site. Per informazioni, consulta Specifica di una configurazione durante la creazione di un cluster.

  • Miglioramenti della crittografia del disco locale e della crittografia S3 nelle configurazioni di sicurezza (5 agosto 2019)

    • Separate le impostazioni di crittografia Amazon S3 dalle impostazioni di crittografia del disco locale nella configurazione della protezione.

    • Aggiunta un'opzione per abilitare la crittografia EBS con la versione 5.24.0 e successive. Selezionando questa opzione, il volume del dispositivo di root viene crittografato oltre ai volumi di archiviazione. Le versioni precedenti richiedevano l'uso di un'AMI personalizzata per crittografare il volume del dispositivo di root.

    • Per ulteriori informazioni, consulta Opzioni di crittografia nella Guida alla gestione di Amazon EMR.

Problemi noti
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Release 5.24.1

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.24.1. Le modifiche sono relative alla versione 5.24.0.

Data del rilascio iniziale: 26 giugno 2019

Modifiche, miglioramenti e problemi risolti
  • Aggiornata l'AMI predefinita Amazon Linux per Amazon EMR per importanti aggiornamenti di sicurezza del kernel Linux, inclusi i problemi di negazione del servizio TCP SACK (AWS-2019-005).

Problemi noti
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.24.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.24.0. Le modifiche sono relative alla versione 5.23.0.

Data del rilascio iniziale: 11 giugno 2019

Ultimo aggiornamento: 5 agosto 2019

Aggiornamenti
  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MXNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java 1.11.546

  • Connettori e driver:

    • DynamoDB Connector 4.9.0

    • MariaDB Connector 2.4.1

    • Driver JDBC Amazon Redshift 1.2.27.1051

Modifiche, miglioramenti e problemi risolti
  • Spark

    • Aggiunta ottimizzazione per eliminare dinamicamente le partizioni. Per impostazione predefinita, l'ottimizzazione è disabilitata. Per abilitare questa opzione, occorre impostare il parametro di configurazione Spark spark.sql.dynamicPartitionPruning.enabled su true.

    • Migliorate le prestazioni delle query INTERSECT. Per impostazione predefinita, l'ottimizzazione è disabilitata. Per abilitare questa opzione, occorre impostare il parametro di configurazione Spark spark.sql.optimizer.distinctBeforeIntersect.enabled su true.

    • Aggiunta ottimizzazione per appiattire le sottoquery scalari con aggregati che utilizzano la stessa relazione. Per impostazione predefinita, l'ottimizzazione è disabilitata. Per abilitare questa opzione, occorre impostare il parametro di configurazione Spark spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled su true.

    • Migliorata la generazione del codice della fase.

    Per ulteriori informazioni, consulta Ottimizzazione delle prestazioni Spark.

  • Miglioramenti della crittografia del disco locale e della crittografia S3 nelle configurazioni di sicurezza (5 agosto 2019)

    • Separate le impostazioni di crittografia Amazon S3 dalle impostazioni di crittografia del disco locale nella configurazione della protezione.

    • Aggiunta un'opzione per abilitare la crittografia EBS. Selezionando questa opzione, il volume del dispositivo di root viene crittografato oltre ai volumi di archiviazione. Le versioni precedenti richiedevano l'uso di un'AMI personalizzata per crittografare il volume del dispositivo di root.

    • Per ulteriori informazioni, consulta Opzioni di crittografia nella Guida alla gestione di Amazon EMR.

Problemi noti
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.23.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.23.0. Le modifiche sono relative alla versione 5.22.0.

Data del rilascio iniziale: 1° aprile 2019

Ultimo aggiornamento: 30 aprile 2019

Aggiornamenti
  • AWS SDK for Java 1.11.519

Nuove funzionalità di
  • (30 aprile 2019) Con Amazon EMR rilascio 5.23.0 e successivi, è possibile avviare un cluster con tre nodi primari per supportare applicazioni a elevata disponibilità come YARN Resource Manager, HDFS NameNode, Spark, Hive e Ganglia. Con questa caratteristica, il nodo primario non rappresenta più un potenziale singolo punto di errore. Se uno dei nodi primari ha esito negativo, Amazon EMR esegue automaticamente il failover in un nodo primario in standby e sostituisce il nodo primario guasto con uno nuovo con le medesime operazioni di configurazione e di bootstrap. Per ulteriori informazioni, consulta la sezione Plan and Configure Primary Nodes (Pianificazione e configurazione dei nodi primari).

Problemi noti
  • Interfaccia utente Tez (corretta in Amazon EMR rilascio 5.26.0)

    L'interfaccia utente di Tez non funziona su un cluster EMR con più nodi primari.

  • Hue (corretto in Amazon EMR rilascio 5.24.0)

    • Hue in esecuzione su Amazon EMR non supporta Solr. A partire da Amazon EMR rilascio 5.20.0, un problema di configurazione errata causa l'attivazione di Solr e un messaggio di errore innocuo simile al seguente:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Per evitare che venga visualizzato il messaggio di errore Solr:

      1. Effettua la connessione alla linea di comando del nodo primario tramite SSH.

      2. Aprire il file hue.ini con un editor di testo. Ad esempio:

        sudo vim /etc/hue/conf/hue.ini

      3. Cerca il termine appblacklist e modifica la riga nel modo seguente:

        appblacklist = search
      4. Salva le modifiche e riavvia Hue come nell'esempio seguente:

        sudo stop hue; sudo start hue
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.22.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.22.0. Le modifiche sono relative alla versione 5.21.0.

Importante

A partire da Amazon EMR rilascio 5.22.0, Amazon EMR utilizza AWS Signature Version 4 esclusivamente per autenticare le richieste inviate ad Amazon S3. I rilasci precedenti di Amazon EMR impiegano AWS Signature Version 2 in alcuni casi, a meno che le note di rilascio indichino l'utilizzo esclusivo di Signature Version 4. Per ulteriori informazioni, consulta Autenticazione delle richieste (AWS Signature Version 4) e Autenticazione delle richieste (AWS Signature Version 2) nella Guida per gli sviluppatori di Amazon Simple Storage.

Data del rilascio iniziale: 20 marzo 2019

Aggiornamenti
  • Flink 1.7.1

  • HBase 1.4.9

  • Oozie 5.1.0

  • Phoenix 4.14.1

  • Zeppelin 0.8.1

  • Connettori e driver:

    • DynamoDB Connector 4.8.0

    • MariaDB Connector 2.2.6

    • Driver JDBC Amazon Redshift 1.2.20.1043

Nuove funzionalità di
  • Modificata la configurazione EBS predefinita per i tipi di istanza EC2 con archiviazione solo EBS. Quando crei un cluster utilizzando Amazon EMR rilascio 5.22.0 e successivi, la quantità di archiviazione EBS predefinita aumenta in base alle dimensioni dell'istanza. Inoltre, l'archiviazione aumentata viene divisa su più volumi, offrendo migliori prestazioni IOPS. Se desideri utilizzare una configurazione dello storage delle istanze EBS diversa, puoi specificarla al momento della creazione di un cluster EMR o aggiungere nodi a un cluster esistente. Per ulteriori informazioni sulla quantità di archiviazione e sul numero di volumi allocati per impostazione predefinita per ciascun tipo di istanza, consulta Archiviazione EBS di default per istanze nella Guida alla gestione di Amazon EMR.

Modifiche, miglioramenti e problemi risolti
  • Spark

    • Introdotta una nuova proprietà di configurazione per Spark su YARN, spark.yarn.executor.memoryOverheadFactor. Il valore di questa proprietà è un fattore di scala che imposta il valore del sovraccarico della memoria su una percentuale di memoria dell'executor, con un minimo di 384 MB. Se l'overhead della memoria è impostato esplicitamente utilizzando spark.yarn.executor.memoryOverhead, questa proprietà non ha effetto. Il valore predefinito è 0.1875, che rappresenta il 18,75%. Questo valore predefinito per Amazon EMR lascia più spazio nei container YARN per l'overhead della memoria dell'executor rispetto al 10% predefinito impostato internamente da Spark. L'impostazione predefinita di Amazon EMR del 18,75% ha mostrato un minor numero di errori relativi alla memoria nei benchmark TPC-DS.

    • Backport di SPARK-26316 per migliorare le prestazioni.

  • In Amazon EMR versione 5.19.0, 5.20.0 e 5.21.0, le etichette dei nodi YARN sono memorizzate in una directory HDFS. In alcune situazioni, questo porta a ritardi di avvio del nodo principale e quindi causa il timeout del cluster e l'errore di avvio. A partire da Amazon EMR 5.22.0, questo problema è stato risolto. Le etichette dei nodi YARN sono memorizzate sul disco locale di ciascun nodo cluster, evitando dipendenze da HDFS.

Problemi noti
  • Hue (corretto in Amazon EMR rilascio 5.24.0)

    • Hue in esecuzione su Amazon EMR non supporta Solr. A partire da Amazon EMR rilascio 5.20.0, un problema di configurazione errata causa l'attivazione di Solr e un messaggio di errore innocuo simile al seguente:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Per evitare che venga visualizzato il messaggio di errore Solr:

      1. Effettua la connessione alla linea di comando del nodo primario tramite SSH.

      2. Aprire il file hue.ini con un editor di testo. Ad esempio:

        sudo vim /etc/hue/conf/hue.ini

      3. Cerca il termine appblacklist e modifica la riga nel modo seguente:

        appblacklist = search
      4. Salva le modifiche e riavvia Hue come nell'esempio seguente:

        sudo stop hue; sudo start hue
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.21.1

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.21.1. Le modifiche sono relative alla versione 5.21.0.

Data del rilascio iniziale: 18 luglio 2019

Modifiche, miglioramenti e problemi risolti
  • Aggiornata l'AMI predefinita Amazon Linux per Amazon EMR per importanti aggiornamenti di sicurezza del kernel Linux, inclusi i problemi di negazione del servizio TCP SACK (AWS-2019-005).

Problemi noti
  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.21.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.21.0. Le modifiche sono relative alla versione 5.20.0.

Data del rilascio iniziale: 18 febbraio 2019

Ultimo aggiornamento: 3 aprile 2019

Aggiornamenti
  • Flink 1.7.0

  • Presto 0.215

  • AWS SDK for Java 1.11.479

Nuove funzionalità di
  • (3 aprile 2019) Con Amazon EMR versione 5.21.0 e successive, puoi sovrascrivere le configurazioni del cluster e specificare classificazioni di configurazione aggiuntive per ogni gruppo di istanze in un cluster in esecuzione. A questo scopo, utilizza la console Amazon EMR, la AWS Command Line Interface (AWS CLI) o il kit SDK AWS. Per ulteriori informazioni, consulta Specifica di una configurazione per un gruppo di istanze in un cluster in esecuzione.

Modifiche, miglioramenti e problemi risolti
Problemi noti
  • Hue (corretto in Amazon EMR rilascio 5.24.0)

    • Hue in esecuzione su Amazon EMR non supporta Solr. A partire da Amazon EMR rilascio 5.20.0, un problema di configurazione errata causa l'attivazione di Solr e un messaggio di errore innocuo simile al seguente:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Per evitare che venga visualizzato il messaggio di errore Solr:

      1. Effettua la connessione alla linea di comando del nodo primario tramite SSH.

      2. Aprire il file hue.ini con un editor di testo. Ad esempio:

        sudo vim /etc/hue/conf/hue.ini

      3. Cerca il termine appblacklist e modifica la riga nel modo seguente:

        appblacklist = search
      4. Salva le modifiche e riavvia Hue come nell'esempio seguente:

        sudo stop hue; sudo start hue
  • Tez

    • Questo problema è stato risolto in Amazon EMR 5.22.0.

      Quando ci si connette all'interfaccia utente Tez all'indirizzo http://MasterDNS:8080/tez-ui tramite una connessione SSH al nodo primario del cluster, viene visualizzato l'errore "Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled (Operazione adattatore fallita: server Timeline (ATS) fuori portata. O è inattivo o CORS non è abilitato)" o le attività mostrano una dicitura N/A inaspettata.

      Ciò è dovuto al fatto che l'interfaccia utente Tez effettua richieste al server Timeline YARN utilizzando localhost anziché il nome host del nodo primario. Come soluzione alternativa, è disponibile uno script da eseguire come operazione o fase di bootstrap. Lo script aggiorna il nome host nel file Tez configs.env. Per ulteriori informazioni e per la posizione dello script, consulta Istruzioni di bootstrap.

  • In Amazon EMR versione 5.19.0, 5.20.0 e 5.21.0, le etichette dei nodi YARN sono memorizzate in una directory HDFS. In alcune situazioni, questo porta a ritardi di avvio del nodo principale e quindi causa il timeout del cluster e l'errore di avvio. A partire da Amazon EMR 5.22.0, questo problema è stato risolto. Le etichette dei nodi YARN sono memorizzate sul disco locale di ciascun nodo cluster, evitando dipendenze da HDFS.

  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.20.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.20.0. Le modifiche sono relative alla versione 5.19.0.

Data del rilascio iniziale: 18 dicembre 2018

Ultimo aggiornamento: 22 gennaio 2019

Aggiornamenti
  • Flink 1.6.2

  • HBase 1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet 1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • AWS SDK for Java 1.11.461

Nuove funzionalità di
  • (22 gennaio 2019) Kerberos in Amazon EMR è stato migliorato per supportare l'autenticazione delle entità principali da un KDC esterno. In questo modo, la gestione dei principali viene centralizzata perché più cluster possono condividere un unico server KDC esterno. Inoltre, il server KDC esterno può avere un trust tra realm con un dominio Active Directory. In questo modo, tutti i cluster possono autenticare i principali da Active Directory. Per ulteriori informazioni, consulta Utilizzo dell'autenticazione Kerberos nella Guida alla gestione di Amazon EMR.

Modifiche, miglioramenti e problemi risolti
  • AMI predefinita di Amazon Linux per Amazon EMR

    • Il pacchetto Python3 è stato aggiornato da python 3.4 a 3.6.

  • Il committer ottimizzato S3 EMRFS

  • Hive

  • Glue con Spark e Hive

    • In EMR 5.20.0 o versioni successive, l'eliminazione delle partizioni parallele viene abilitata automaticamente per Spark e Hive quando AWS Glue Data Catalog viene utilizzato come metastore. Questa modifica riduce significativamente i tempi di pianificazione delle query eseguendo più richieste in parallelo per recuperare le partizioni. Il numero totale di segmenti che è possibile eseguire contemporaneamente è compreso tra 1 e 10. Il valore di default è 5, che è l'impostazione consigliata. Puoi modificare questa impostazione specificando la proprietà aws.glue.partition.num.segments nella classificazione di configurazione hive-site. Se si verifica una limitazione, è possibile disattivare la funzione modificando il valore su 1. Per ulteriori informazioni, consulta Struttura del segmento AWS Glue.

Problemi noti
  • Hue (corretto in Amazon EMR rilascio 5.24.0)

    • Hue in esecuzione su Amazon EMR non supporta Solr. A partire da Amazon EMR rilascio 5.20.0, un problema di configurazione errata causa l'attivazione di Solr e un messaggio di errore innocuo simile al seguente:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Per evitare che venga visualizzato il messaggio di errore Solr:

      1. Effettua la connessione alla linea di comando del nodo primario tramite SSH.

      2. Aprire il file hue.ini con un editor di testo. Ad esempio:

        sudo vim /etc/hue/conf/hue.ini

      3. Cerca il termine appblacklist e modifica la riga nel modo seguente:

        appblacklist = search
      4. Salva le modifiche e riavvia Hue come nell'esempio seguente:

        sudo stop hue; sudo start hue
  • Tez

    • Questo problema è stato risolto in Amazon EMR 5.22.0.

      Quando ci si connette all'interfaccia utente Tez all'indirizzo http://MasterDNS:8080/tez-ui tramite una connessione SSH al nodo primario del cluster, viene visualizzato l'errore "Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled (Operazione adattatore fallita: server Timeline (ATS) fuori portata. O è inattivo o CORS non è abilitato)" o le attività mostrano una dicitura N/A inaspettata.

      Ciò è dovuto al fatto che l'interfaccia utente Tez effettua richieste al server Timeline YARN utilizzando localhost anziché il nome host del nodo primario. Come soluzione alternativa, è disponibile uno script da eseguire come operazione o fase di bootstrap. Lo script aggiorna il nome host nel file Tez configs.env. Per ulteriori informazioni e per la posizione dello script, consulta Istruzioni di bootstrap.

  • In Amazon EMR versione 5.19.0, 5.20.0 e 5.21.0, le etichette dei nodi YARN sono memorizzate in una directory HDFS. In alcune situazioni, questo porta a ritardi di avvio del nodo principale e quindi causa il timeout del cluster e l'errore di avvio. A partire da Amazon EMR 5.22.0, questo problema è stato risolto. Le etichette dei nodi YARN sono memorizzate sul disco locale di ciascun nodo cluster, evitando dipendenze da HDFS.

  • Problema noto nei cluster con più nodi primari e autenticazione Kerberos

    Se esegui cluster con più nodi primari e autenticazione Kerberos nella versione 5.20.0 di Amazon EMR e successivi, è possibile che si verifichino problemi con le operazioni del cluster, quali la riduzione o l'invio di fasi, dopo che il cluster è rimasto in esecuzione per un certo periodo di tempo. Il periodo di tempo dipende dal periodo di validità del ticket Kerberos definito dall'utente. Il problema di dimensionamento verso il basso influisce sia sulle richieste di scalabilità automatica che sulle richieste esplicite di dimensionamento verso il basso inviate dall'utente. Possono essere influenzate anche le operazioni cluster aggiuntive.

    Soluzione alternativa:

    • Abilita SSH come utente hadoop al primo nodo primario del cluster EMR con più nodi primari.

    • Esegui il comando seguente per rinnovare il ticket Kerberos per l'utente hadoop.

      kinit -kt <keytab_file> <principal>

      In genere, il file keytab si trova in /etc/hadoop.keytab e l'entità principale si presenta nella forma di hadoop/<hostname>@<REALM>.

    Nota

    Questa soluzione alternativa sarà valida per il periodo di tempo in cui il ticket Kerberos è valido. La durata è di 10 ore per impostazione predefinita, ma può essere configurata dalle impostazioni Kerberos. È necessario eseguire nuovamente il comando sopra indicato una volta scaduto il ticket Kerberos.

Rilascio 5.19.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.19.0. Le modifiche sono relative alla versione 5.18.0.

Data del rilascio iniziale: 7 novembre 2018

Ultimo aggiornamento: 19 novembre 2018

Aggiornamenti
  • Hadoop 2.8.5

  • Flink 1.6.1

  • JupyterHub 0.9.4

  • MXNet 1.3.0

  • Presto 0.212

  • TensorFlow 1.11.0

  • ZooKeeper 3.4.13

  • AWS SDK for Java 1.11.433

Nuove funzionalità di
  • (19 novembre 2018) EMR Notebooks è un ambiente gestito basato su Jupyter Notebook. Supporta i kernel Spark magic per PySpark, Spark SQL, Spark, R e Scala. EMR Notebooks può essere utilizzato con cluster creati utilizzando Amazon EMR rilascio 5.18.0 e successivi. Per ulteriori informazioni, consulta Utilizzo di EMR Notebooks nella Guida alla gestione di Amazon EMR.

  • Il committer EMRFS ottimizzato per S3 è disponibile durante la scrittura di file Parquet tramite Spark ed EMRFS. Questo committer migliora le prestazioni di scrittura. Per ulteriori informazioni, consulta Utilizzare il committer ottimizzato S3 EMRFS.

Modifiche, miglioramenti e problemi risolti
  • YARN

  • AMI predefinita di Amazon Linux per Amazon EMR

    • ruby18, php56 e gcc48 non vengono più installati per impostazione predefinita. Se lo si desidera, è possibile installarli tramite yum.

    • Il Ruby Gem aws-java-sdk non è più installato per impostazione predefinita. Se lo si desidera, è possibile installarlo tramite gem install aws-sdk. Possono anche essere installati componenti specifici. Ad esempio, gem install aws-sdk-s3.

Problemi noti
  • EMR Notebooks: in alcune circostanze, con più editor di notebook aperti, l'editor del notebook potrebbe non essere in grado di connettersi al cluster. In questo caso, cancella i cookie del browser e riapri gli editor dei notebook.

  • Parametro ContainerPending e scalabilità automatica di CloudWatch: (corretto in 5.20.0) Amazon EMR può emettere un valore negativo per ContainerPending. Se ContainerPending viene utilizzato in una regola di scalabilità automatica, quest'ultima avrà un comportamento imprevisto. Non utilizzare ContainerPending con la scalabilità automatica.

  • In Amazon EMR versione 5.19.0, 5.20.0 e 5.21.0, le etichette dei nodi YARN sono memorizzate in una directory HDFS. In alcune situazioni, questo porta a ritardi di avvio del nodo principale e quindi causa il timeout del cluster e l'errore di avvio. A partire da Amazon EMR 5.22.0, questo problema è stato risolto. Le etichette dei nodi YARN sono memorizzate sul disco locale di ciascun nodo cluster, evitando dipendenze da HDFS.

Rilascio 5.18.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.18.0. Le modifiche sono relative alla versione 5.17.0.

Data del rilascio iniziale: 24 ottobre 2018

Aggiornamenti
  • Flink 1.6.0

  • HBase 1.4.7

  • Presto 0.210

  • Spark 2.3.2

  • Zeppelin 0.8.0

Nuove funzionalità di
Modifiche, miglioramenti e problemi risolti

Rilascio 5.17.1

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.17.1. Le modifiche sono relative alla versione 5.17.0.

Data del rilascio iniziale: 18 luglio 2019

Modifiche, miglioramenti e problemi risolti
  • Aggiornata l'AMI predefinita Amazon Linux per Amazon EMR per importanti aggiornamenti di sicurezza del kernel Linux, inclusi i problemi di negazione del servizio TCP SACK (AWS-2019-005).

Rilascio 5.17.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.17.0. Le modifiche sono relative alla versione 5.16.0.

Data del rilascio iniziale: 30 agosto 2018

Aggiornamenti
  • Flink 1.5.2

  • HBase 1.4.6

  • Presto 0.206

Nuove funzionalità di
  • Aggiunto il supporto per Tensorflow. Per ulteriori informazioni, consulta TensorFlow.

Modifiche, miglioramenti e problemi risolti
Problemi noti
  • Quando si crea un cluster che utilizza Kerberos con Livy installato, Livy ha esito negativo e genera un errore a indicare che l'autenticazione semplice non è abilitata. Il riavvio del server Livy risolve il problema. Per ovviare al problema, è possibile aggiungere una fase durante la creazione del cluster che esegue sudo restart livy-server sul nodo primario.

  • Se si utilizza un'AMI Amazon Linux personalizzata basata su un'AMI Amazon Linux con una data di creazione 2018-08-11, il server Oozie non si avvia. Se si utilizza Oozie, è possibile creare un'AMI personalizzata basata su un ID AMI Amazon Linux con una data di creazione diversa. Puoi utilizzare il comando AWS CLI seguente per restituire un elenco di ID immagine per tutte le AMI Amazon Linux HVM con una versione 2018.03, insieme alla data di rilascio, in modo da poter scegliere un'AMI Linux appropriata come base. Sostituisci MyRegion con l'identificatore della Regione, ad esempio us-west-2.

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

Rilascio 5.16.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.16.0. Le modifiche sono relative alla versione 5.15.0.

Data del rilascio iniziale: 19 luglio 2018

Aggiornamenti
  • Hadoop 2.8.4

  • Flink 1.5.0

  • Livy 0.5.0

  • MXNet 1.2.0

  • Phoenix 4.14.0

  • Presto 0.203

  • Spark 2.3.1

  • AWS SDK for Java 1.11.336

  • CUDA 9.2

  • Driver JDBC Redshift 1.2.15.1025

Modifiche, miglioramenti e problemi risolti
Problemi noti
  • Questa versione non supporta i tipi di istanza c1.medium o m1.small. I cluster che utilizzano uno di questi tipi di istanza non vengono avviati. Come soluzione alternativa, specifica un tipo di istanza diverso o utilizza una versione di rilascio diversa.

  • Quando si crea un cluster che utilizza Kerberos con Livy installato, Livy ha esito negativo e genera un errore a indicare che l'autenticazione semplice non è abilitata. Il riavvio del server Livy risolve il problema. Per ovviare al problema, è possibile aggiungere una fase durante la creazione del cluster che esegue sudo restart livy-server sul nodo primario.

  • Dopo il riavvio del nodo primario o il riavvio del controller dell'istanza, i parametri CloudWatch non verranno acquisiti e la caratteristica di dimensionamento automatico non sarà disponibile in Amazon EMR versione 5.14.0, 5.15.0 o 5.16.0. Questo problema è stato risolto in Amazon EMR 5.17.0.

Rilascio 5.15.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.15.0. Le modifiche sono relative alla versione 5.14.0.

Data del rilascio iniziale: 21 giugno 2018

Aggiornamenti
  • Aggiornato a HBase 1.4.4

  • Aggiornato a Hive 2.3.3

  • Aggiornato a Hue 4.2.0

  • Oozie aggiornato a 5.0.0

  • Aggiornato a Zookeeper 3.4.12

  • AWS SDK aggiornato alla versione 1.11.333

Modifiche, miglioramenti e problemi risolti
  • Hive

  • Hue

    • Hue aggiornato per autenticarsi correttamente con Livy quando Kerberos è abilitato. Livy è ora supportato quando si utilizza Kerberos con Amazon EMR.

  • JupyterHub

    • JupyterHub aggiornato affinché Amazon EMR possa installare le librerie client LDAP per impostazione predefinita.

    • Corretto un errore nello script che genera certificati autofirmati.

Problemi noti
  • Questa versione non supporta i tipi di istanza c1.medium o m1.small. I cluster che utilizzano uno di questi tipi di istanza non vengono avviati. Come soluzione alternativa, specifica un tipo di istanza diverso o utilizza una versione di rilascio diversa.

  • Dopo il riavvio del nodo primario o il riavvio del controller dell'istanza, i parametri CloudWatch non verranno acquisiti e la caratteristica di dimensionamento automatico non sarà disponibile in Amazon EMR versione 5.14.0, 5.15.0 o 5.16.0. Questo problema è stato risolto in Amazon EMR 5.17.0.

Rilascio 5.14.1

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.14.1. Le modifiche sono relative alla versione 5.14.0.

Data del rilascio iniziale: 17 ottobre 2018

Aggiornata l'AMI predefinita per Amazon EMR al fine di risolvere potenziali vulnerabilità di sicurezza.

Rilascio 5.14.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.14.0. Le modifiche sono relative alla versione 5.13.0.

Data del rilascio iniziale: 4 giugno 2018

Aggiornamenti
  • Aggiornato ad Apache Flink 1.4.2

  • Apache MXNet aggiornato alla versione 1.1.0

  • Apache Sqoop aggiornato alla versione 1.4.7

Nuove funzionalità di
  • Aggiunto il supporto JupyterHub. Per ulteriori informazioni, consulta JupyterHub.

Modifiche, miglioramenti e problemi risolti
  • EMRFS

    • La stringa userAgent nelle richieste ad Amazon S3 è stata aggiornata per contenere le informazioni sull'utente e sul gruppo dell'entità principale che richiama. Questa può essere utilizzata con i log AWS CloudTrail per un monitoraggio più completo delle richieste.

  • HBase

    • Include HBASE-20447, che risolve un problema che potrebbe causare errori di cache, in particolare in caso di Regioni divise.

  • MXNet

    • Aggiunte librerie OpenCV.

  • Spark

    • Quando Spark scrive i file Parquet in un percorso Amazon S3 utilizzando EMRFS, l'algoritmo FileOutputCommitter è stato aggiornato per utilizzare la versione 2 anziché la versione 1. In questo modo viene ridotta la quantità di ridenominazioni, con un conseguente miglioramento delle prestazioni delle applicazioni. Questa modifica non influisce su:

      • Applicazioni diverse da Spark.

      • Applicazioni che scrivono su altri file system, ad esempio HDFS (che utilizzano ancora la versione 1 di FileOutputCommitter).

      • Applicazioni che utilizzano altri formati di output, come testo o csv, che già utilizzano la scrittura diretta EMRFS.

Problemi noti
  • JupyterHub

    • L'utilizzo delle classificazioni di configurazione per impostare JupyterHub e singoli notebook Jupyter quando si crea un cluster non è supportato. Modifica manualmente il file jupyterhub_config.py e i file jupyter_notebook_config.py per ogni utente. Per ulteriori informazioni, consulta Configurazione di JupyterHub.

    • JupyterHub non si avvia sui cluster all'interno di una sottorete privata, generando il messaggio Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' . Questo problema è causato da un errore nello script che genera certificati autofirmati. Utilizza la seguente soluzione alternativa per generare certificati autofirmati. Tutti i comandi vengono eseguiti mentre si è connessi al nodo primario.

      1. Copia lo script di generazione del certificato dal container al nodo primario:

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. Utilizza un editor di testo per intervenire sulla riga 23 modificando il nome di host pubblico nel nome di host locale come illustrato di seguito:

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. Esegui lo script per generare certificati autofirmati:

        sudo bash ./gen_self_signed_cert.sh
      4. Sposta i file di certificato generati dallo script nella directory /etc/jupyter/conf/:

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      È possibile tail il file jupyter.log per verificare che JupyterHub sia stato riavviato e stia restituendo un codice di risposta 200. Ad esempio:

      tail -f /var/log/jupyter/jupyter.log

      Questo dovrebbe restituire una risposta simile alla seguente:

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
  • Dopo il riavvio del nodo primario o il riavvio del controller dell'istanza, i parametri CloudWatch non verranno acquisiti e la caratteristica di dimensionamento automatico non sarà disponibile in Amazon EMR versione 5.14.0, 5.15.0 o 5.16.0. Questo problema è stato risolto in Amazon EMR 5.17.0.

Rilascio 5.13.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.13.0. Le modifiche sono relative alla versione 5.12.0.

Aggiornamenti
  • Spark aggiornato a 2.3.0

  • HBase aggiornato a 1.4.2

  • Presto aggiornato a 0.194

  • Aggiornato AWS SDK for Java a 1.11.297

Modifiche, miglioramenti e problemi risolti
  • Hive

    • Backport per HIVE-15436. API di Hive ottimizzate per restituire solo visualizzazioni.

Problemi noti
  • Al momento MXNet non dispone di librerie OpenCV.

Rilascio 5.12.2

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.12.2. Le modifiche sono relative alla versione 5.12.1.

Data del rilascio iniziale: 29 agosto 2018

Modifiche, miglioramenti e problemi risolti
  • Questo rilascio risolve una potenziale vulnerabilità di sicurezza.

Rilascio 5.12.1

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.12.1. Le modifiche sono relative alla versione 5.12.0.

Data del rilascio iniziale: 29 marzo 2018

Modifiche, miglioramenti e problemi risolti
  • Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere potenziali vulnerabilità.

Rilascio 5.12.0

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.12.0. Le modifiche sono relative alla versione 5.11.1.

Aggiornamenti
Modifiche, miglioramenti e problemi risolti
  • Hadoop

    • La proprietà yarn.resourcemanager.decommissioning.timeout è stata modificata in yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs. È possibile utilizzare questa proprietà per personalizzare il dimensionamento verso il basso del cluster. Per maggiori informazioni, consulta Dimensionamento verso il basso del cluster nella Guida alla gestione di Amazon EMR.

    • L'interfaccia CLI di Hadoop ha aggiunto l'opzione -d per il comando cp (copia), che specifica la copia diretta. Questo comando può essere utilizzato per evitare di creare un file .COPYING intermediario, rendendo più veloce la copia dei dati in Amazon S3. Per ulteriori informazioni, consulta HADOOP-12384.

  • Pig

    • È stato aggiunto pig-env, che semplifica la configurazione delle proprietà dell'ambiente Pig. Per ulteriori informazioni, consulta Configurazione delle applicazioni.

  • Presto

    • Aggiunta la classificazione della configurazione presto-connector-redshift, che puoi utilizzare per configurare i valori nel file di configurazione redshift.properties di Presto. Per ulteriori informazioni, consulta Connettore Redshift nella documentazione di Presto e Configurazione delle applicazioni.

    • Il supporto Presto per EMRFS è stato aggiunto ed è la configurazione predefinita. I rilasci precedenti di Amazon EMR utilizzavano PrestoS3FileSystem, che era l'unica opzione disponibile. Per ulteriori informazioni, consulta Configurazione EMRFS e PrestoS3FileSystem.

      Nota

      Se esegui una query sui dati sottostanti in Amazon S3 con Amazon EMR versione 5.12.0, possono verificarsi errori di Presto. Questo avviene perché Presto non riesce a raccogliere i valori di classificazione della configurazione da emrfs-site.xml. Come soluzione alternativa, crea una sottodirectory emrfs in usr/lib/presto/plugin/hive-hadoop2/ e crea un collegamento simbolico in usr/lib/presto/plugin/hive-hadoop2/emrfs sul file /usr/share/aws/emr/emrfs/conf/emrfs-site.xml esistente. Quindi riavvia il processo presto-server (sudo presto-server stop seguito da sudo presto-server start).

  • Spark

Problemi noti
  • MXNet non include le librerie OpenCV.

  • SparkR non è disponibile per i cluster creati utilizzando un'AMI personalizzata perché R non è installato per impostazione predefinita sui nodi del cluster.

Rilascio 5.11.3

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.11.3. Le modifiche sono relative alla versione 5.11.2.

Data del rilascio iniziale: 18 luglio 2019

Modifiche, miglioramenti e problemi risolti
  • Aggiornata l'AMI predefinita Amazon Linux per Amazon EMR per importanti aggiornamenti di sicurezza del kernel Linux, inclusi i problemi di negazione del servizio TCP SACK (AWS-2019-005).

Rilascio 5.11.2

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.11.2. Le modifiche sono relative alla versione 5.11.1.

Data del rilascio iniziale: 29 agosto 2018

Modifiche, miglioramenti e problemi risolti
  • Questo rilascio risolve una potenziale vulnerabilità di sicurezza.

Rilascio 5.11.1

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.11.1. Le modifiche sono relative al rilascio di Amazon EMR 5.11.0.

Data del rilascio iniziale: 22 gennaio 2018

Modifiche, miglioramenti e problemi risolti

Problemi noti

  • MXNet non include le librerie OpenCV.

  • Per impostazione predefinita, Hive 2.3.2 è impostato su hive.compute.query.using.stats=true. Questo fa sì che le query individuino i dati dalle statistiche esistenti anziché direttamente dai dati, il che potrebbe creare confusione. Ad esempio, se hai una tabella con hive.compute.query.using.stats=true e carichi nuovi file sulla tabella LOCATION, se esegui una query SELECT COUNT(*) sulla tabella ti restituisce il conto delle statistiche e non tiene in considerazione le righe aggiunte.

    Una soluzione consiste nell'usare il comando ANALYZE TABLE per raccogliere nuove statistiche o impostare hive.compute.query.using.stats=false. Per ulteriori informazioni, consulta Statistiche in Hive nella documentazione di Apache Hive.

Rilascio 5.11.0

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.11.0. Le modifiche sono relative al rilascio di Amazon EMR 5.10.0.

Aggiornamenti

Le seguenti applicazioni e componenti sono stati aggiornati in questo rilascio per includere le seguenti versioni.

  • Hive 2.3.2

  • Spark 2.2.1

  • SDK per Java: 1.11.238

Nuove funzionalità di

  • Spark

    • Aggiunta l'impostazione spark.decommissioning.timeout.threshold che migliora il comportamento di disattivazione di Spark quando si utilizzano istanze Spot. Per ulteriori informazioni, consulta Configurazione del comportamento di disattivazione di nodi.

    • Aggiunto a Spark il componente aws-sagemaker-spark-sdk, che installa Amazon SageMaker Spark e le dipendenze associate per l'integrazione di Spark con Amazon SageMaker. Puoi utilizzare Amazon SageMaker Spark per configurare le pipeline di machine learning (ML) di Spark utilizzando le fasi di Amazon SageMaker. Per ulteriori informazioni, consulta il File readme di SageMaker Spark su GitHub e Utilizzo di Apache Spark con Amazon SageMaker nella Guida per lo sviluppatore di Amazon SageMaker.

Problemi noti

  • MXNet non include le librerie OpenCV.

  • Per impostazione predefinita, Hive 2.3.2 è impostato su hive.compute.query.using.stats=true. Questo fa sì che le query individuino i dati dalle statistiche esistenti anziché direttamente dai dati, il che potrebbe creare confusione. Ad esempio, se hai una tabella con hive.compute.query.using.stats=true e carichi nuovi file sulla tabella LOCATION, se esegui una query SELECT COUNT(*) sulla tabella ti restituisce il conto delle statistiche e non tiene in considerazione le righe aggiunte.

    Una soluzione consiste nell'usare il comando ANALYZE TABLE per raccogliere nuove statistiche o impostare hive.compute.query.using.stats=false. Per ulteriori informazioni, consulta Statistiche in Hive nella documentazione di Apache Hive.

Rilascio 5.10.0

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.10.0. Le modifiche sono relative al rilascio di Amazon EMR 5.9.0.

Aggiornamenti

Le seguenti applicazioni e componenti sono stati aggiornati in questo rilascio per includere le seguenti versioni.

  • AWS SDK for Java 1.11.221

  • Hive 2.3.1

  • Presto 0.187

Nuove funzionalità di

Modifiche, miglioramenti e problemi risolti

  • Presto

  • Spark

    • Backport per SPARK-20640, che rende il timeout rcp e i tentativi per i valori di registrazione shuffle configurabili utilizzando le spark.shuffle.registration.timeoutspark.shuffle.registration.maxAttempts proprietà.

    • Backport per SPARK-21549, che corregge un errore che avviene durante la scrittura di OutputFormat personalizzato su percorsi non-HDFS.

  • Backport per Hadoop-13270

  • Le librerie Numpy, Scipy e Matplotlib sono state rimosse dall'AMI di base di Amazon EMR. Se hai bisogno di queste librerie per tua applicazione, sono disponibili nella repository dell'applicazione, così potrai usare un'operazione di bootstrap per installarle su tutti i nodi usando yum install.

  • L'AMI di base Amazon EMR non dispone più dei pacchetti RPM di applicazione inclusi, per cui i pacchetti RPM non sono più presenti sui nodi cluster. Adesso, le AMI personalizzate e l'AMI di base Amazon EMR fanno riferimento al repository dei pacchetti RPM in Amazon S3.

  • A causa dell'introduzione della fatturazione al secondo in Amazon EC2, il valore predefinito Scale down behavior (Comportamento di dimensionamento verso il basso) è diventato Terminate at task completion (Termina al completamento dell'attività) anziché Terminate at instance hour (Termina all'ora dell'istanza). Per maggiori informazioni, consulta Configurazione del ridimensionamento del cluster.

Problemi noti

  • MXNet non include le librerie OpenCV.

  • Per impostazione predefinita, Hive 2.3.1 è impostato su hive.compute.query.using.stats=true. Questo fa sì che le query individuino i dati dalle statistiche esistenti anziché direttamente dai dati, il che potrebbe creare confusione. Ad esempio, se hai una tabella con hive.compute.query.using.stats=true e carichi nuovi file sulla tabella LOCATION, se esegui una query SELECT COUNT(*) sulla tabella ti restituisce il conto delle statistiche e non tiene in considerazione le righe aggiunte.

    Una soluzione consiste nell'usare il comando ANALYZE TABLE per raccogliere nuove statistiche o impostare hive.compute.query.using.stats=false. Per ulteriori informazioni, consulta Statistiche in Hive nella documentazione di Apache Hive.

Rilascio 5.9.0

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.9.0. Le modifiche sono relative al rilascio di Amazon EMR 5.8.0.

Data del rilascio: 5 ottobre 2017

Ultimo aggiornamento della caratteristica: 12 ottobre 2017

Aggiornamenti

Le seguenti applicazioni e componenti sono stati aggiornati in questo rilascio per includere le seguenti versioni.

  • AWS SDK for Java versione 1.11.183

  • Flink 1.3.2

  • Hue 4.0.1

  • Pig 0.17.0

  • Presto 0.184

Nuove funzionalità di

  • Aggiunto il supporto per Livy (versione 0.4.0-incubazione). Per ulteriori informazioni, consulta Apache Livy.

  • Aggiunto il supporto per Hue Notebook per Spark.

  • Aggiunto supporto per le istanze Amazon EC2 serie i3 (12 ottobre 2017).

Modifiche, miglioramenti e problemi risolti

  • Spark

    • Aggiunto un nuovo set di caratteristiche per garantire che Spark gestisca più elegantemente la terminazione dei nodi a causa di un ridimensionamento manuale o di una richiesta di policy di scalabilità automatica. Per ulteriori informazioni, consulta Configurazione del comportamento di disattivazione di nodi.

    • Viene utilizzato SSL invece di 3DES per la crittografia in transito del servizio di trasferimento dei blocchi, migliorando così le prestazioni dei tipi di istanza Amazon EC2 con AES-NI.

    • Backport per SPARK-21494.

  • Zeppelin

  • HBase

    • Aggiunta patch HBASE-18533 che permette valori aggiuntivi per la configurazione HBase BucketCache utilizzando la classificazione della configurazione hbase-site.

  • Hue

    • Aggiunto il supporto AWS Glue Data Catalog per l'editor delle query Hive su Hue.

    • Per impostazione predefinita, i superuser su Hue possono accedere a tutti i file a cui hanno accesso i ruoli IAM di Amazon EMR. Gli utenti appena creati non dispongono automaticamente delle autorizzazioni per accedere al filebrowser Amazon S3 e devono disporre delle autorizzazioni filebrowser.s3_access attivate per il proprio gruppo.

  • Risolto un problema che causava la non accessibilità ai dati JSON sottostanti creati utilizzando AWS Glue Data Catalog.

Problemi noti

  • L'avvio del cluster non va a buon fine quando tutte le applicazioni sono installate e la dimensione del volume di root Amazon EBS di default non viene modificata. Per risolvere il problema, utilizza il comando aws emr create-cluster da AWS CLI e specifica un parametro --ebs-root-volume-size più grande.

  • Per impostazione predefinita, Hive 2.3.0 è impostato su hive.compute.query.using.stats=true. Questo fa sì che le query individuino i dati dalle statistiche esistenti anziché direttamente dai dati, il che potrebbe creare confusione. Ad esempio, se hai una tabella con hive.compute.query.using.stats=true e carichi nuovi file sulla tabella LOCATION, se esegui una query SELECT COUNT(*) sulla tabella ti restituisce il conto delle statistiche e non tiene in considerazione le righe aggiunte.

    Una soluzione consiste nell'usare il comando ANALYZE TABLE per raccogliere nuove statistiche o impostare hive.compute.query.using.stats=false. Per ulteriori informazioni, consulta Statistiche in Hive nella documentazione di Apache Hive.

Rilascio 5.8.2

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.8.2. Le modifiche sono relative alla versione 5.8.1.

Data del rilascio iniziale: 29 marzo 2018

Modifiche, miglioramenti e problemi risolti
  • Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere potenziali vulnerabilità.

Rilascio 5.8.1

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.8.1. Le modifiche sono relative al rilascio di Amazon EMR 5.8.0.

Data del rilascio iniziale: 22 gennaio 2018

Modifiche, miglioramenti e problemi risolti

Rilascio 5.8.0

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.8.0. Le modifiche sono relative al rilascio di Amazon EMR 5.7.0.

Data del rilascio iniziale: 10 agosto 2017

Ultimo aggiornamento della caratteristica: 25 settembre 2017

Aggiornamenti

Le seguenti applicazioni e componenti sono stati aggiornati in questo rilascio per includere le seguenti versioni:

Nuove funzionalità di

Modifiche, miglioramenti e problemi risolti

  • Integrazione con Glue Data Catalog di AWS

  • Aggiunto Application history (Cronologia dell'applicazione) ai dettagli del cluster, il che ti permette di visualizzare i dati cronologici delle applicazioni YARN e i dettagli aggiuntivi per le applicazioni Spark. Per ulteriori informazioni, consulta Visualizza cronologia dell'applicazione nella Guida alla gestione di Amazon EMR.

  • Oozie

  • Hue

  • HBase

    • Aggiunta patch per esporre il tempo di avvio del server master HBase tramite le Java Management Extensions (JMX) utilizzando getMasterInitializedTime.

    • Aggiunta patch che migliora il tempo di avvio del cluster.

Problemi noti

  • L'avvio del cluster non va a buon fine quando tutte le applicazioni sono installate e la dimensione del volume di root Amazon EBS di default non viene modificata. Per risolvere il problema, utilizza il comando aws emr create-cluster da AWS CLI e specifica un parametro --ebs-root-volume-size più grande.

  • Per impostazione predefinita, Hive 2.3.0 è impostato su hive.compute.query.using.stats=true. Questo fa sì che le query individuino i dati dalle statistiche esistenti anziché direttamente dai dati, il che potrebbe creare confusione. Ad esempio, se hai una tabella con hive.compute.query.using.stats=true e carichi nuovi file sulla tabella LOCATION, se esegui una query SELECT COUNT(*) sulla tabella ti restituisce il conto delle statistiche e non tiene in considerazione le righe aggiunte.

    Una soluzione consiste nell'usare il comando ANALYZE TABLE per raccogliere nuove statistiche o impostare hive.compute.query.using.stats=false. Per ulteriori informazioni, consulta Statistiche in Hive nella documentazione di Apache Hive.

  • Spark: quando si utilizza Spark, c'è un problema di perdita del gestore di file con il daemon apppusher, che può apparire per un processo Spark a esecuzione prolungata dopo diverse ore o giorni. Per risolvere il problema, connettiti al nodo master e digita sudo /etc/init.d/apppusher stop. Questa azione arresta l'apppusher daemon, che Amazon EMR riavvierà automaticamente.

  • Cronologia dell'applicazione

    • I dati cronologici per gli executor Spark terminati non sono disponibili.

    • La cronologia dell'applicazione non è disponibile per i cluster che utilizzano una configurazione di sicurezza per attivare la crittografia in-flight.

Rilascio 5.7.0

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.7.0. Le modifiche sono relative al rilascio di Amazon EMR 5.6.0.

Data del rilascio: 13 luglio 2017

Aggiornamenti

  • Flink 1.3.0

  • Phoenix 4.11.0

  • Zeppelin 0.7.2

Nuove funzionalità di

Modifiche, miglioramenti e problemi risolti

  • HBase

  • Presto: aggiunta la possibilità di configurare node.properties.

  • YARN: aggiunta la possibilità di configurare container-log4j.properties.

  • Sqoop: backport per SQOOP-2880, che introduce un argomento che ti permette di impostare la directory temporanea di Sqoop.

Rilascio 5.6.0

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.6.0. Le modifiche sono relative al rilascio di Amazon EMR 5.5.0.

Data del rilascio: 5 giugno 2017

Aggiornamenti

  • Flink 1.2.1

  • HBase 1.3.1

  • Mahout 0.13.0. Questa è la prima versione di Mahout che supporta Spark 2.x in Amazon EMR versione 5.0 e successive.

  • Spark 2.1.1

Modifiche, miglioramenti e problemi risolti

  • Presto

    • Aggiunta la capacità di attivare la comunicazione sicura SSL/TLS tra i nodi Presto attivando la cifratura in transito tramite la configurazione di sicurezza. Per maggiori informazioni, consulta Cifratura dei dati in transito.

    • Backport per Presto 7661 che aggiunge l'opzione VERBOSE all'istruzione EXPLAIN ANALYZE per comunicare statistiche più dettagliate di basso livello relative a un piano di query.

Rilascio 5.5.3

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.5.3. Le modifiche sono relative alla versione 5.5.2.

Data del rilascio iniziale: 29 agosto 2018

Modifiche, miglioramenti e problemi risolti
  • Questo rilascio risolve una potenziale vulnerabilità di sicurezza.

Rilascio 5.5.2

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 5.5.2. Le modifiche sono relative alla versione 5.5.1.

Data del rilascio iniziale: 29 marzo 2018

Modifiche, miglioramenti e problemi risolti
  • Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere potenziali vulnerabilità.

Rilascio 5.5.1

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.5.1. Le modifiche sono relative al rilascio di Amazon EMR 5.5.0.

Data del rilascio iniziale: 22 gennaio 2018

Modifiche, miglioramenti e problemi risolti

Rilascio 5.5.0

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.5.0. Le modifiche sono relative al rilascio di Amazon EMR 5.4.0.

Data del rilascio: 26 aprile 2017

Aggiornamenti

  • Hue 3.12

  • Presto 0.170

  • Zeppelin 0.7.1

  • ZooKeeper 3.4.10

Modifiche, miglioramenti e problemi risolti

  • Spark

  • Flink

    • Flink ora è integrato con Scala 2.11. Se utilizzi le API e le librerie Scala, ti consigliamo di utilizzare Scala 2.11 nei tuoi progetti.

    • Gestito un problema in cui i valori predefiniti di HADOOP_CONF_DIR e YARN_CONF_DIR non erano impostati correttamente, per cui start-scala-shell.sh non funzionava. Aggiunta inoltre la capacità di impostare tali valori usando env.hadoop.conf.dir e env.yarn.conf.dir in /etc/flink/conf/flink-conf.yaml o la classificazione della configurazione flink-conf.

    • Introdotto un nuovo comando specifico per EMR, flink-scala-shell come wrapper per start-scala-shell.sh. Ti consigliamo di usare questo comando anziché start-scala-shell. Il nuovo comando semplifica l'esecuzione. Ad esempio, flink-scala-shell -n 2 avvia uno shell Flink Scala con un parallelismo dell'attività di 2.

    • Introdotto un nuovo comando specifico per EMR, flink-yarn-session come wrapper per yarn-session.sh. Ti consigliamo di usare questo comando anziché yarn-session. Il nuovo comando semplifica l'esecuzione. Ad esempio, flink-yarn-session -d -n 2 avvia una sessione Flink di lunga durata in uno stato scollegato con due task manager.

    • Risolto (FLINK-6125) Commons httpclient non più schermato in Flink 1.2

  • Presto

    • Aggiunto supporto per l'autenticazione LDAP. L'utilizzo di LDAP con Presto on Amazon EMR richiede di abilitare l'accesso HTTPS per il coordinatore di Presto (http-server.https.enabled=true in config.properties). Per dettagli sulla configurazione, consulta LDAP authentication (Autenticazione LDAP) nella documentazione di Presto.

    • Aggiunta del supporto per SHOW GRANTS.

  • AMI Linux di base di Amazon EMR

    • I rilasci di Amazon EMR sono ora basati su Amazon Linux 2017.03. Per ulteriori informazioni, consulta Note di rilascio dell'AMI Amazon Linux 2017.03.

    • È stato rimosso Python 2.6 dall'immagine Linux di base Amazon EMR. Python 2.7 e 3.4 vengono installati per impostazione predefinita. Puoi installare Python 2.6 manualmente se necessario.

Rilascio 5.4.0

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.4.0. Le modifiche sono relative al rilascio di Amazon EMR 5.3.0.

Data di rilascio: 08 marzo 2017

Aggiornamenti

I seguenti aggiornamenti sono disponibili in questo rilascio:

  • Aggiornato a Flink 1.2.0

  • Aggiornato a HBase 1.3.0

  • Aggiornato a Phoenix 4.9.0

    Nota

    Se effettui l'aggiornamento da una versione precedente di Amazon EMR ad Amazon EMR versione 5.4.0 o successive e utilizzi un'indicizzazione secondaria, effettua l'aggiornamento degli indici locali come descritto nella documentazione su Apache Phoenix. Amazon EMR rimuove le configurazioni richieste dalla classificazione hbase-site, ma gli indici devono essere ripopolati. Gli aggiornamenti online e offline degli indici sono supportati. Gli aggiornamenti online sono quelli predefiniti, il che significa che gli indici vengono ripopolati durante la fase di inizializzazione dai client Phoenix della versione 4.8.0 o più grande. Per specificare gli aggiornamenti offline, imposta la configurazione phoenix.client.localIndexUpgrade su falso nella classificazione phoenix-site e poi SSH sul nodo master per eseguire psql [zookeeper] -1.

  • Aggiornato a Presto 0.166

  • Aggiornato a Zeppelin 0.7.0

Modifiche e miglioramenti

Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-5.4.0:

Rilascio 5.3.1

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.3.1. Le modifiche sono relative al rilascio di Amazon EMR 5.3.0.

Data di rilascio: 7 febbraio 2017

Modifiche minori alle patch Zeppelin di backport e aggiornamento dell'AMI predefinita per Amazon EMR.

Rilascio 5.3.0

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.3.0. Le modifiche sono relative al rilascio di Amazon EMR 5.2.1.

Data del rilascio: 26 gennaio 2017

Aggiornamenti

I seguenti aggiornamenti sono disponibili in questo rilascio:

  • Aggiornato a Hive 2.1.1

  • Aggiornato a Hue 3.11.0

  • Aggiornato a Spark 2.1.0

  • Aggiornato a Oozie a 4.3.0

  • Aggiornato a Flink 1.1.4

Modifiche e miglioramenti

Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-5.3.0:

  • Aggiunta una patch a Hue che ti permette di utilizzare l'impostazione interpreters_shown_on_wheel per configurare che interpreti mostrare per primi sulla ruota di selezione Notebook, indipendentemente dall'ordine nel file hue.ini.

  • Aggiunta la classificazione della configurazione hive-parquet-logging, che puoi utilizzare per configurare i valori nel file parquet-logging.properties di Hive.

Rilascio 5.2.2

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.2.2. Le modifiche sono relative al rilascio di Amazon EMR 5.2.1.

Data di rilascio: 2 maggio 2017

Problemi noti risolti dai rilasci precedenti

  • Backport per SPARK-194459, che risolve un problema in cui la lettura da una tabella ORC con colonne char/varchar restituisce un errore.

Rilascio 5.2.1

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.2.1. Le modifiche sono relative al rilascio di Amazon EMR 5.2.0.

Data del rilascio: 29 dicembre 2016

Aggiornamenti

I seguenti aggiornamenti sono disponibili in questo rilascio:

Modifiche e miglioramenti

Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-5.2.1:

  • Aggiunto supporto per il tipo di istanza Amazon EC2 m4.16xlarge in Amazon EMR versione 4.8.3 e successive, escluse 5.0.0, 5.0.3 e 5.2.0.

  • I rilasci di Amazon EMR sono ora basati su Amazon Linux 2016.09. Per ulteriori informazioni, consulta https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

  • La posizione dei percorsi di configurazione Flink e YARN è ora impostata per default in /etc/default/flink e non occorre impostare le variabili di ambiente FLINK_CONF_DIR e HADOOP_CONF_DIR quando si eseguono gli script dei driver flink o yarn-session.sh per avviare processi Flink.

  • Aggiunto supporto per la classe FlinkKinesisConsumer.

Problemi noti risolti dai rilasci precedenti

  • Risolto un problema in Hadoop in cui il thread ReplicationMonitor poteva bloccarsi per molto tempo a causa di un conflitto tra la replica e la cancellazione dello stesso file in un cluster di grandi dimensioni.

  • Risolto un problema in cui ControlledJob#toString restituiva un errore con una null pointer exception (NPE) quando lo stato del processo non era aggiornato correttamente.

Rilascio 5.2.0

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.2.0. Le modifiche sono relative al rilascio di Amazon EMR 5.1.0.

Data del rilascio: 21 novembre 2016

Modifiche e miglioramenti

Le seguenti modifiche e miglioramenti sono disponibili in questo rilascio:

  • Aggiunta la modalità di archiviazione Amazon S3 per HBase.

  • Ti permette di specificare un percorso Amazon S3 per la rootdir HBase. Per ulteriori informazioni, consulta HBase su Amazon S3.

Aggiornamenti

I seguenti aggiornamenti sono disponibili in questo rilascio:

  • Aggiornato a Spark 2.0.2

Problemi noti risolti dai rilasci precedenti

  • Risolto un problema con /mnt vincolato a 2 TB sui tipi di istanza solo EBS.

  • Risolto un problema con il controller dell'istanza e i log logpusher che venivano indirizzati ai file .out corrispondenti anziché ai normali file .log log4j-configured, che ruotano ogni ora. I file .out non ruotano e questo determinerà il riempimento della partizione /emr. Questo problema interessa soltanto i tipi di istanza hardware virtual machine (HVM).

Rilascio 5.1.0

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.1.0. Le modifiche sono relative al rilascio di Amazon EMR 5.0.0.

Data del rilascio: 03 novembre 2016

Modifiche e miglioramenti

Le seguenti modifiche e miglioramenti sono disponibili in questo rilascio:

  • Aggiunto supporto per Flink 1.1.3.

  • Presto è stato aggiunto come opzione nella sezione notebook di Hue.

Aggiornamenti

I seguenti aggiornamenti sono disponibili in questo rilascio:

  • Aggiornato a HBase 1.2.3

  • Aggiornato a Zeppelin 0.6.2

Problemi noti risolti dai rilasci precedenti

  • Risolto un problema con le query Tez su Amazon S3 con i file ORC: la query non veniva eseguita correttamente come nelle precedenti versioni di Amazon EMR 4.x.

Rilascio 5.0.3

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 5.0.3. Le modifiche sono relative al rilascio di Amazon EMR 5.0.0.

Data del rilascio: 24 ottobre 2016

Aggiornamenti

I seguenti aggiornamenti sono disponibili in questo rilascio:

  • Aggiornato a Hadoop 2.7.3

  • Aggiornato a Presto 0.152.3, che include il supporto per l'interfaccia Web di Presto. Puoi accedere all'interfaccia Web di Presto sulla porta di utilizzo del coordinatore di Presto 8889. Per ulteriori informazioni sull'interfaccia Web di Presto, consulta Web interface (Interfaccia Web) nella documentazione di Presto.

  • Aggiornato a Spark 2.0.1

  • I rilasci di Amazon EMR sono ora basati su Amazon Linux 2016.09. Per ulteriori informazioni, consulta https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Rilascio 5.0.0

Data del rilascio: 27 luglio 2016

Aggiornamenti

I seguenti aggiornamenti sono disponibili in questo rilascio:

  • Aggiornato a Hive 2.1

  • Aggiornato a Presto 0.150

  • Aggiornato a Spark 2.0

  • Aggiornato a Hue 3.10.0

  • Aggiornato a Pig 0.16.0

  • Aggiornato a Tez 0.8.4

  • Aggiornato a Zeppelin 0.6.1

Modifiche e miglioramenti

Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-5.0.0 o superiore:

  • Amazon EMR supporta le ultime versioni open source di Hive (versione 2.1) e di Pig (versione 0.16.0). Se in passato hai utilizzato Hive o Pig su Amazon EMR, questo potrebbe interessare alcuni casi d'uso. Per ulteriori informazioni, consulta Hive e Pig.

  • Il motore di esecuzione di default per Hive e Pig ora è Tez. Per modificarlo, devi cambiare i valori appropriati nelle classificazioni della configurazione rispettivamente di hive-site e pig-properties.

  • Una caratteristica di debugging della fase potenziata è stata aggiunta per permetterti di vedere la causa sottostante degli errori della fase se il servizio è in grado di determinare la causa. Per ulteriori informazioni, consulta Debug migliorato delle fasi nella Guida alla gestione di Amazon EMR.

  • Le applicazioni che in precedenza terminavano con "-Sandbox" non avranno più quel suffisso. Questo potrebbe spezzare la tua automazione, ad esempio, se stai utilizzando gli script per lanciare i cluster con queste applicazioni. La seguente tabella mostra i nomi dell'applicazione in Amazon EMR 4.7.2 rispetto ad Amazon EMR 5.0.0.

    Modifiche al nome dell'applicazione
    Amazon EMR 4.7.2 Amazon EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper-Sandbox ZooKeeper
  • Spark è compilato per Scala 2.11.

  • Java 8 è il JVM di default. Tutte le applicazioni vengono eseguite utilizzando il runtime di Java 8. Non ci sono modifiche al target del bytecode dell'applicazione. La maggior parte delle applicazioni continua a scegliere come target Java 7.

  • Zeppelin ora include le caratteristiche di autenticazione. Per ulteriori informazioni, consulta Zeppelin.

  • Aggiunto supporto per le configurazioni di sicurezza che ti permettono di creare e applicare le opzioni di cifratura più facilmente. Per ulteriori informazioni, consulta Crittografia dei dati.

Rilascio 4.9.5

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 4.9.5. Le modifiche sono relative alla versione 4.9.4.

Data del rilascio iniziale: 29 agosto 2018

Modifiche, miglioramenti e problemi risolti
  • HBase

    • Questo rilascio risolve una potenziale vulnerabilità di sicurezza.

Rilascio 4.9.4

Le seguenti note di rilascio includono informazioni relative al rilascio di Amazon EMR 4.9.4. Le modifiche sono relative alla versione 4.9.3.

Data del rilascio iniziale: 29 marzo 2018

Modifiche, miglioramenti e problemi risolti
  • Aggiornato il kernel Amazon Linux dell'AMI defaultAmazon Linux per Amazon EMR per risolvere potenziali vulnerabilità.

Rilascio 4.9.3

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.9.3. Le modifiche sono relative al rilascio di Amazon EMR 4.9.2.

Data del rilascio iniziale: 22 gennaio 2018

Modifiche, miglioramenti e problemi risolti

Rilascio 4.9.2

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.9.2. Le modifiche sono relative al rilascio di Amazon EMR 4.9.1.

Data del rilascio: 13 luglio 2017

Modifiche minori, correzioni dei bug e miglioramenti sono stati effettuati in questo rilascio.

Rilascio 4.9.1

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.9.1. Le modifiche sono relative al rilascio di Amazon EMR 4.8.4.

Data del rilascio: 10 aprile 2017

Problemi noti risolti dai rilasci precedenti

  • Backport di HIVE-9976 e HIVE-10106

  • Risolto un problema in YARN in cui un numero elevato di nodi (superiore a 2000) e di container (superiore a 5000) causa un errore di esaurimento della memoria, ad esempio: "Exception in thread 'main' java.lang.OutOfMemoryError".

Modifiche e miglioramenti

Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-4.9.1:

Rilascio 4.8.4

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.8.4. Le modifiche sono relative al rilascio di Amazon EMR 4.8.3.

Data di rilascio: 7 febbraio 2017

Modifiche minori, correzioni dei bug e miglioramenti sono stati effettuati in questo rilascio.

Rilascio 4.8.3

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.8.3. Le modifiche sono relative al rilascio di Amazon EMR 4.8.2.

Data del rilascio: 29 dicembre 2016

Aggiornamenti

I seguenti aggiornamenti sono disponibili in questo rilascio:

Modifiche e miglioramenti

Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-4.8.3:

Problemi noti risolti dai rilasci precedenti

  • Risolto un problema in Hadoop in cui il thread ReplicationMonitor poteva bloccarsi per molto tempo a causa di un conflitto tra la replica e la cancellazione dello stesso file in un cluster di grandi dimensioni.

  • Risolto un problema in cui ControlledJob#toString restituiva un errore con una null pointer exception (NPE) quando lo stato del processo non era aggiornato correttamente.

Rilascio 4.8.2

Le seguenti note di rilascio includono informazioni per il rilascio di Amazon EMR 4.8.2. Le modifiche sono relative al rilascio di Amazon EMR 4.8.0.

Data del rilascio: 24 ottobre 2016

Aggiornamenti

I seguenti aggiornamenti sono disponibili in questo rilascio:

  • Aggiornato a Hadoop 2.7.3

  • Aggiornato a Presto 0.152.3, che include il supporto per l'interfaccia Web di Presto. Puoi accedere all'interfaccia Web di Presto sulla porta di utilizzo del coordinatore di Presto 8889. Per ulteriori informazioni sull'interfaccia Web di Presto, consulta Web interface (Interfaccia Web) nella documentazione di Presto.

  • I rilasci di Amazon EMR sono ora basati su Amazon Linux 2016.09. Per ulteriori informazioni, consulta https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Rilascio 4.8.0

Data del rilascio: 7 settembre 2016

Aggiornamenti

I seguenti aggiornamenti sono disponibili in questo rilascio:

  • Aggiornato a HBase 1.2.2

  • Aggiornato a Presto-Sandbox 0.151

  • Aggiornato a Tez 0.8.4

  • Aggiornato a Zeppelin-Sandbox 0.6.1

Modifiche e miglioramenti

Di seguito sono riportate le modifiche apportate ai rilasci Amazon EMR per l'etichetta di rilascio emr-4.8.0:

  • Risolto un problema con YARN dove ApplicationMaster cercava di pulire i container che non esistono più perché le loro istanze sono state terminate.

  • Corrette le azioni hive-server2 URL per Hive2 negli esempi Oozie.

  • Aggiunto supporto per i cataloghi Presto aggiuntivi.

  • Backport per patch: HIVE-8948, HIVE-12679, HIVE-13405, PHOENIX-3116, HADOOP-12689

  • Aggiunto supporto per le configurazioni di sicurezza che ti permettono di creare e applicare le opzioni di cifratura più facilmente. Per ulteriori informazioni, consulta Crittografia dei dati.

Rilascio 4.7.2

Le seguenti note di rilascio includono informazioni su Amazon EMR 4.7.2.

Data del rilascio: 15 luglio 2016

Funzionalità

Le seguenti caratteristiche sono disponibili in questo rilascio:

  • Aggiornato a Mahout 0.12.2

  • Aggiornato a Presto 0.148

  • Aggiornato a Spark 1.6.2

  • Ora puoi creare un AWSCredentialsProvider da utilizzare con EMRFS utilizzando un URI come parametro. Per ulteriori informazioni, consulta Crea un AWSCredentialsProvider per EMRFS.

  • EMRFS ora consente agli utenti di configurare un endpoint DynamoDB personalizzato per i metadata Consistent View (Visualizzazione coerente) utilizzando la proprietà fs.s3.consistent.dynamodb.endpoint in emrfs-site.xml.

  • Aggiunto uno script in /usr/bin chiamato spark-example, che esegue il wrapping di /usr/lib/spark/spark/bin/run-example in modo che tu possa eseguire gli esempi direttamente. Ad esempio, per eseguire un esempio SparkPi disponibile con la distribuzione Spark, puoi eseguire spark-example SparkPi 100 dalla riga di comando o utilizzando command-runner.jar come fase nella API.

Problemi noti risolti dai rilasci precedenti

  • Risolto un problema in cui Oozie aveva spark-assembly.jar in una posizione non corretta quando Spark era installato, il che portava a un errore durante il lancio delle applicazioni Spark con Oozie.

  • Risolto un problema con il logging Spark Log4j-based nei container YARN.

Rilascio 4.7.1

Data del rilascio: 10 giugno 2016

Problemi noti risolti dai rilasci precedenti

  • Risolto un problema che prolungava i tempi di avvio dei cluster lanciati in un VPC con sottoreti private. Il bug interessava soltanto i cluster lanciati con il rilascio di Amazon EMR 4.7.0.

  • Risolto un problema che gestiva in modo non corretto l'elenco dei file in Amazon EMR per i cluster lanciati con il rilascio di Amazon EMR 4.7.0.

Rilascio 4.7.0

Importante

Amazon EMR 4.7.0 è una versione obsoleta. Utilizza invece Amazon EMR 4.7.1 o versioni successive.

Data del rilascio: 2 giugno 2016

Funzionalità

Le seguenti caratteristiche sono disponibili in questo rilascio:

  • Aggiunto Apache Phoenix 4.7.0

  • Aggiunto Apache Tez 0.8.3

  • Aggiornato a HBase 1.2.1

  • Aggiornato a Mahout 0.12.0

  • Aggiornato a Presto 0.147

  • Aggiornato AWS SDK for Java a 1.10.75

  • Il flag finale è stato rimosso dalla proprietà mapreduce.cluster.local.dir in mapred-site.xml per permettere agli utenti di eseguire Pig in modalità locale.

Driver JDBC Amazon Redshift disponibili sul cluster

I driver JDBC Amazon Redshift sono ora inclusi in /usr/share/aws/redshift/jdbc. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar è il driver JDBC Amazon Redshift compatibile con 4.1 e /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar è il driver JDBC Amazon Redshift compatibile con 4.0. Per ulteriori informazioni, consultare Configurazione di una connessione JDBC nella Guida alla gestione di Amazon Redshift.

Java 8

A eccezione di Presto, OpenJDK 1.7 è il JDK di default utilizzato per tutte le applicazioni. Tuttavia, sia OpenJDK 1.7 sia OpenJDK 1.8 sono installati. Per informazioni su come impostare JAVA_HOME per le applicazioni, consulta Configurazione delle applicazioni per utilizzare Java 8.

Problemi noti risolti dai rilasci precedenti

  • Risolto un problema con il kernel che influiva in modo significativo sulla performance dei volumi Throughput Optimized HDD (st1) EBS per Amazon EMR in emr-4.6.0.

  • Risolto un problema in cui un cluster restituiva un errore se una zona di cifratura HDFS veniva specificata senza scegliere Hadoop come applicazione.

  • Modificata la policy di scrittura HDFS di default da RoundRobin a AvailableSpaceVolumeChoosingPolicy. Alcuni volumi non venivano utilizzati correttamente con la configurazione RoundRobin, il che portava i nodi principali a restituire un errore e alla creazione di HDFS non affidabili.

  • Risolto un problema con la CLI EMRFS che causava un'eccezione durante la creazione della tabella dei metadati DynamoDB di default per viste uniformi.

  • Risolto un problema di deadlock in EMRFS che accadeva eventualmente durante le operazioni multiparte di rinomina e copia.

  • Risolto un problema con EMRFS che faceva sì che la dimensione di default di CopyPart fosse 5 MB. Il valore di default è ora di 128 MB.

  • Risolto un problema con la configurazione upstart di Zeppelin che eventualmente ti impediva di poter arrestare il servizio.

  • Risolto un problema con Spark e Zeppelin, che ti impediva di utilizzare lo schema URI s3a:// perché /usr/lib/hadoop/hadoop-aws.jar non era caricato correttamente nel rispettivo classpath.

  • Backport per HUE-2484.

  • Backport per commit da Hue 3.9.0 (nessun JIRA esistente) per risolvere un problema con il campione del browser HBase.

  • Backport per HIVE-9073.

Rilascio 4.6.0

Data del rilascio: 21 aprile 2016

Funzionalità

Le seguenti caratteristiche sono disponibili in questo rilascio:

Problema che riguarda i tipi di volume Throughput Optimized HDD (st1) EBS

Un problema nel kernel Linux versioni 4.2 e superiori influisce in modo significativo sulla performance dei volumi Throughput Optimized HDD (st1) EBS per EMR. Questo rilascio (emr-4.6.0) utilizza kernel versione 4.4.5 per cui è interessato dal problema. Per questo motivo ti consigliamo di non usare emr-4.6.0 se desideri usare i volumi st1 EBS. Puoi utilizzare i rilasci emr-4.5.0 o Amazon EMR precedenti con st1 senza che si crei alcun problema. Inoltre, forniamo la correzione per i rilasci futuri.

Valori di default di Python

Python 3.4 ora è installato di default, ma Python 2.7 rimane la versione di default del sistema. Puoi configurare Python 3.4 come la versione di default del sistema utilizzando un'operazione di bootstrap; puoi anche usare la configurazione API per impostare l'export PYSPARK_PYTHON su /usr/bin/python3.4 nella classificazione spark-env in modo che interessi la versione di Python utilizzata da PySpark.

Java 8

A eccezione di Presto, OpenJDK 1.7 è il JDK di default utilizzato per tutte le applicazioni. Tuttavia, sia OpenJDK 1.7 sia OpenJDK 1.8 sono installati. Per informazioni su come impostare JAVA_HOME per le applicazioni, consulta Configurazione delle applicazioni per utilizzare Java 8.

Problemi noti risolti dai rilasci precedenti

  • Risolto un problema in cui il provisioning dell'applicazione poteva restituire un errore in modo casuale a causa della password generata.

  • In precedenza, mysqld era installato su tutti i nodi. Ora, è installato soltanto sull'istanza master e solo se l'applicazione scelta include mysql-server come componente. Attualmente, le seguenti applicazioni includono il componente mysql-server: HCatalog, Hive, Hue, Presto-Sandbox e Sqoop-Sandbox.

  • Modificato yarn.scheduler.maximum-allocation-vcores a 80 rispetto al valore di default di 32. Questa scelta risolve un errore introdotto in emr-4.4.0 che si verificava principalmente con Spark durante l'uso dell'opzione maximizeResourceAllocation in un cluster il cui tipo di istanza core era uno dei pochi tipi di istanza di grandi dimensioni che hanno i vcore YARN impostati su un valore superiore a 32; tra questi c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge o m4.10xlarge erano interessati dal problema.

  • s3-dist-cp ora utilizza EMRFS per tutte le nomine Amazon S3 e non viene più gestito su una directory HDFS temporanea.

  • Risolto un problema con la gestione dell'eccezione per il caricamento in più parti della crittografia lato client.

  • Aggiunta un'opzione per permettere agli utenti di modificare la classe di archiviazione Amazon S3. Per default, l'impostazione è STANDARD. L'impostazione della classificazione della configurazione emrfs-site è fs.s3.storageClass e i valori possibili sono STANDARD, STANDARD_IA e REDUCED_REDUNDANCY. Per ulteriori informazioni sulle classi di archiviazione, consulta Classi di archiviazione nella Guida per l'utente di Amazon Simple Storage Service.

Rilascio 4.5.0

Data del rilascio: 4 aprile 2016

Funzionalità

Le seguenti caratteristiche sono disponibili in questo rilascio:

  • Aggiornato a Spark 1.6.1

  • Aggiornato a Hadoop 2.7.2

  • Aggiornato a Presto 0.140

  • Aggiunto supporto AWS KMS per la crittografia lato server Amazon S3.

Problemi noti risolti dai rilasci precedenti

  • Risolto un problema in cui i server MySQL e Apache non si riavviavano dopo il riavvio di un nodo.

  • Risolto un problema in cui IMPORT non funzionava correttamente con le tabelle non partizionate archiviate in Amazon S3

  • Risolto un problema con Presto dove si richiedeva che la directory di gestione temporanea fosse /mnt/tmp anziché /tmp quando si scrive sulla tabelle Hive.

Rilascio 4.4.0

Data di rilascio: 14 marzo 2016

Funzionalità

Le seguenti caratteristiche sono disponibili in questo rilascio:

  • Aggiunto HCatalog 1.0.0

  • Aggiunto Sqoop-Sandbox 1.4.6

  • Aggiornato a Presto 0.136

  • Aggiornato a Zeppelin 0.5.6

  • Aggiornato a Mahout 0.11.1

  • Abilitato dynamicResourceAllocation per impostazione predefinita.

  • Aggiunta una tabella di tutte le classificazioni della configurazione per il rilascio. Per ulteriori informazioni, consulta la tabella sulle classificazioni della configurazione in Configurazione delle applicazioni.

Problemi noti risolti dai rilasci precedenti

  • Risolto un problema in cui l'impostazione maximizeResourceAllocation non avrebbe riservato memoria sufficiente per i daemon YARN ApplicationMaster.

  • Risolto un problema rilevato con un DNS personalizzato. Se le voci in resolve.conf precedono le voci personalizzate fornite, allora le voci personalizzate non sono risolvibili. Questo comportamento è stato influenzato dai cluster in un VPC dove il server di nomi VPC di default era inserito come prima voce in resolve.conf.

  • Risolto un problema in cui il Python di default era spostato nella versione 2.7 e boto non era installato per quella versione.

  • Risolto un problema in cui i container YARN e le applicazioni Spark generavano un file unico del round robin database (rrd) di Ganglia il che portava al collegamento del primo disco al riempimento dell'istanza. Per via di questa correzione, i parametri a livello del container YARN sono stati disattivati così come quelli a livello dell'applicazione Spark.

  • Risolto un problema in log pusher che avrebbe cancellato tutte le cartelle vuote dei log. La conseguenza era che Hive CLI non era in grado di effettuare l'accesso perché log pusher cancellava la cartella vuota user sotto /var/log/hive.

  • Risolto un problema che riguardava le importazioni di Hive, che interessava il partizionamento e produceva un errore durante l'importazione.

  • Risolto un problema in cui EMRFS e s3-dist-cp non gestivano correttamente i nomi dei bucket che contengono punti.

  • Modificato un comportamento in EMRFS che prevedeva che nei bucket con funzione Versioni multiple abilitata il file marker _$folder$ non venisse creato in modo continuo, il che potrebbe portare a un miglioramento delle prestazioni per i bucket con funzione Versioni multiple abilitata.

  • Modificato il comportamento in EMRFS in modo tale che non utilizzi i file di istruzione tranne nei casi in cui la crittografia lato client sia abilitata. Se vuoi cancellare i file di istruzione mentre utilizzi la crittografia lato client, puoi configurare la proprietà emrfs-site.xml property, fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled, su true.

  • Modificata l'aggregazione dei log YARN per conservare i log nella destinazione dell'aggregazione per due giorni. La destinazione di default è lo storage HDFS del cluster. Se desideri modificare la durata, modifica il valore di yarn.log-aggregation.retain-seconds utilizzando la classificazione della configurazione yarn-site durante la creazione del cluster. Come sempre, puoi salvare i log dell'applicazione in Amazon S3 utilizzando il parametro log-uri quando crei il cluster.

Patch applicate

Le seguenti patch di progetti open source sono state incluse in questo rilascio:

Rilascio 4.3.0

Data del rilascio: 19 gennaio 2016

Funzionalità

Le seguenti caratteristiche sono disponibili in questo rilascio:

  • Aggiornato a Hadoop 2.7.1

  • Aggiornato a Spark 1.6.0

  • Aggiornato Ganglia a 3.7.2

  • Aggiornato Presto a 0.130

Amazon EMR ha effettuato alcune modifiche a spark.dynamicAllocation.enabled quando è impostato su true (vero); è false (falso) per impostazione predefinita. Quando è impostato su true, interessa i valori predefiniti definiti dall'impostazione maximizeResourceAllocation:

  • Se spark.dynamicAllocation.enabled è impostato su true, spark.executor.instances non è impostato da maximizeResourceAllocation.

  • L'impostazione spark.driver.memory ora è configurata in base ai tipi di istanza nel cluster in modo simile a come è impostato spark.executors.memory. Tuttavia, dato che l'applicazione del driver di Spark potrebbe essere eseguita o sull'istanza master o su una delle istanze core (ad esempio, nelle modalità client YARN e cluster, rispettivamente), l'impostazione spark.driver.memory è definita in base al tipo di istanza del tipo di istanza più piccola tra questi due gruppi di istanze.

  • L'impostazione spark.default.parallelism è ora definita al doppio dei core CPU disponibili per i container YARN. Nei rilasci precedenti, era la metà del valore.

  • I calcoli per il sovraccarico della memoria allocata ai processi YARN di Spark sono stati modificati per essere più precisi, generando un piccolo aumento della quantità di memoria disponibile per Spark (ovvero, spark.executor.memory).

Problemi noti risolti dai rilasci precedenti

  • L'aggregazione dei log YARN ora è abilitata per impostazione predefinita.

  • Risolto un problema in cui i log non venivano inviati al bucket di log Amazon S3 del cluster quando l'aggregazione dei log YARN era abilitata.

  • Le dimensioni del container YARN ora sono di un minimo di 32 su tutti i tipi di nodo.

  • Risolto un problema con Ganglia che provocava un I/O su disco eccessivo sul nodo master nei cluster di grandi dimensioni.

  • Risolto un problema che evitava che i log delle applicazioni venissero trasmessi ad Amazon S3 quando un cluster veniva disattivato.

  • Risolto un problema in EMRFS CLI che faceva sì che alcuni comandi restituissero errori.

  • Risolto un problema con Zeppelin che evitava che le dipendenze venissero caricate nello SparkContext sottostante.

  • Risolto un problema causato dall'emissione di un tentativo di ridimensionamento per aggiungere le istanze.

  • Risolto un problema in Hive dove CREATE TABLE AS SELECT effettua troppe chiamate dell'elenco su Amazon S3.

  • Risolto un problema in cui i cluster di grandi dimensioni non effettuano correttamente il provisioning quando sono istallati Hue, Oozie e Ganglia.

  • Risolto un problema in s3-dist-cp dove avrebbe restituito un codice di uscita diverso zero se avesse restituito un errore.

Patch applicate

Le seguenti patch di progetti open source sono state incluse in questo rilascio:

Rilascio 4.2.0

Data del rilascio: 18 novembre 2015

Funzionalità

Le seguenti caratteristiche sono disponibili in questo rilascio:

  • Aggiunto supporto per Ganglia

  • Aggiornato a Spark 1.5.2

  • Aggiornato a Presto 0.125

  • Aggiornato Oozie a 4.2.0

  • Aggiornato Zeppelin a 0.5.5

  • Aggiornato AWS SDK for Java a 1.10.27

Problemi noti risolti dai rilasci precedenti

  • Risolto un problema con EMRFS CLI dove non utilizzava il nome della tabella dei metadata di default.

  • Risolto un problema che avveniva durante l'uso delle tabelle supportate da ORC in Amazon S3.

  • Risolto un problema che avveniva con una mancanza di corrispondenza della versione di Python nella configurazione di Spark.

  • Risolto un problema quando lo stato di un nodo YARN non riusciva a effettuare il report a causa di problemi di DNS per i cluster in un VPC.

  • Risolto un problema che si verificava quando YARN disattivava i nodi, generando applicazioni bloccate o impedendo di programmare nuove applicazioni.

  • Risolto un problema che si verificava quando i cluster terminavano con lo stato TIMED_OUT_STARTING.

  • Risolto un problema che si verificava quando si include la dipendenza di EMRFS Scala in altre compilazioni. La dipendenza da Scala è stata rimossa.