Versions Amazon EMR 5.x - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Versions Amazon EMR 5.x

Chaque onglet ci-dessous répertorie les versions des applications, les notes de mise à jour, les versions des composants et les classifications de configuration disponibles dans chaque version 5.x d'Amazon EMR.

Pour obtenir un diagramme complet des versions de l'application de chaque version, consultez Versions des applications dans les versions 5.x d'Amazon EMR (PNG).

Lorsque vous lancez un cluster, vous pouvez choisir parmi plusieurs versions d'Amazon EMR. Vous pouvez ainsi tester et utiliser les versions des applications répondant à vos exigences de compatibilité. Vous spécifiez la version à l'aide du paramètre release label. Les étiquettes de version sont sous la forme emr-x.x.x. For example, emr-5.31.0.

New Amazon EMR release versions are made available in different regions over a period of several days, beginning with the first region on the initial release date. The latest release version may not be available in your region during this period.

5.31.0

Version 5.31.0 Versions de l’application

Les applications suivantes sont prises en charge dans cette version : à clignoter, Les Ganglia, Hadoop, HBase, HCatalog, Ruche, Teinte, JupyterHub, Lierre, Aéroport de Mahout, MXNet, Oézie, Phœnix, Cochon, Présto, Étincelle, Époussée, TensorFlow, Aéroport de Tez, Zéppelin, et ZooKeeper.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions d'Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 5.31.0 -Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations pour Amazon EMR version 5.31.0. Des modifications ont été apportées à la version 5.30.1.

Date de parution initiale : 9 octobre 2020

Date de la dernière mise à jour : 15 octobre 2020

Mises à niveau

  • Mise à niveau du connecteur Amazon Glue vers la version 1.13.0

  • Mise à niveau du kit SDK Amazon SageMaker Spark vers la version 1.4.0

  • Mise à niveau du connecteur Amazon Kinesis vers la version 3.5.9

  • Mise à niveau du kit SDK Java AWS vers la version 1.11.852

  • Mise à niveau de Bigtop-Tomcat vers la version 8.5.56

  • Mise à niveau d'EMR FS vers la version 2.43.0

  • Mise à niveau du client EMR MetricsAndEventsApiGateway vers la version 1.4.0

  • Mise à niveau de CP EMR S3 Dist vers la version 2.15.0

  • Mise à niveau d'EMR S3 Select vers la version 1.6.0

  • Mise à niveau de Flink vers la version 1.11.0

  • Mise à niveau de Hadoop vers la version 2.10.0

  • Mise à niveau de Hive vers la version 2.3.7

  • Mise à niveau de Hudi vers la version 0.6.0

  • Mise à niveau de Hue vers la version 4.7.1

  • Mise à niveau de JupyterHub vers la version 1.1.0

  • Mise à niveau de Mxnet vers la version 1.6.0

  • Mise à niveau d'OpenCV vers la version 4.3.0

  • Mise à niveau de Presto vers la version 0.238.3

  • Mise à niveau de TensorFlow vers la version 2.1.0

Modifications, améliorations et problèmes résolus

Nouvelles fonctions

  • Avec Amazon EMR 5.31.0, vous pouvez lancer un cluster qui s'intègre à Lake Formation. Cette intégration fournit un filtrage de données détaillé au niveau des colonnes aux bases de données et aux tables du catalogue de données AWS Glue. Elle permet également l'authentification unique fédérée aux blocs-notes EMR ou Apache Zeppelin à partir d'un système d'identité d'entreprise. Pour de plus amples informations, veuillez consulter Intégration d'Amazon EMR avec AWS Lake Formation dans le Amazon EMR Guide de gestion.

    Amazon EMR avec Lake Formation est actuellement disponible dans 16 régions AWS : USA Est (Ohio et Virginie du Nord), USA Ouest (Californie du Nord et Oregon), Asie-Pacifique (Mumbai, Séoul, Singapour, Sydney et Tokyo), Canada (Centre), Europe (Francfort, Irlande, Londres, Paris et Stockholm), Amérique du Sud (São Paulo).

Problèmes connus

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Note

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.31.0 Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants dans Amazon EMR diffèrent des versions de la communauté. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. EmrVersion commence à 0. Par exemple, si un composant de la communauté open source nommé myapp-component avec la version 2.2 a été modifié trois fois en vue de son inclusion dans différentes versions d'Amazon EMR, sa version apparaît sous le nom 2.2-amzn-2.

Composant Version  Description
aws-sagemaker-spark-sdk 1.4.0 (Amazonie) SageMaker Kit SDK Spark
emr-ddb 4,15,0 (Amazonie) DynamoDB pour les applications de l’écosystème Hadoop.
emr-goodies 2.13.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.5.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.15.0 Application de copie distribuée optimisée pour Amazon S3.
emr-s3-select 1.6.0 Dossier médical informatisé S3Select Connecteur
emrfs à 2,43,0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
flink-client 1.11.0 Applications et scripts client de la ligne de commande Apache Flink.
flink-gestionnaire-de-travaux-config 1.11.0 Gestion des ressources sur les nœuds EMR pour Apache Flink JobManager.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client à -2,10 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode à -2,10 HDFS node-level service for storing blocks.
hadoop-hdfs-library à -2,10 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode à -2,10 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-hdfs-journalnode à -2,10 Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA.
hadoop-httpfs-server à -2,10 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server à -2,10 Serveur de gestion des clés cryptographiques basé sur Hadoop KeyProvider de l’API.
hadoop-mapred à -2,10 MapReduce bibliothèques du moteur d’exécution pour l’exécution d’un MapReduce de l’application.
hadoop-yarn-nodemanager à -2,10 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager à -2,10 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server à -2,10 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.4.13 Service pour un HBase du cluster responsable de la coordination des régions et de l’exécution des commandes administratives.
hbase-region-server 1.4.13 Service pour servir un ou plusieurs HBase régions.
hbase-client 1.4.13 HBase client de ligne de commande.
hbase-rest-server 1.4.13 Service fournissant un RESTful Point de terminaison HTTP pour HBase.
hbase-thrift-server 1.4.13 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client à 2,3,7-amzn-1 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server à 2,3,7-amzn-1 Fourniture de services HCatalog, une couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server à 2,3,7-amzn-1 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client à 2,3,7-amzn-1 Client de ligne de commande Hive.
hive-hbase à 2,3,7-amzn-1 Client Hive-hbase.
hive-metastore-server à 2,3,7-amzn-1 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server2 à 2,3,7-amzn-1 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hudi de 0,6.0 à 0 Infrastructure de traitement incrémentiel pour implémenter un pipeline à faible latence et à efficacité élevée.
étincelles-hudi de 0,6.0 à 0 Bibliothèque de bundles pour l’exécution de Spark avec Hudi.
hudi-presto de 0,6.0 à 0 Bibliothèque de solution groupée pour exécuter Presto avec Hudi.
hue-server 4.7.1 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
jupyterhub 1.1.0 Serveur multi-utilisateurs pour blocs-notes Jupyter
livy-server 0.7.0-incubating Interface REST pour interagir avec Apache Spark
nginx 1.12.1 nginx [engine x] est un serveur HTTP et à proxy inverse
mahout-client 0.13.0 Bibliothèque pour la technologie Machine Learning.
mxnet 1.6.0 Bibliothèque flexible, évolutive et efficace pour l'apprentissage profond.
mariadb-server 5.5.64 MySQL serveur de base de données.
nvidia-cuda 9.2.88 Pilotes Nvidia et boîte à outils Cuda
oozie-client 5.2.0 Client de ligne de commande Oozie.
oozie-server 5.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
opencv 4.3.0 Bibliothèque open source Vision par ordinateur
phoenix-library 4.14.3-HBase-1.4 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.14.3-HBase-1.4 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0,238,3 à 0 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0,238,3 à 0 Service pour exécuter les éléments d'une requête.
presto-client 0,238,3 à 0 Client de ligne de commande Presto installé sur les maîtres de secours d'un cluster haute disponibilité où le serveur Presto n'est pas démarré.
pig-client 0.17.0 Client de ligne de commande Pig.
r 3.4.3 Projet R pour les calculs statistiques
ranger-kms-server 1.2.0 Système de gestion des clés Apache Ranger
spark-client à 2.4.6-amzn-0 Clients de ligne de commande Spark.
spark-history-server à 2.4.6-amzn-0 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn à 2.4.6-amzn-0 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave à 2.4.6-amzn-0 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.7 Client de ligne de commande Apache Sqoop.
tensorflow 2.1.0 TensorFlow bibliothèque de logiciels open source pour un calcul numérique haute performance.
tez-on-yarn 0.9.2 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.8.2 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.14 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.14 ZooKeeper ligne de commande client.

Version 5.31.0 -Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.

Classifications emr-5.31.0
Classifications  Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

container-log4j

Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

flink-conf

Modifiez les paramètres flink-conf.yaml.

flink-log4j

Modifiez les paramètres log4j.properties Flink.

flink-log4j-yarn-session

Modifiez les paramètres de Flink log4j-fil-session.properties.

flink-log4j-cli

Modifiez les paramètres de propriétés Flink log4j-cli.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase

Paramètres organisés par Amazon EMR pour Apache HBase.

hbase-env

Modifier les valeurs dans HBasede l’environnement de.

hbase-log4j

Modifier les valeurs dans HBasedu fichier hbase-log4j.properties.

hbase-metrics

Modifier les valeurs dans HBasefichier hadoop-metrics2-hbase.properties de.

hbase-policy

Modifier les valeurs dans HBasedu fichier hbase-policy.xml.

hbase-site

Modifier les valeurs dans HBasedu fichier hbase-site.xml.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifier les valeurs dans HCatalogde l’environnement de.

hcatalog-server-jndi

Modifier les valeurs dans HCatalogdes propriétés jndi. de.

hcatalog-server-proto-hive-site

Modifier les valeurs dans HCatalogdu site proto-hive-site.xml de.

hcatalog-webhcat-env

Modifier les valeurs dans HCatalog WebHCatde l’environnement de.

hcatalog-webhcat-log4j2

Modifier les valeurs dans HCatalog WebHCatde log4j2.properties.

hcatalog-webhcat-site

Modifier les valeurs dans HCatalog WebHCatdu fichier webhcat-site.xml de.

hive-beeline-log4j2

Modifiez les valeurs dans le fichier beeline-log4j2.properties de Hive.

hive-parquet-logging

Modifiez les valeurs dans le fichier parquet-logging.properties de Hive.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j2

Modifiez les valeurs dans le fichier hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Modifiez les valeurs dans le fichier llap-daemon-log4j2.properties de Hive.

hive-log4j2

Modifiez les valeurs dans le fichier hive-log4j2.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

hudi-env

Modifiez les valeurs dans l'environnement Hudi.

jupyter-notebook-conf

Modifiez les valeurs dans le fichier jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Modifier les valeurs dans JupyterHubsdu fichier jupyterhub_config.py.

jupyter-s3-conf

Configuration de la persistance S3 de bloc-notes Jupyter.

jupyter-sparkmagic-conf

Modifiez les valeurs dans le fichier config.json de Sparkmagic.

livy-conf

Modifiez les valeurs dans le fichier livy.conf de Livy.

livy-env

Modifiez les valeurs dans l'environnement Livy.

livy-log4j

Modifiez les paramètres Livy log4j.properties.

mapred-env

Modifiez les valeurs dans le MapReduce environnement de l’application.

mapred-site

Modifiez les valeurs dans le MapReduce fichier mapred-site.xml de l’application.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Modifiez les valeurs dans l'environnement Pig.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-password-authenticator

Modifiez les valeurs dans le fichier password-authenticator.properties de Presto.

presto-env

Modifiez les valeurs dans le fichier presto-env.sh de Presto.

presto-node

Modifiez les valeurs dans le fichier node.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-memory

Modifiez les valeurs dans le fichier memory.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-redshift

Modifiez les valeurs dans le fichier redshift.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

presto-connector-tpcds

Modifiez les valeurs dans le fichier tpcds.properties de Presto.

ranger-kms-dbks-site

Modifiez les valeurs dans le fichier dbks-site.xml de Ranger KMS.

ranger-kms-site

Modifiez les valeurs dans le fichier ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Modifiez les valeurs dans l'environnement Ranger KMS.

ranger -kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Modifier les valeurs du fichier CA sur S3 pour MySQL Connexion SSL avec Ranger KMS.

recordserver-env

Modifier les valeurs dans l’EMR RecordServer environnement.

recordserver-conf

Modifier les valeurs dans EMR RecordServerdu fichier erver.properties.

recordserver-log4j

Modifier les valeurs dans EMR RecordServerdu fichier log4j.properties.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Spark

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifier les valeurs dans Sqoop OraOopdu fichier oraoop-site.xml.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifier les valeurs dans ZooKeeperdu fichier zoo.cfg de.

zookeeper-log4j

Modifier les valeurs dans ZooKeeperdu fichier log4j.properties.

5.30.x

Il existe plusieurs versions dans la série 5.30. Choisissez un lien ci-dessous pour afficher les informations relatives à une version spécifique dans cet onglet.

5.30.1 (Dernière) | 5.30.0

Amazon EMR Version 5.30.1

Version 5.30.1 Versions de l’application

Les applications suivantes sont prises en charge dans cette version : Encre, Ganglia, Hadoop, base, catalogue, Ruche, Teinte, jupyterhub, Livy, Mahout, mxnet, Oozie, Phoenix, Porc, Presto, Étincelle, Sqoop, tensorflow, Tez, Zeppelin, et zookeeper.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions d'Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 5.30.1 -Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations pour Amazon EMR version 5.30.1. Des modifications ont été apportées à la version 5.30.0.

Date de parution initiale : 30 juin 2020

Date de la dernière mise à jour : 24 août 2020

Modifications, améliorations et problèmes résolus

  • Correction d'un problème où le processus du contrôleur d'instance engendrait un nombre infini de processus.

  • Correction d'un problème où Hue ne pouvait exécuter une requête Hive, affichant un message indiquant que la base de données était verrouillée et empêchant l'exécution des requêtes.

  • Correction d'un problème Spark pour permettre l'exécution simultanée de plus de tâches sur le cluster EMR.

  • Correction d'un problème de bloc-notes Jupyter provoquant une erreur d'ouverture d'un trop grand nombre de fichiers dans le serveur Jupyter.

  • Correction d'un problème lié aux heures de démarrage de cluster.

Nouvelles fonctions

  • Les interfaces d'application persistante du serveur de chronologie Tez et YARN sont disponibles avec Amazon EMR versions 6.x et EMR versions 5.30.1 et ultérieures. L'accès via un lien en un clic à l'historique des applications persistantes vous permet d'accéder rapidement à l'historique des tâches sans configurer un proxy Web via une connexion SSH. Les journaux des clusters actifs et terminés sont disponibles pendant 30 jours après l'arrêt de l'application. Pour de plus amples informations, veuillez consulter Afficher les interfaces utilisateur d'application persistante dans le Amazon EMR Guide de gestion.

  • Les API d'exécution de bloc-notes EMR sont disponibles pour exécuter des blocs-notes EMR via un script ou une ligne de commande. La possibilité de démarrer, d'arrêter, de répertorier et de décrire les exécutions de bloc-notes EMR sans la console AWS vous permet de contrôler un bloc-notes EMR par programmation. À l'aide d'une cellule de bloc-notes paramétrée, vous pouvez transmettre différentes valeurs de paramètres à un bloc-notes sans avoir à créer une copie du bloc-notes pour chaque nouvel ensemble de valeurs de paramètre. Veuillez consulter les actions de l'API EMR. Pour obtenir un exemple de code, veuillez consulter les informations relatives aux exemples de commandes pour exécuter des blocs-notes EMR par programmation.

Problèmes connus

  • Blocs-notes EMR

    La fonction qui vous permet d'installer des noyaux et des bibliothèques Python supplémentaires sur le nœud principal du cluster est désactivée par défaut sur EMR version 5.30.1. Pour de plus amples informations sur cette fonction, veuillez consulter Installation des noyaux et des bibliothèques Python sur un nœud principal de cluster.

    Pour activer la fonction, procédez comme suit :

    1. Assurez-vous que la stratégie d'autorisations attachée au rôle de service pour les EMR Notebooks autorise l'action suivante :

      elasticmapreduce:ListSteps

      Pour plus d'informations, consultez Rôle de service pour les bloc-notes EMR.

    2. Utilisez l'AWS CLI pour exécuter une étape sur le cluster qui configure Blocs-notes EMR comme illustré dans l'exemple suivant. Pour de plus amples informations, veuillez consulter Ajout d'étapes à un cluster à l'aide de l'interface de ligne de commande AWS.

      aws emr add-steps --cluster-id MyClusterID --steps 'Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]'
  • Mise à l'échelle gérée

    Les opérations de mise à l'échelle gérées sur des clusters 5.30.0 et 5.30.1 sur lesquels Presto n'est pas installé peuvent provoquer des défaillances d'application ou bloquer un groupe d'instances ou une flotte d'instances uniforme à l'état ARRESTED, en particulier lorsqu'une opération de diminution de l'échelle est suivie rapidement d'une opération d'augmentation de l'échelle.

    Pour contourner le problème, choisissez Presto comme application à installer lorsque vous créez un cluster, même si votre tâche ne nécessite pas Presto.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Note

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.30.1 Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants dans Amazon EMR diffèrent des versions de la communauté. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. EmrVersion commence à 0. Par exemple, si un composant de la communauté open source nommé myapp-component avec la version 2.2 a été modifié trois fois en vue de son inclusion dans différentes versions d'Amazon EMR, sa version apparaît sous le nom 2.2-amzn-2.

Composant Version () Description :
aws-sagemaker-spark-sdk 1.3.0 SDK Amazon SageMaker Spark
emr-ddb 4.14.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.13.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.5.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.14.0 Application de copie distribuée optimisée pour Amazon S3.
emr-s3-select 1.5.0 Connecteur S3Select EMR
emrfs 2.40.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
flink-client 1.10.0 Applications et scripts client de la ligne de commande Apache Flink.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.8.5-amzn-6 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.8.5-amzn-6 HDFS node-level service for storing blocks.
hadoop-hdfs-library 2.8.5-amzn-6 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.8.5-amzn-6 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-hdfs-journalnode 2.8.5-amzn-6 Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA.
hadoop-httpfs-server 2.8.5-amzn-6 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.8.5-amzn-6 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-6 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-6 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.8.5-amzn-6 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.8.5-amzn-6 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.4.13 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.4.13 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.4.13 Client de ligne de commande HBase.
hbase-rest-server 1.4.13 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.4.13 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 2.3.6-amzn-2 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 2.3.6-amzn-2 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 2.3.6-amzn-2 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 2.3.6-amzn-2 Client de ligne de commande Hive.
hive-hbase 2.3.6-amzn-2 Client Hive-hbase.
hive-metastore-server 2.3.6-amzn-2 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server2 2.3.6-amzn-2 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hudi 0.5.2-incubating Infrastructure de traitement incrémentiel pour implémenter un pipeline à faible latence et à efficacité élevée.
hudi-presto 0.5.2-incubating Bibliothèque de solution groupée pour exécuter Presto avec Hudi.
hue-server 4.6.0 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
jupyterhub 1.1.0 Serveur multi-utilisateurs pour blocs-notes Jupyter
livy-server 0.7.0-incubating Interface REST pour interagir avec Apache Spark
nginx 1.12.1 nginx [engine x] est un serveur HTTP et à proxy inverse
mahout-client 0.13.0 Bibliothèque pour la technologie Machine Learning.
mxnet 1.5.1 Bibliothèque flexible, évolutive et efficace pour l'apprentissage profond.
mariadb-server 5.5.64 Serveur de base de données MySQL.
nvidia-cuda 9.2.88 Pilotes Nvidia et boîte à outils Cuda
oozie-client 5.2.0 Client de ligne de commande Oozie.
oozie-server 5.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
opencv 3.4.0 Bibliothèque open source Vision par ordinateur
phoenix-library 4.14.3-HBase-1.4 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.14.3-HBase-1.4 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.232 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.232 Service pour exécuter les éléments d'une requête.
presto-client 0.232 Client de ligne de commande Presto installé sur les maîtres de secours d'un cluster haute disponibilité où le serveur Presto n'est pas démarré.
pig-client 0.17.0 Client de ligne de commande Pig.
\r 3.4.3 Projet R pour les calculs statistiques
ranger-kms-server 1.2.0 Système de gestion des clés Apache Ranger
spark-client 2.4.5-amzn-0 Clients de ligne de commande Spark.
spark-history-server 2.4.5-amzn-0 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 2.4.5-amzn-0 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 2.4.5-amzn-0 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.7 Client de ligne de commande Apache Sqoop.
tensorflow 1.14.0 Bibliothèque logicielle open source tensorflow pour le calcul numérique à performance élevée.
tez-on-yarn 0.9.2 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.8.2 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.14 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.14 Client de ligne de commande ZooKeeper.

Version 5.30.1 -Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.

Classifications emr-5.30.1
Classifications Description :

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

container-log4j

Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

flink-conf

Modifiez les paramètres flink-conf.yaml.

flink-log4j

Modifiez les paramètres log4j.properties Flink.

flink-log4j-yarn-session

Modifiez les paramètres de Flink log4j-fil-session.properties.

flink-log4j-cli

Modifiez les paramètres de propriétés Flink log4j-cli.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase

Paramètres organisés par Amazon EMR pour Apache HBase.

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j2

Modifiez les valeurs dans log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-beeline-log4j2

Modifiez les valeurs dans le fichier beeline-log4j2.properties de Hive.

hive-parquet-logging

Modifiez les valeurs dans le fichier parquet-logging.properties de Hive.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j2

Modifiez les valeurs dans le fichier hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Modifiez les valeurs dans le fichier llap-daemon-log4j2.properties de Hive.

hive-log4j2

Modifiez les valeurs dans le fichier hive-log4j2.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

hudi-env

Modifiez les valeurs dans l'environnement Hudi.

jupyter-notebook-conf

Modifiez les valeurs dans le fichier jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Modifiez les valeurs dans le fichier jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configuration de la persistance S3 de bloc-notes Jupyter.

jupyter-sparkmagic-conf

Modifiez les valeurs dans le fichier config.json de Sparkmagic.

livy-conf

Modifiez les valeurs dans le fichier livy.conf de Livy.

livy-env

Modifiez les valeurs dans l'environnement Livy.

livy-log4j

Modifiez les paramètres Livy log4j.properties.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Modifiez les valeurs dans l'environnement Pig.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-password-authenticator

Modifiez les valeurs dans le fichier password-authenticator.properties de Presto.

presto-env

Modifiez les valeurs dans le fichier presto-env.sh de Presto.

presto-node

Modifiez les valeurs dans le fichier node.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-memory

Modifiez les valeurs dans le fichier memory.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-redshift

Modifiez les valeurs dans le fichier redshift.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

presto-connector-tpcds

Modifiez les valeurs dans le fichier tpcds.properties de Presto.

ranger-kms-dbks-site

Modifiez les valeurs dans le fichier dbks-site.xml de Ranger KMS.

ranger-kms-site

Modifiez les valeurs dans le fichier ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Modifiez les valeurs dans l'environnement Ranger KMS.

ranger -kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Modifiez les valeurs du fichier CA sur S3 pour la connexion SSL MySQL avec Ranger KMS.

recordserver-env

Modifiez les valeurs dans l'environnement RecordServer EMR.

recordserver-conf

Modifiez les valeurs dans le fichier erver.properties de l’environnement RecordServer EMR

recordserver-log4j

Modifiez les valeurs dans le fichier log4j.properties de l’environnement RecordServer EMR.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Spark

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

Amazon EMR Version 5.30.0

Version 5.30.0 Versions de l’application

Les applications suivantes sont prises en charge dans cette version : Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin et ZooKeeper.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions d'Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 5.30.0 -Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version 5.30.0 d'Amazon EMR. Les modifications ont été apportées à la version 5.29.0.

Date de parution initiale : 13 mai 2020

Date de la dernière mise à jour : 25 juin 2020

Mises à niveau

  • Mise à niveau de AWS SDK for Java vers la version 1.11.759

  • Mise à niveau du kit SDK Amazon SageMaker Spark vers la version 1.3.0

  • Mise à niveau du serveur d'enregistrement EMR vers la version 1.6.0

  • Mise à niveau de Flink vers la version 1.10.0

  • Mise à niveau de Ganglia vers la version 3.7.2

  • Mise à niveau de HBase vers la version 1.4.13

  • Mise à niveau de Hudi vers la version 0.5.2 incubating

  • Mise à niveau de Hue vers la version 4.6.0

  • Mise à niveau de JupyterHub vers la version 1.1.0

  • Mise à niveau de Livy vers la version 0.7.0-incubating

  • Mise à niveau d'Oozie vers la version 5.2.0

  • Mise à niveau de Presto vers la version 0.232

  • Mise à niveau de Spark vers la version 2.4.5

  • Connecteurs et pilotes mis à niveau : Amazon Glue Connector 1.12.0 ; Amazon Kinesis Connector 3.5.0 ; EMR DynamoDB Connector 4.14.0

Nouvelles fonctions

  • Blocs-notes EMR – Lorsqu'ils sont utilisés avec des clusters EMR créés à l'aide de la version 5.30.0, les noyaux Bloc-notes EMR s'exécutent sur un cluster. Cela améliore les performances des blocs-notes et vous permet d'installer et de personnaliser les noyaux. Vous pouvez également installer des bibliothèques Python sur le nœud maître du cluster. Pour plus d'informations, consultez Installation et utilisation des noyaux et des bibliothèques dans le Manuel de gestion EMR .

  • Dimensionnement géré – Avec les versions 5.30.0 et ultérieures d'Amazon EMR, vous pouvez activer le dimensionnement géré par EMR pour augmenter ou diminuer automatiquement le nombre d'instances ou d'unités dans votre cluster en fonction de la charge de travail. EMR évalue en permanence les métriques de cluster pour prendre des décisions de dimensionnement qui optimisent vos clusters en termes de coût et de vitesse. Pour plus d'informations, consultez Dimensionnement des ressources de cluster dans le Amazon EMR Guide de gestion.

  • Chiffrer des fichiers journaux dans Amazon S3 – Avec la version 5.30.0 et ultérieures d’Amazon EMR vous pouvez chiffrer les fichiers journaux stockés dans Amazon S3 avec une clé gérée par le client AWS KMS. Pour plus d'informations, consultez Chiffrer les fichiers journaux stockés dans Amazon S3 dans le Amazon EMR Guide de gestion.

  • Prise en charge d'Amazon Linux 2 – Les versions 5.30.0 et ultérieures d’EMR utilisent le système d'exploitation Amazon Linux 2. Les nouvelles AMI personnalisées (Amazon Machine Image) doivent être basées sur l'AMI Amazon Linux 2. Pour en savoir plus, consultez Utilisation d'une image AMI personnalisée.

  • Dimensionnement automatique gracieux Presto – Les clusters EMR utilisant la version 5.30.0 peuvent inclure un délai d'attente de dimensionnement automatique qui donne aux tâches Presto le temps s’exécuter complètement avant que leur nœud ne soit hors-service. Pour de plus amples informations, veuillez consulter Utilisation du dimensionnement automatique de Presto avec désaffectation gracieuse.

  • Création d'instances de parc avec la nouvelle option de stratégie d'allocation : une nouvelle option de stratégie d'allocation est disponible dans EMR versions 5.12.1 et ultérieures. Elle offre une allocation de cluster plus rapide, une allocation ponctuelle plus précise et une réduction des interruptions d'instance ponctuelle. Des mises à jour de rôles de service EMR autres que par défaut sont requises. Veuillez consulter Configuration de parcs d'instances.

  • Commandes sudo systemctl stop et sudo systemctl start : dans EMR versions 5.30.0 et ultérieures, qui utilisent le système d'exploitation Amazon Linux 2, EMR utilise les commandes sudo systemctl stop et sudo systemctl start pour redémarrer les services. Pour de plus amples informations, veuillez consulter Comment redémarrer un service dans Amazon EMR ?.

Modifications, améliorations et problèmes résolus

  • EMR version 5.30.0 n'installe pas Ganglia par défaut. Lorsque vous créez un cluster, vous pouvez sélectionner expressément l’installation de Ganglia.

  • Optimisation des performances Spark.

  • Optimisation des performances Presto.

  • Python 3 est la valeur par défaut pour Amazon EMR versions 5.30.0 et ultérieures.

  • Le groupe de sécurité géré par défaut pour l'accès au service dans les sous-réseaux privés a été mis à jour avec de nouvelles règles. Si vous utilisez un groupe de sécurité personnalisé pour accéder au service, vous devez inclure les mêmes règles que le groupe de sécurité géré par défaut. Pour plus d'informations, consultez Groupe de sécurité géré par Amazon EMR pour l'accès au service (sous-réseaux privés). Si vous utilisez un rôle de service personnalisé pour Amazon EMR, vous devez accorder l'autorisation aux ec2:describeSecurityGroups pour permettre à EMR de confirmer que les groupes de sécurité sont correctement créés. Si vous utilisez le EMR_DefaultRole, cette autorisation est déjà incluse dans la stratégie gérée par défaut.

Problèmes connus

  • Mise à l'échelle gérée

    Les opérations de mise à l'échelle gérées sur des clusters 5.30.0 et 5.30.1 sur lesquels Presto n'est pas installé peuvent provoquer des défaillances d'application ou bloquer un groupe d'instances ou une flotte d'instances uniforme à l'état ARRESTED, en particulier lorsqu'une opération de diminution de l'échelle est suivie rapidement d'une opération d'augmentation de l'échelle.

    Pour contourner le problème, choisissez Presto comme application à installer lorsque vous créez un cluster, même si votre tâche ne nécessite pas Presto.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Note

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.30.0 Versions des composants

Composant Version () Description :
aws-sagemaker-spark-sdk 1.3.0 SDK Amazon SageMaker Spark
emr-ddb 4.14.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.13.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.5.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-notebook-env 1.0.0 Environnement Conda pour bloc-notes emr
emr-s3-dist-cp 2.14.0 Application de copie distribuée optimisée pour Amazon S3.
emr-s3-select 1.5.0 Connecteur S3Select EMR
emrfs 2.40.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
flink-client 1.10.0 Applications et scripts client de la ligne de commande Apache Flink.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.8.5-amzn-6 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.8.5-amzn-6 HDFS node-level service for storing blocks.
hadoop-hdfs-library 2.8.5-amzn-6 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.8.5-amzn-6 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-hdfs-journalnode 2.8.5-amzn-6 Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA.
hadoop-httpfs-server 2.8.5-amzn-6 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.8.5-amzn-6 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-6 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-6 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.8.5-amzn-6 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.8.5-amzn-6 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.4.13 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.4.13 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.4.13 Client de ligne de commande HBase.
hbase-rest-server 1.4.13 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.4.13 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 2.3.6-amzn-2 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 2.3.6-amzn-2 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 2.3.6-amzn-2 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 2.3.6-amzn-2 Client de ligne de commande Hive.
hive-hbase 2.3.6-amzn-2 Client Hive-hbase.
hive-metastore-server 2.3.6-amzn-2 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server2 2.3.6-amzn-2 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hudi 0.5.2-incubating Infrastructure de traitement incrémentiel pour implémenter un pipeline à faible latence et à efficacité élevée.
hudi-presto 0.5.2-incubating Bibliothèque de solution groupée pour exécuter Presto avec Hudi.
hue-server 4.6.0 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
jupyterhub 1.1.0 Serveur multi-utilisateurs pour blocs-notes Jupyter
livy-server 0.7.0-incubating Interface REST pour interagir avec Apache Spark
nginx 1.12.1 nginx [engine x] est un serveur HTTP et à proxy inverse
mahout-client 0.13.0 Bibliothèque pour la technologie Machine Learning.
mxnet 1.5.1 Bibliothèque flexible, évolutive et efficace pour l'apprentissage profond.
mariadb-server 5.5.64 Serveur de base de données MySQL.
nvidia-cuda 9.2.88 Pilotes Nvidia et boîte à outils Cuda
oozie-client 5.2.0 Client de ligne de commande Oozie.
oozie-server 5.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
opencv 3.4.0 Bibliothèque open source Vision par ordinateur
phoenix-library 4.14.3-HBase-1.4 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.14.3-HBase-1.4 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.232 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.232 Service pour exécuter les éléments d'une requête.
presto-client 0.232 Client de ligne de commande Presto installé sur les maîtres de secours d'un cluster haute disponibilité où le serveur Presto n'est pas démarré.
pig-client 0.17.0 Client de ligne de commande Pig.
\r 3.4.3 Projet R pour les calculs statistiques
ranger-kms-server 1.2.0 Système de gestion des clés Apache Ranger
spark-client 2.4.5-amzn-0 Clients de ligne de commande Spark.
spark-history-server 2.4.5-amzn-0 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 2.4.5-amzn-0 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 2.4.5-amzn-0 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.7 Client de ligne de commande Apache Sqoop.
tensorflow 1.14.0 Bibliothèque logicielle open source tensorflow pour le calcul numérique à performance élevée.
tez-on-yarn 0.9.2 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.8.2 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.14 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.14 Client de ligne de commande ZooKeeper.

Version 5.30.0 -Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.

Classifications emr-5.30.0
Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

container-log4j

Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

flink-conf

Modifiez les paramètres flink-conf.yaml.

flink-log4j

Modifiez les paramètres log4j.properties Flink.

flink-log4j-yarn-session

Modifiez les paramètres de Flink log4j-fil-session.properties.

flink-log4j-cli

Modifiez les paramètres de propriétés Flink log4j-cli.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase

Paramètres organisés par Amazon EMR pour Apache HBase.

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j2

Modifiez les valeurs dans log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-beeline-log4j2

Modifiez les valeurs dans le fichier beeline-log4j2.properties de Hive.

hive-parquet-logging

Modifiez les valeurs dans le fichier parquet-logging.properties de Hive.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j2

Modifiez les valeurs dans le fichier hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Modifiez les valeurs dans le fichier llap-daemon-log4j2.properties de Hive.

hive-log4j2

Modifiez les valeurs dans le fichier hive-log4j2.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

hudi-env

Modifiez les valeurs dans l'environnement Hudi.

jupyter-notebook-conf

Modifiez les valeurs dans le fichier jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Modifiez les valeurs dans le fichier jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configuration de la persistance S3 de bloc-notes Jupyter.

jupyter-sparkmagic-conf

Modifiez les valeurs dans le fichier config.json de Sparkmagic.

livy-conf

Modifiez les valeurs dans le fichier livy.conf de Livy.

livy-env

Modifiez les valeurs dans l'environnement Livy.

livy-log4j

Modifiez les paramètres Livy log4j.properties.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Modifiez les valeurs dans l'environnement Pig.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-password-authenticator

Modifiez les valeurs dans le fichier password-authenticator.properties de Presto.

presto-env

Modifiez les valeurs dans le fichier presto-env.sh de Presto.

presto-node

Modifiez les valeurs dans le fichier node.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-memory

Modifiez les valeurs dans le fichier memory.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-redshift

Modifiez les valeurs dans le fichier redshift.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

presto-connector-tpcds

Modifiez les valeurs dans le fichier tpcds.properties de Presto.

ranger-kms-dbks-site

Modifiez les valeurs dans le fichier dbks-site.xml de Ranger KMS.

ranger-kms-site

Modifiez les valeurs dans le fichier ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Modifiez les valeurs dans l'environnement Ranger KMS.

ranger -kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Modifiez les valeurs du fichier CA sur S3 pour la connexion SSL MySQL avec Ranger KMS.

recordserver-env

Modifiez les valeurs dans l'environnement RecordServer EMR.

recordserver-conf

Modifiez les valeurs dans le fichier erver.properties de l’environnement RecordServer EMR

recordserver-log4j

Modifiez les valeurs dans le fichier log4j.properties de l’environnement RecordServer EMR.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Spark

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

5.29.0

Versions de l’application 5.29.0

Les applications suivantes sont prises en charge dans cette version : Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin et ZooKeeper.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions d'Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Notes de mise à jour 5.29.0

Les notes de mises à jour suivantes incluent des informations sur la version 5.29.0 d'Amazon EMR. Les modifications ont été apportées à la version 5.28.1.

Date de parution initiale : 17 janvier 2020

Mises à niveau

  • Mise à niveau du kit SDK Java AWS vers la version 1.11.682

  • Mise à niveau de Hive vers la version 2.3.6

  • Mise à niveau de Flink vers la version 1.9.1

  • Mise à niveau d'EmrFS vers la version 2.38.0

  • Mise à niveau d'EMR DynamoDB Connector vers la version 4.13.0

Modifications, améliorations et problèmes résolus

  • Spark

    • Optimisation des performances Spark.

  • EMRFS

    • Mise à jour des paramètres par défaut du fichier emrfs-site.xml dans le Guide de gestion à des fins d'harmonisation.

Problèmes connus

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Note

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versions des composants 5.29.0

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants dans Amazon EMR diffèrent des versions de la communauté. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. EmrVersion commence à 0. Par exemple, si un composant de la communauté open source nommé myapp-component avec la version 2.2 a été modifié trois fois en vue de son inclusion dans différentes versions d'Amazon EMR, sa version apparaît sous le nom 2.2-amzn-2.

Composant Version Description
aws-sagemaker-spark-sdk 1.2.6 SDK Amazon SageMaker Spark
emr-ddb 4.13.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.12.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.4.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.13.0 Application de copie distribuée optimisée pour Amazon S3.
emr-s3-select 1.4.0 Connecteur S3Select EMR
emrfs 2.38.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
flink-client 1.9.1 Applications et scripts client de la ligne de commande Apache Flink.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.8.5-amzn-5 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.8.5-amzn-5 HDFS node-level service for storing blocks.
hadoop-hdfs-library 2.8.5-amzn-5 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.8.5-amzn-5 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-hdfs-journalnode 2.8.5-amzn-5 Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA.
hadoop-httpfs-server 2.8.5-amzn-5 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.8.5-amzn-5 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-5 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-5 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.4.10 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.4.10 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.4.10 Client de ligne de commande HBase.
hbase-rest-server 1.4.10 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.4.10 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 2.3.6-amzn-1 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 2.3.6-amzn-1 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 2.3.6-amzn-1 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 2.3.6-amzn-1 Client de ligne de commande Hive.
hive-hbase 2.3.6-amzn-1 Client Hive-hbase.
hive-metastore-server 2.3.6-amzn-1 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server2 2.3.6-amzn-1 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hudi 0.5.0-incubating Infrastructure de traitement incrémentiel pour implémenter un pipeline à faible latence et à efficacité élevée.
hudi-presto 0.5.0-incubating Bibliothèque de solution groupée pour exécuter Presto avec Hudi.
hue-server 4.4.0 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
jupyterhub 1.0.0 Serveur multi-utilisateurs pour blocs-notes Jupyter
livy-server 0.6.0-incubating Interface REST pour interagir avec Apache Spark
nginx 1.12.1 nginx [engine x] est un serveur HTTP et à proxy inverse
mahout-client 0.13.0 Bibliothèque pour la technologie Machine Learning.
mxnet 1.5.1 Bibliothèque flexible, évolutive et efficace pour l'apprentissage profond.
mysql-server 5.5.54+ Serveur de base de données MySQL.
nvidia-cuda 9.2.88 Pilotes Nvidia et boîte à outils Cuda
oozie-client 5.1.0 Client de ligne de commande Oozie.
oozie-server 5.1.0 Service pour l'acceptation des demandes de flux de travail Oozie.
opencv 3.4.0 Bibliothèque open source Vision par ordinateur
phoenix-library 4.14.3-HBase-1.4 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.14.3-HBase-1.4 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.227 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.227 Service pour exécuter les éléments d'une requête.
presto-client 0.227 Client de ligne de commande Presto installé sur les maîtres de secours d'un cluster haute disponibilité où le serveur Presto n'est pas démarré.
pig-client 0.17.0 Client de ligne de commande Pig.
r 3.4.1 Projet R pour les calculs statistiques
spark-client 2.4.4 Clients de ligne de commande Spark.
spark-history-server 2.4.4 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 2.4.4 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 2.4.4 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.7 Client de ligne de commande Apache Sqoop.
tensorflow 1.14.0 Bibliothèque logicielle open source tensorflow pour le calcul numérique à performance élevée.
tez-on-yarn 0.9.2 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.8.2 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.14 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.14 Client de ligne de commande ZooKeeper.

5.29.0 Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.

Classifications emr-5.29.0
Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

container-log4j

Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

flink-conf

Modifiez les paramètres flink-conf.yaml.

flink-log4j

Modifiez les paramètres log4j.properties Flink.

flink-log4j-yarn-session

Modifiez les paramètres de Flink log4j-fil-session.properties.

flink-log4j-cli

Modifiez les paramètres de propriétés Flink log4j-cli.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase

Paramètres organisés par Amazon EMR pour Apache HBase.

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j2

Modifiez les valeurs dans log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-beeline-log4j2

Modifiez les valeurs dans le fichier beeline-log4j2.properties de Hive.

hive-parquet-logging

Modifiez les valeurs dans le fichier parquet-logging.properties de Hive.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j2

Modifiez les valeurs dans le fichier hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Modifiez les valeurs dans le fichier llap-daemon-log4j2.properties de Hive.

hive-log4j2

Modifiez les valeurs dans le fichier hive-log4j2.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

jupyter-notebook-conf

Modifiez les valeurs dans le fichier jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Modifiez les valeurs dans le fichier jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configuration de la persistance S3 de bloc-notes Jupyter.

jupyter-sparkmagic-conf

Modifiez les valeurs dans le fichier config.json de Sparkmagic.

livy-conf

Modifiez les valeurs dans le fichier livy.conf de Livy.

livy-env

Modifiez les valeurs dans l'environnement Livy.

livy-log4j

Modifiez les paramètres Livy log4j.properties.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Modifiez les valeurs dans l'environnement Pig.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-password-authenticator

Modifiez les valeurs dans le fichier password-authenticator.properties de Presto.

presto-env

Modifiez les valeurs dans le fichier presto-env.sh de Presto.

presto-node

Modifiez les valeurs dans le fichier node.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-memory

Modifiez les valeurs dans le fichier memory.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-redshift

Modifiez les valeurs dans le fichier redshift.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

presto-connector-tpcds

Modifiez les valeurs dans le fichier tpcds.properties de Presto.

ranger-kms-dbks-site

Modifiez les valeurs dans le fichier dbks-site.xml de Ranger KMS.

ranger-kms-site

Modifiez les valeurs dans le fichier ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Modifiez les valeurs dans l'environnement Ranger KMS.

ranger -kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Modifiez les valeurs du fichier CA sur S3 pour la connexion SSL MySQL avec Ranger KMS.

recordserver-env

Modifiez les valeurs dans l'environnement RecordServer EMR.

recordserver-conf

Modifiez les valeurs dans le fichier erver.properties de l’environnement RecordServer EMR

recordserver-log4j

Modifiez les valeurs dans le fichier log4j.properties de l’environnement RecordServer EMR.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Spark

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

5.28.x

La série 5.28 comporte plusieurs versions. Choisissez un lien ci-dessous pour afficher les informations relatives à une version spécifique dans cet onglet.

5.28.1 (Dernière) | 5.28.0

Amazon EMR Version 5.28.1

Version 5.28.1 Versions de l’application

Les applications suivantes sont prises en charge dans cette version : Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin et ZooKeeper.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions d'Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 5.28.1 -Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version 5.28.1 d'Amazon EMR. Les modifications ont été apportées à la version 5.28.0.

Date de parution initiale : 10 janvier 2020

Modifications, améliorations et problèmes résolus

  • Spark

    • Correction des problèmes de compatibilité Spark.

  • Métriques CloudWatch

    • Correction de la publication des métriques Amazon CloudWatch sur un cluster EMR avec plusieurs nœuds principaux.

  • Désactivation du message de journal

    • Désactivation du faux message de journal, « ...en utilisant l'ancienne version (<4.5.8) du client http Apache. »

Problèmes connus

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Note

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.28.1 Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants dans Amazon EMR diffèrent des versions de la communauté. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. EmrVersion commence à 0. Par exemple, si un composant de la communauté open source nommé myapp-component avec la version 2.2 a été modifié trois fois en vue de son inclusion dans différentes versions d'Amazon EMR, sa version apparaît sous le nom 2.2-amzn-2.

Composant Version Description
aws-sagemaker-spark-sdk 1.2.6 SDK Amazon SageMaker Spark
emr-ddb 4.12.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.11.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.4.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.13.0 Application de copie distribuée optimisée pour Amazon S3.
emr-s3-select 1.3.0 Connecteur S3Select EMR
emrfs 2.37.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
flink-client 1.9.0 Applications et scripts client de la ligne de commande Apache Flink.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.8.5-amzn-5 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.8.5-amzn-5 HDFS node-level service for storing blocks.
hadoop-hdfs-library 2.8.5-amzn-5 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.8.5-amzn-5 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-hdfs-journalnode 2.8.5-amzn-5 Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA.
hadoop-httpfs-server 2.8.5-amzn-5 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.8.5-amzn-5 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-5 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-5 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.4.10 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.4.10 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.4.10 Client de ligne de commande HBase.
hbase-rest-server 1.4.10 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.4.10 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 2.3.6-amzn-0 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 2.3.6-amzn-0 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 2.3.6-amzn-0 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 2.3.6-amzn-0 Client de ligne de commande Hive.
hive-hbase 2.3.6-amzn-0 Client Hive-hbase.
hive-metastore-server 2.3.6-amzn-0 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server2 2.3.6-amzn-0 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hudi 0.5.0-incubating Infrastructure de traitement incrémentiel pour implémenter un pipeline à faible latence et à efficacité élevée.
hudi-presto 0.5.0-incubating Bibliothèque de solution groupée pour exécuter Presto avec Hudi.
hue-server 4.4.0 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
jupyterhub 1.0.0 Serveur multi-utilisateurs pour blocs-notes Jupyter
livy-server 0.6.0-incubating Interface REST pour interagir avec Apache Spark
nginx 1.12.1 nginx [engine x] est un serveur HTTP et à proxy inverse
mahout-client 0.13.0 Bibliothèque pour la technologie Machine Learning.
mxnet 1.5.1 Bibliothèque flexible, évolutive et efficace pour l'apprentissage profond.
mysql-server 5.5.54+ Serveur de base de données MySQL.
nvidia-cuda 9.2.88 Pilotes Nvidia et boîte à outils Cuda
oozie-client 5.1.0 Client de ligne de commande Oozie.
oozie-server 5.1.0 Service pour l'acceptation des demandes de flux de travail Oozie.
opencv 3.4.0 Bibliothèque open source Vision par ordinateur
phoenix-library 4.14.3-HBase-1.4 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.14.3-HBase-1.4 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.227 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.227 Service pour exécuter les éléments d'une requête.
presto-client 0.227 Client de ligne de commande Presto installé sur les maîtres de secours d'un cluster haute disponibilité où le serveur Presto n'est pas démarré.
pig-client 0.17.0 Client de ligne de commande Pig.
r 3.4.1 Projet R pour les calculs statistiques
spark-client 2.4.4 Clients de ligne de commande Spark.
spark-history-server 2.4.4 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 2.4.4 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 2.4.4 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.7 Client de ligne de commande Apache Sqoop.
tensorflow 1.14.0 Bibliothèque logicielle open source tensorflow pour le calcul numérique à performance élevée.
tez-on-yarn 0.9.2 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.8.2 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.14 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.14 Client de ligne de commande ZooKeeper.

Version 5.28.1 -Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.

Classifications emr-5.28.1
Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

container-log4j

Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

flink-conf

Modifiez les paramètres flink-conf.yaml.

flink-log4j

Modifiez les paramètres log4j.properties Flink.

flink-log4j-yarn-session

Modifiez les paramètres de Flink log4j-fil-session.properties.

flink-log4j-cli

Modifiez les paramètres de propriétés Flink log4j-cli.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase

Paramètres organisés par Amazon EMR pour Apache HBase.

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j2

Modifiez les valeurs dans log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-beeline-log4j2

Modifiez les valeurs dans le fichier beeline-log4j2.properties de Hive.

hive-parquet-logging

Modifiez les valeurs dans le fichier parquet-logging.properties de Hive.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j2

Modifiez les valeurs dans le fichier hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Modifiez les valeurs dans le fichier llap-daemon-log4j2.properties de Hive.

hive-log4j2

Modifiez les valeurs dans le fichier hive-log4j2.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

jupyter-notebook-conf

Modifiez les valeurs dans le fichier jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Modifiez les valeurs dans le fichier jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configuration de la persistance S3 de bloc-notes Jupyter.

jupyter-sparkmagic-conf

Modifiez les valeurs dans le fichier config.json de Sparkmagic.

livy-conf

Modifiez les valeurs dans le fichier livy.conf de Livy.

livy-env

Modifiez les valeurs dans l'environnement Livy.

livy-log4j

Modifiez les paramètres Livy log4j.properties.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Modifiez les valeurs dans l'environnement Pig.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-password-authenticator

Modifiez les valeurs dans le fichier password-authenticator.properties de Presto.

presto-env

Modifiez les valeurs dans le fichier presto-env.sh de Presto.

presto-node

Modifiez les valeurs dans le fichier node.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-memory

Modifiez les valeurs dans le fichier memory.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-redshift

Modifiez les valeurs dans le fichier redshift.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

presto-connector-tpcds

Modifiez les valeurs dans le fichier tpcds.properties de Presto.

ranger-kms-dbks-site

Modifiez les valeurs dans le fichier dbks-site.xml de Ranger KMS.

ranger-kms-site

Modifiez les valeurs dans le fichier ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Modifiez les valeurs dans l'environnement Ranger KMS.

ranger -kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Modifiez les valeurs du fichier CA sur S3 pour la connexion SSL MySQL avec Ranger KMS.

recordserver-env

Modifiez les valeurs dans l'environnement RecordServer EMR.

recordserver-conf

Modifiez les valeurs dans le fichier erver.properties de l’environnement RecordServer EMR

recordserver-log4j

Modifiez les valeurs dans le fichier log4j.properties de l’environnement RecordServer EMR.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Spark

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

Amazon EMR Version 5.28.0

Version 5.28.0 Versions de l’application

Les applications suivantes sont prises en charge dans cette version : Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin et ZooKeeper.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions d'Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 5.28.0 -Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version 5.28.0 d'Amazon EMR. Les modifications ont été apportées à la version 5.27.0.

Date de parution initiale : 12 novembre 2019

Mises à niveau

  • Mise à niveau de Flink vers la version 1.9.0

  • Mise à niveau de Hive vers la version 2.3.6

  • Mise à niveau de MXNet vers la version 1.5.1

  • Mise à niveau de Phoenix vers la version 4.14.3

  • Mise à niveau de Presto vers la version 0.227

  • Mise à niveau de Zeppelin vers la version 0.8.2

Nouvelles fonctions

  • Apache Hudi est désormais disponible pour une installation via Amazon EMR lorsque vous créez un cluster. Pour plus d'informations, consultez Hudi (incubation).

  • (25 novembre 2019) Vous pouvez maintenant choisir d'exécuter plusieurs étapes en parallèle pour améliorer l'utilisation du cluster et faire des économies. Vous pouvez également annuler à la fois les étapes en attente et celles en cours d'exécution. Pour plus d'informations, consultez Utilisation des étapes à l'aide de l'AWS CLI et de la console.

  • (3 décembre 2019) Vous pouvez désormais créer et exécuter des clusters EMR sur AWS Outposts. AWS Outposts autorise les services, l'infrastructure et les modèles d'exploitation AWS natifs dans les installations sur site. Dans les environnements AWS Outposts, vous pouvez utiliser les mêmes API, outils et infrastructure AWS que dans le cloud AWS. Pour plus d'informations, consultez Clusters EMR sur AWS Outposts.

  • (11 mars 2020) À partir d'Amazon EMR version 5.28.0, vous pouvez créer et exécuter des clusters Amazon EMR sur un sous-réseau Zones locales AWS en tant qu'extension logique d'une région AWS prenant en charge les Zones locales. Une Zone locale active des fonctions Amazon EMR et un sous-ensemble de services AWS, tels que les services de calcul et de stockage, afin d'être plus près des utilisateurs. Elle offre un accès à très faible à latence aux applications exécutées localement. Pour obtenir la liste des Zones locales disponibles, veuillez consulter Zones locales AWS. Pour de plus amples informations sur l'accès aux Zones locales AWS disponibles, veuillez consulter Régions, zones de disponibilité et zones locales.

    Actuellement, les Zones locales ne prennent pas en charge les blocs-notes Amazon EMR, ni les connexions directement vers Amazon EMR à l'aide du point de terminaison de VPC d'interface (AWS PrivateLink).

Modifications, améliorations et problèmes résolus

Problèmes connus

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Note

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Version 5.28.0 Versions des composants

Composant Version Description
aws-sagemaker-spark-sdk 1.2.6 SDK Amazon SageMaker Spark
emr-ddb 4.12.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.11.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.4.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.13.0 Application de copie distribuée optimisée pour Amazon S3.
emr-s3-select 1.3.0 Connecteur S3Select EMR
emrfs 2.37.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
flink-client 1.9.0 Applications et scripts client de la ligne de commande Apache Flink.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.8.5-amzn-5 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.8.5-amzn-5 HDFS node-level service for storing blocks.
hadoop-hdfs-library 2.8.5-amzn-5 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.8.5-amzn-5 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-hdfs-journalnode 2.8.5-amzn-5 Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA.
hadoop-httpfs-server 2.8.5-amzn-5 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.8.5-amzn-5 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-5 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-5 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.4.10 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.4.10 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.4.10 Client de ligne de commande HBase.
hbase-rest-server 1.4.10 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.4.10 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 2.3.6-amzn-0 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 2.3.6-amzn-0 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 2.3.6-amzn-0 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 2.3.6-amzn-0 Client de ligne de commande Hive.
hive-hbase 2.3.6-amzn-0 Client Hive-hbase.
hive-metastore-server 2.3.6-amzn-0 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server2 2.3.6-amzn-0 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hudi 0.5.0-incubating Infrastructure de traitement incrémentiel pour implémenter un pipeline à faible latence et à efficacité élevée.
hudi-presto 0.5.0-incubating Bibliothèque de solution groupée pour exécuter Presto avec Hudi.
hue-server 4.4.0 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
jupyterhub 1.0.0 Serveur multi-utilisateurs pour blocs-notes Jupyter
livy-server 0.6.0-incubating Interface REST pour interagir avec Apache Spark
nginx 1.12.1 nginx [engine x] est un serveur HTTP et à proxy inverse
mahout-client 0.13.0 Bibliothèque pour la technologie Machine Learning.
mxnet 1.5.1 Bibliothèque flexible, évolutive et efficace pour l'apprentissage profond.
mysql-server 5.5.54+ Serveur de base de données MySQL.
nvidia-cuda 9.2.88 Pilotes Nvidia et boîte à outils Cuda
oozie-client 5.1.0 Client de ligne de commande Oozie.
oozie-server 5.1.0 Service pour l'acceptation des demandes de flux de travail Oozie.
opencv 3.4.0 Bibliothèque open source Vision par ordinateur
phoenix-library 4.14.3-HBase-1.4 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.14.3-HBase-1.4 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.227 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.227 Service pour exécuter les éléments d'une requête.
presto-client 0.227 Client de ligne de commande Presto installé sur les maîtres de secours d'un cluster haute disponibilité où le serveur Presto n'est pas démarré.
pig-client 0.17.0 Client de ligne de commande Pig.
r 3.4.1 Projet R pour les calculs statistiques
spark-client 2.4.4 Clients de ligne de commande Spark.
spark-history-server 2.4.4 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 2.4.4 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 2.4.4 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.7 Client de ligne de commande Apache Sqoop.
tensorflow 1.14.0 Bibliothèque logicielle open source tensorflow pour le calcul numérique à performance élevée.
tez-on-yarn 0.9.2 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.8.2 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.14 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.14 Client de ligne de commande ZooKeeper.

Version 5.28.0 -Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.

Classifications emr-5.28.0
Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

container-log4j

Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

flink-conf

Modifiez les paramètres flink-conf.yaml.

flink-log4j

Modifiez les paramètres log4j.properties Flink.

flink-log4j-yarn-session

Modifiez les paramètres de Flink log4j-fil-session.properties.

flink-log4j-cli

Modifiez les paramètres de propriétés Flink log4j-cli.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase

Paramètres organisés par Amazon EMR pour Apache HBase.

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j2

Modifiez les valeurs dans log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-beeline-log4j2

Modifiez les valeurs dans le fichier beeline-log4j2.properties de Hive.

hive-parquet-logging

Modifiez les valeurs dans le fichier parquet-logging.properties de Hive.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j2

Modifiez les valeurs dans le fichier hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Modifiez les valeurs dans le fichier llap-daemon-log4j2.properties de Hive.

hive-log4j2

Modifiez les valeurs dans le fichier hive-log4j2.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

jupyter-notebook-conf

Modifiez les valeurs dans le fichier jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Modifiez les valeurs dans le fichier jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configuration de la persistance S3 de bloc-notes Jupyter.

jupyter-sparkmagic-conf

Modifiez les valeurs dans le fichier config.json de Sparkmagic.

livy-conf

Modifiez les valeurs dans le fichier livy.conf de Livy.

livy-env

Modifiez les valeurs dans l'environnement Livy.

livy-log4j

Modifiez les paramètres Livy log4j.properties.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Modifiez les valeurs dans l'environnement Pig.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-password-authenticator

Modifiez les valeurs dans le fichier password-authenticator.properties de Presto.

presto-env

Modifiez les valeurs dans le fichier presto-env.sh de Presto.

presto-node

Modifiez les valeurs dans le fichier node.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-memory

Modifiez les valeurs dans le fichier memory.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-redshift

Modifiez les valeurs dans le fichier redshift.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

presto-connector-tpcds

Modifiez les valeurs dans le fichier tpcds.properties de Presto.

ranger-kms-dbks-site

Modifiez les valeurs dans le fichier dbks-site.xml de Ranger KMS.

ranger-kms-site

Modifiez les valeurs dans le fichier ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Modifiez les valeurs dans l'environnement Ranger KMS.

ranger -kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Modifiez les valeurs du fichier CA sur S3 pour la connexion SSL MySQL avec Ranger KMS.

recordserver-env

Modifiez les valeurs dans l'environnement RecordServer EMR.

recordserver-conf

Modifiez les valeurs dans le fichier erver.properties de l’environnement RecordServer EMR

recordserver-log4j

Modifiez les valeurs dans le fichier log4j.properties de l’environnement RecordServer EMR.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Spark

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

5.27.0

Versions de l’application 5.27.0

Les applications suivantes sont prises en charge dans cette version : Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin et ZooKeeper.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions d'Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Notes de mise à jour 5.27.0

Les notes de mises à jour suivantes incluent des informations sur la version 5.27.0 d'Amazon EMR. Les modifications ont été apportées à la version 5.26.0.

Date de parution initiale : 23 septembre 2019

Mises à niveau

  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • Tensorflow 1.14.0

  • Connecteurs et pilotes :

    • DynamoDB Connector 4.12.0

Nouvelles fonctions

  • (24 octobre 2019) Les nouvelles fonctions suivantes dans les bloc-notes EMR sont disponibles avec toutes les versions d’Amazon EMR.

    • Vous pouvez désormais associer des référentiels Git à des blocs-notes EMR pour enregistrer vos blocs-notes dans un environnement contrôlé par version. Vous pouvez partager du code avec des pairs et réutiliser des bloc-notes Jupyter existants via des référentiels Git distants. Pour plus d'informations, consultez les informations sur l’association de référentiels Git à des bloc-notes Amazon EMR dans le Amazon EMR Guide de gestion.

    • L’utilitaire nbdime est désormais disponible dans les bloc-notes EMR pour simplifier la comparaison et la fusion de bloc-notes.  

    • Les bloc-notes EMR prennent désormais en charge JupyterLab. JupyterLab est un environnement de développement interactif basé sur le Web entièrement compatible avec les blocs-notes Jupyter. Vous pouvez désormais choisir d'ouvrir votre bloc-notes dans l’éditeur de bloc-notes JupyterLab ou Jupyter. 

  • (30 octobre 2019) Avec Amazon EMR version 5.25.50 et ultérieures, vous pouvez vous connecter à l'interface utilisateur du serveur d'historique Spark à partir de la page Summary (Récapitulatif) du cluster ou de l’onglet Application history (Historique de l’application) de la console. Au lieu de configurer un proxy Web via une connexion SSH, vous pouvez accéder rapidement à l'interface utilisateur du serveur d'historique Spark pour accéder aux métriques de l’application et aux fichiers journaux correspondants pour les clusters actifs et résiliés. Pour de plus amples informations, veuillez consulter Accès hors cluster aux interfaces utilisateur d'application persistante dans le Amazon EMR Guide de gestion.

Modifications, améliorations et problèmes résolus

Problèmes connus

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Note

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versions des composants 5.27.0

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants dans Amazon EMR diffèrent des versions de la communauté. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. EmrVersion commence à 0. Par exemple, si un composant de la communauté open source nommé myapp-component avec la version 2.2 a été modifié trois fois en vue de son inclusion dans différentes versions d'Amazon EMR, sa version apparaît sous le nom 2.2-amzn-2.

Composant Version Description
aws-sagemaker-spark-sdk 1.2.4 SDK Amazon SageMaker Spark
emr-ddb 4.12.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.11.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.4.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.13.0 Application de copie distribuée optimisée pour Amazon S3.
emr-s3-select 1.3.0 Connecteur S3Select EMR
emrfs 2.36.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
flink-client 1.8.1 Applications et scripts client de la ligne de commande Apache Flink.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.8.5-amzn-4 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.8.5-amzn-4 HDFS node-level service for storing blocks.
hadoop-hdfs-library 2.8.5-amzn-4 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.8.5-amzn-4 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-hdfs-journalnode 2.8.5-amzn-4 Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA.
hadoop-httpfs-server 2.8.5-amzn-4 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.8.5-amzn-4 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-4 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-4 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.8.5-amzn-4 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.8.5-amzn-4 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.4.10 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.4.10 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.4.10 Client de ligne de commande HBase.
hbase-rest-server 1.4.10 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.4.10 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 2.3.5-amzn-1 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 2.3.5-amzn-1 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 2.3.5-amzn-1 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 2.3.5-amzn-1 Client de ligne de commande Hive.
hive-hbase 2.3.5-amzn-1 Client Hive-hbase.
hive-metastore-server 2.3.5-amzn-1 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server2 2.3.5-amzn-1 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 4.4.0 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
jupyterhub 1.0.0 Serveur multi-utilisateurs pour blocs-notes Jupyter
livy-server 0.6.0-incubating Interface REST pour interagir avec Apache Spark
nginx 1.12.1 nginx [engine x] est un serveur HTTP et à proxy inverse
mahout-client 0.13.0 Bibliothèque pour la technologie Machine Learning.
mxnet 1.4.0 Bibliothèque flexible, évolutive et efficace pour l'apprentissage profond.
mysql-server 5.5.54+ Serveur de base de données MySQL.
nvidia-cuda 9.2.88 Pilotes Nvidia et boîte à outils Cuda
oozie-client 5.1.0 Client de ligne de commande Oozie.
oozie-server 5.1.0 Service pour l'acceptation des demandes de flux de travail Oozie.
opencv 3.4.0 Bibliothèque open source Vision par ordinateur
phoenix-library 4.14.2-HBase-1.4 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.14.2-HBase-1.4 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.224 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.224 Service pour exécuter les éléments d'une requête.
pig-client 0.17.0 Client de ligne de commande Pig.
r 3.4.1 Projet R pour les calculs statistiques
spark-client 2.4.4 Clients de ligne de commande Spark.
spark-history-server 2.4.4 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 2.4.4 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 2.4.4 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.7 Client de ligne de commande Apache Sqoop.
tensorflow 1.14.0 Bibliothèque logicielle open source tensorflow pour le calcul numérique à performance élevée.
tez-on-yarn 0.9.2 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.8.1 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.14 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.14 Client de ligne de commande ZooKeeper.

5.27.0 Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.

Classifications emr-5.27.0
Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

container-log4j

Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

flink-conf

Modifiez les paramètres flink-conf.yaml.

flink-log4j

Modifiez les paramètres log4j.properties Flink.

flink-log4j-yarn-session

Modifiez les paramètres de Flink log4j-fil-session.properties.

flink-log4j-cli

Modifiez les paramètres de propriétés Flink log4j-cli.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase

Paramètres organisés par Amazon EMR pour Apache HBase.

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j2

Modifiez les valeurs dans log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-beeline-log4j2

Modifiez les valeurs dans le fichier beeline-log4j2.properties de Hive.

hive-parquet-logging

Modifiez les valeurs dans le fichier parquet-logging.properties de Hive.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j2

Modifiez les valeurs dans le fichier hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Modifiez les valeurs dans le fichier llap-daemon-log4j2.properties de Hive.

hive-log4j2

Modifiez les valeurs dans le fichier hive-log4j2.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

jupyter-notebook-conf

Modifiez les valeurs dans le fichier jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Modifiez les valeurs dans le fichier jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configuration de la persistance S3 de bloc-notes Jupyter.

jupyter-sparkmagic-conf

Modifiez les valeurs dans le fichier config.json de Sparkmagic.

livy-conf

Modifiez les valeurs dans le fichier livy.conf de Livy.

livy-env

Modifiez les valeurs dans l'environnement Livy.

livy-log4j

Modifiez les paramètres Livy log4j.properties.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Modifiez les valeurs dans l'environnement Pig.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-password-authenticator

Modifiez les valeurs dans le fichier password-authenticator.properties de Presto.

presto-env

Modifiez les valeurs dans le fichier presto-env.sh de Presto.

presto-node

Modifiez les valeurs dans le fichier node.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-memory

Modifiez les valeurs dans le fichier memory.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-redshift

Modifiez les valeurs dans le fichier redshift.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

presto-connector-tpcds

Modifiez les valeurs dans le fichier tpcds.properties de Presto.

ranger-kms-dbks-site

Modifiez les valeurs dans le fichier dbks-site.xml de Ranger KMS.

ranger-kms-site

Modifiez les valeurs dans le fichier ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Modifiez les valeurs dans l'environnement Ranger KMS.

ranger -kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Modifiez les valeurs du fichier CA sur S3 pour la connexion SSL MySQL avec Ranger KMS.

recordserver-env

Modifiez les valeurs dans l'environnement RecordServer EMR.

recordserver-conf

Modifiez les valeurs dans le fichier erver.properties de l’environnement RecordServer EMR

recordserver-log4j

Modifiez les valeurs dans le fichier log4j.properties de l’environnement RecordServer EMR.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Spark

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

5.26.0

Versions de l’application 5.26.0

Les applications suivantes sont prises en charge dans cette version : Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin et ZooKeeper.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions d'Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Notes de mise à jour 5.26.0

Les notes de mises à jour suivantes incluent des informations sur la version 5.26.0 d'Amazon EMR. Les modifications ont été apportées à la version 5.25.0.

Date de parution initiale : 8 août 2019

Date de la dernière mise à jour : 19 août 2019

Mises à niveau

  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • Connecteurs et pilotes :

    • DynamoDB Connector 4.11.0

    • MariaDB Connector 2.4.2

    • Pilote JDBC Amazon Redshift 1.2.32.1056

Nouvelles fonctions

  • (Version bêta) À partir d’Amazon EMR 5.26.0, vous pouvez lancer un cluster qui s'intègre à Lake Formation. Cette intégration fournit un accès détaillé au niveau des colonnes aux bases de données et aux tables du catalogue de données AWS Glue. Elle permet également l'authentification unique fédérée aux blocs-notes EMR ou Apache Zeppelin à partir d'un système d'identité d'entreprise. Pour plus d'informations consultez Intégration d’Amazon EMR à AWS Lake Formation (version bêta).

  • (19 août 2019) Le blocage d'accès public Amazon EMR est désormais disponible avec toutes les versions d’Amazon EMR prenant en charge les groupes de sécurité. Le blocage d'accès public est un paramètre à l’échelle du compte appliqué à chaque région AWS. Le blocage d'accès public empêche le lancement d’un cluster lorsqu’un groupe de sécurité associé au cluster contient une règle qui autorise le trafic entrant à partir d’une adresse IPv4 0.0.0.0/0 ou IPv6 ::/0 (accès public) sur un port, sauf dans le cas d’un port spécifié en tant qu’exception. Le port 22 est une exception par défaut. Pour plus d'informations, consultez Utilisation du blocage d'accès public Amazon EMR dans le Amazon EMR Guide de gestion.

Modifications, améliorations et problèmes résolus

  • Blocs-notes EMR

    • Avec EMR 5.26.0 et versions ultérieures, Blocs-notes EMR prend en charge les bibliothèques Python d’étendue de bloc-notes en plus des bibliothèques Python par défaut. Vous pouvez installer des bibliothèques d’étendue de bloc-notes à partir de l’éditeur de bloc-notes sans avoir à recréer un cluster ou à attacher de nouveau un bloc-notes à un cluster. Les bibliothèques d’étendue de bloc-notes sont créées dans un environnement virtuel Python ; elles s’appliquent donc uniquement à la session de bloc-notes en cours. Cela vous permet d’isoler les dépendances de bloc-notes. Pour plus d’informations, consultez les informations relatives à l’utilisation des bibliothèques d’étendue de bloc-notes dans le Amazon EMR Guide de gestion.

  • EMRFS

    • Vous pouvez activer la fonction de vérification d’ETag (version bêta) en définissant fs.s3.consistent.metadata.etag.verification.enabled sur true. Lorsqu'elle est activée, EMRFS utilise Amazon S3 ETags pour vérifier que les objets en cours de lecture correspondent à la dernière version disponible. Cette fonction est utile pour les cas d'utilisation de lecture après mise à jour dans lesquels des fichiers sur Amazon S3 sont remplacés tout en conservant le même nom. Cette fonction de vérification ETag ne fonctionne actuellement pas avec S3 Select. Pour plus d'informations, consultez Configuration de la vue cohérente.

  • Spark

    • Les optimisations suivantes sont désormais disponibles par défaut : nettoyage de partition dynamique, DISTINCT avant INTERSECT, améliorations de l’inférence dans les statistiques de plan SQL pour JOIN suivi de requêtes DISTINCT, aplatissement des sous-requêtes scalaires, réorganisation optimisée des jonctions et jonction de filtre bloom. Pour de plus amples informations, veuillez consulter Optimisation des performances Spark.

    • Amélioration de la génération de code à l'échelle globale pour la jonction par fusion.

    • Amélioration de la réutilisation des fragments de requête et des sous-requêtes.

    • Amélioration des programmes d’exécution de pré-allocation au démarrage de Spark.

    • Les jonctions de filtre Bloom ne sont plus appliquées lorsque le plus petit côté de la jonction inclut un indicateur de diffusion.

  • Tez

    • Résolution d'un problème lié à Tez. L’interface utilisateur Tez fonctionne désormais sur un Cluster EMR doté de plusieurs nœuds principaux.

Problèmes connus

  • Les capacités améliorées de génération de code à l'échelle globale pour la jonction par fusion peuvent augmenter la pression mémoire lorsqu'elles sont activées. Cette optimisation améliore les performances, mais peut entraîner des répétitions ou des échecs de tâche si spark.yarn.executor.memoryOverheadFactor n’est pas réglé pour fournir suffisamment de mémoire. Pour désactiver cette fonction, définissez spark.sql.sortMergeJoinExec.extendedCodegen.enabled sur false.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Note

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versions des composants 5.26.0

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants dans Amazon EMR diffèrent des versions de la communauté. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. EmrVersion commence à 0. Par exemple, si un composant de la communauté open source nommé myapp-component avec la version 2.2 a été modifié trois fois en vue de son inclusion dans différentes versions d'Amazon EMR, sa version apparaît sous le nom 2.2-amzn-2.

Composant Version Description
aws-sagemaker-spark-sdk 1.2.4 SDK Amazon SageMaker Spark
emr-ddb 4.11.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.10.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.4.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.12.0 Application de copie distribuée optimisée pour Amazon S3.
emr-s3-select 1.3.0 Connecteur S3Select EMR
emrfs 2.35.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
flink-client 1.8.0 Applications et scripts client de la ligne de commande Apache Flink.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.8.5-amzn-4 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.8.5-amzn-4 HDFS node-level service for storing blocks.
hadoop-hdfs-library 2.8.5-amzn-4 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.8.5-amzn-4 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-hdfs-journalnode 2.8.5-amzn-4 Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA.
hadoop-httpfs-server 2.8.5-amzn-4 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.8.5-amzn-4 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-4 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-4 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.8.5-amzn-4 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.8.5-amzn-4 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.4.10 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.4.10 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.4.10 Client de ligne de commande HBase.
hbase-rest-server 1.4.10 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.4.10 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 2.3.5-amzn-0 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 2.3.5-amzn-0 Service fournissant HCatalog, une table et couche de gestion de stockage pour des applications distribuées.
hcatalog-webhcat-server 2.3.5-amzn-0 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 2.3.5-amzn-0 Client de ligne de commande Hive.
hive-hbase 2.3.5-amzn-0 Client Hive-hbase.
hive-metastore-server 2.3.5-amzn-0 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server2 2.3.5-amzn-0 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 4.4.0 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
jupyterhub 0.9.6 Serveur multi-utilisateurs pour blocs-notes Jupyter
livy-server 0.6.0-incubating Interface REST pour interagir avec Apache Spark
nginx 1.12.1 nginx [engine x] est un serveur HTTP et à proxy inverse
mahout-client 0.13.0 Bibliothèque pour la technologie Machine Learning.
mxnet 1.4.0 Bibliothèque flexible, évolutive et efficace pour l'apprentissage profond.
mysql-server 5.5.54+ Serveur de base de données MySQL.
nvidia-cuda 9.2.88 Pilotes Nvidia et boîte à outils Cuda
oozie-client 5.1.0 Client de ligne de commande Oozie.
oozie-server 5.1.0 Service pour l'acceptation des demandes de flux de travail Oozie.
opencv 3.4.0 Bibliothèque open source Vision par ordinateur
phoenix-library 4.14.2-HBase-1.4 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.14.2-HBase-1.4 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.220 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.220 Service pour exécuter les éléments d'une requête.
pig-client 0.17.0 Client de ligne de commande Pig.
r 3.4.1 Projet R pour les calculs statistiques
spark-client 2.4.3 Clients de ligne de commande Spark.
spark-history-server 2.4.3 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 2.4.3 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 2.4.3 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.7 Client de ligne de commande Apache Sqoop.
tensorflow 1.13.1 Bibliothèque logicielle open source tensorflow pour le calcul numérique à performance élevée.
tez-on-yarn 0.9.2 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.8.1 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.14 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.14 Client de ligne de commande ZooKeeper.

5.26.0 Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.

Classifications emr-5.26.0
Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

container-log4j

Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

flink-conf

Modifiez les paramètres flink-conf.yaml.

flink-log4j

Modifiez les paramètres log4j.properties Flink.

flink-log4j-yarn-session

Modifiez les paramètres de Flink log4j-fil-session.properties.

flink-log4j-cli

Modifiez les paramètres de propriétés Flink log4j-cli.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase

Paramètres organisés par Amazon EMR pour Apache HBase.

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j2

Modifiez les valeurs dans log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-beeline-log4j2

Modifiez les valeurs dans le fichier beeline-log4j2.properties de Hive.

hive-parquet-logging

Modifiez les valeurs dans le fichier parquet-logging.properties de Hive.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j2

Modifiez les valeurs dans le fichier hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Modifiez les valeurs dans le fichier llap-daemon-log4j2.properties de Hive.

hive-log4j2

Modifiez les valeurs dans le fichier hive-log4j2.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

jupyter-notebook-conf

Modifiez les valeurs dans le fichier jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Modifiez les valeurs dans le fichier jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configuration de la persistance S3 de bloc-notes Jupyter.

jupyter-sparkmagic-conf

Modifiez les valeurs dans le fichier config.json de Sparkmagic.

livy-conf

Modifiez les valeurs dans le fichier livy.conf de Livy.

livy-env

Modifiez les valeurs dans l'environnement Livy.

livy-log4j

Modifiez les paramètres Livy log4j.properties.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Modifiez les valeurs dans l'environnement Pig.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-password-authenticator

Modifiez les valeurs dans le fichier password-authenticator.properties de Presto.

presto-env

Modifiez les valeurs dans le fichier presto-env.sh de Presto.

presto-node

Modifiez les valeurs dans le fichier node.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-memory

Modifiez les valeurs dans le fichier memory.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-redshift

Modifiez les valeurs dans le fichier redshift.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

presto-connector-tpcds

Modifiez les valeurs dans le fichier tpcds.properties de Presto.

recordserver-env

Modifiez les valeurs dans l'environnement RecordServer EMR.

recordserver-conf

Modifiez les valeurs dans le fichier erver.properties de l’environnement RecordServer EMR

recordserver-log4j

Modifiez les valeurs dans le fichier log4j.properties de l’environnement RecordServer EMR.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Spark

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

5.25.0

Versions de l’application 5.25.0

Les applications suivantes sont prises en charge dans cette version : Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin et ZooKeeper.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions d'Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Notes de mise à jour 5.25.0

Les notes de mises à jour suivantes incluent des informations sur la version 5.25.0 d'Amazon EMR. Les modifications ont été apportées à la version 5.24.1.

Date de parution initiale : 17 juillet 2019

Date de la dernière mise à jour : 30 octobre 2019

Amazon EMR 5.25.0

Mises à niveau

  • AWS SDK for Java 1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • Zookeeper 3.4.14

Nouvelles fonctions

  • (30 octobre 2019) À partir d’Amazon EMR version 5.25.0, vous pouvez vous connecter à l'interface utilisateur du serveur d'historique Spark à partir de la page Summary (Récapitulatif) du cluster ou de l’onglet Application history (Historique de l’application) de la console. Au lieu de configurer un proxy Web via une connexion SSH, vous pouvez accéder rapidement à l'interface utilisateur du serveur d'historique Spark pour accéder aux métriques de l’application et aux fichiers journaux correspondants pour les clusters actifs et résiliés. Pour de plus amples informations, veuillez consulter Accès hors cluster aux interfaces utilisateur d'application persistante dans le Amazon EMR Guide de gestion.

Modifications, améliorations et problèmes résolus

  • Spark

    • Amélioration de la performance de certaines jointures en utilisant des filtres Bloom pour préfiltrer les entrées. L'optimisation est désactivée par défaut et peut être activée en définissant le paramètre de configuration de Spark spark.sql.bloomFilterJoin.enabled sur true.

    • Amélioration de la performance de regroupement par colonnes de type chaîne.

    • Amélioration de la mémoire par défaut du programme d'exécution de Spark et de la configuration des cœurs des types d'instance R4 pour les clusters sans installer HBase.

    • Résolution d'un problème précédent lié à la fonction de nettoyage dynamique de partition où la table nettoyée devait se trouver du côté gauche de la jointure.

    • Amélioration de l'optimisation de DISTINCT avant INTERSECT à appliquer à d'autres cas impliquant des alias.

    • Amélioration de l'inférence des statistiques de plan SQL pour JOIN suivi par des requêtes DISTINCT. Cette option est désactivée par défaut et peut être activée en définissant le paramètre de configuration de Spark spark.sql.statsImprovements.enabled sur true. Cette optimisation est requise par la fonction Distinct avant Intersect. Elle est activée automatiquement quand spark.sql.optimizer.distinctBeforeIntersect.enabled est défini sur true.

    • Optimisation de l'ordre des jointures en fonction de la taille de la table et des filtres. Cette optimisation est désactivée par défaut et peut être activée en définissant le paramètre de configuration de Spark spark.sql.optimizer.sizeBasedJoinReorder.enabled sur true.

    Pour de plus amples informations, veuillez consulter Optimisation des performances Spark.

  • EMRFS

    • Le paramètre EMRFS, fs.s3.buckets.create.enabled, est maintenant désactivé par défaut. Des tests nous ont permis de constater que désactiver ce paramètre améliore la performance et empêche la création involontaire de compartiments S3. Si votre application s'appuie sur cette fonctionnalité, vous pouvez l'activer en définissant la propriété fs.s3.buckets.create.enabled sur true dans la classification de configuration emrfs-site. Pour de plus amples informations, veuillez consulter Fourniture d'une configuration lors de la création d'un cluster.

  • Améliorations du chiffrement de disque local et du chiffrement S3 dans les configurations de sécurité (5 août 2019)

    • Paramètres de chiffrement Amazon S3 séparés des paramètres de chiffrement de disque local dans la définition d’une configuration de sécurité.

    • Ajout d’une option pour l’activation du chiffrement EBS avec les versions 5.24.0 et ultérieures. La sélection de cette option chiffre le volume de périphérique racine en plus des volumes de stockage. Les versions précédentes nécessitaient l’utilisation d’une AMI personnalisée pour chiffrer le volume de périphérique racine.

    • Pour plus d'informations, consultez Options de chiffrement dans le Amazon EMR Guide de gestion.

Problèmes connus

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    Note

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versions des composants 5.25.0

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants dans Amazon EMR diffèrent des versions de la communauté. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. EmrVersion commence à 0. Par exemple, si un composant de la communauté open source nommé myapp-component avec la version 2.2 a été modifié trois fois en vue de son inclusion dans différentes versions d'Amazon EMR, sa version apparaît sous le nom 2.2-amzn-2.

Composant Version Description
aws-sagemaker-spark-sdk 1.2.4 SDK Amazon SageMaker Spark
emr-ddb 4.10.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.9.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.4.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.11.0 Application de copie distribuée optimisée pour Amazon S3.
emr-s3-select 1.3.0 Connecteur S3Select EMR
emrfs 2.34.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
flink-client 1.8.0 Applications et scripts client de la ligne de commande Apache Flink.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.8.5-amzn-4 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.8.5-amzn-4 HDFS node-level service for storing blocks.
hadoop-hdfs-library 2.8.5-amzn-4 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.8.5-amzn-4 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-hdfs-journalnode 2.8.5-amzn-4 Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA.
hadoop-httpfs-server 2.8.5-amzn-4 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.8.5-amzn-4 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-4 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-4 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.8.5-amzn-4 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.8.5-amzn-4 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.4.9 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.4.9 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.4.9 Client de ligne de commande HBase.
hbase-rest-server 1.4.9 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.4.9 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 2.3.5-amzn-0 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 2.3.5-amzn-0 Service fournissant HCatalog, une table et couche de gestion de stockage pour des applications distribuées.
hcatalog-webhcat-server 2.3.5-amzn-0 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 2.3.5-amzn-0 Client de ligne de commande Hive.
hive-hbase 2.3.5-amzn-0 Client Hive-hbase.
hive-metastore-server 2.3.5-amzn-0 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server2 2.3.5-amzn-0 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 4.4.0 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
jupyterhub 0.9.6 Serveur multi-utilisateurs pour blocs-notes Jupyter
livy-server 0.6.0-incubating Interface REST pour interagir avec Apache Spark
nginx 1.12.1 nginx [engine x] est un serveur HTTP et à proxy inverse
mahout-client 0.13.0 Bibliothèque pour la technologie Machine Learning.
mxnet 1.4.0 Bibliothèque flexible, évolutive et efficace pour l'apprentissage profond.
mysql-server 5.5.54+ Serveur de base de données MySQL.
nvidia-cuda 9.2.88 Pilotes Nvidia et boîte à outils Cuda
oozie-client 5.1.0 Client de ligne de commande Oozie.
oozie-server 5.1.0 Service pour l'acceptation des demandes de flux de travail Oozie.
opencv 3.4.0 Bibliothèque open source Vision par ordinateur
phoenix-library 4.14.1-HBase-1.4 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.14.1-HBase-1.4 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.220 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.220 Service pour exécuter les éléments d'une requête.
pig-client 0.17.0 Client de ligne de commande Pig.
r 3.4.1 Projet R pour les calculs statistiques
spark-client 2.4.3 Clients de ligne de commande Spark.
spark-history-server 2.4.3 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 2.4.3 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 2.4.3 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.7 Client de ligne de commande Apache Sqoop.
tensorflow 1.13.1 Bibliothèque logicielle open source tensorflow pour le calcul numérique à performance élevée.
tez-on-yarn 0.9.2 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.8.1 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.14 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.14 Client de ligne de commande ZooKeeper.

5.25.0 Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.

Classifications emr-5.25.0
Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

container-log4j

Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.