Amazon EMR
Amazon EMR Guide de version

Détails des versions Amazon EMR 4.x

Chaque onglet ci-dessous répertorie les versions des applications, les notes de mise à jour, les versions des composants et les classifications de configuration disponibles dans chaque version 4.x d'Amazon EMR.

Pour obtenir un diagramme complet des versions des applications de chaque version, consultez Versions des applications pour la série de versions 4.x d'Amazon EMR (PNG).

Pour consulter les différences spécifiques aux applications entre les versions Amazon EMR 4.x et les versions Amazon EMR à partir de 5.0.0, reportez-vous à la section Différences entre les versions Amazon EMR 4.x.

4.9.x4.8.x 4.7.x4.6.04.5.04.4.04.3.04.2.04.1.04.0.0
4.9.x

La série 4.9 comporte plusieurs versions. Choisissez un lien ci-dessous pour afficher les informations relatives à une version spécifique dans cet onglet.

4.9.4 | 4.9.3 | 4.9.2 | 4.9.1

Amazon EMR version 4.9.4

Version 4.9.4 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Phoenix, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Tez, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.9.4 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version 4.9.4 d'Amazon EMR. Les modifications se rapportent à la version 4.9.3.

Date de parution initiale : 29 mars 2018

Modifications, améliorations et problèmes résolus

  • Updated the Amazon Linux kernel of the default Amazon Linux AMI for Amazon EMR to address potential vulnerabilities.

Version 4.9.4 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 4.3.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.2.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.3.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.4.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.17.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.3-amzn-2 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.3-amzn-2 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.3-amzn-2 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.3-amzn-2 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.3-amzn-2 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.3-amzn-2 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.3-amzn-2 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.3-amzn-2 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.3-amzn-2 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.7.3-amzn-2 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.2.2 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.2 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.2 Client de ligne de commande HBase.
hbase-rest-server 1.2.2 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.2 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-9 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-9 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-9 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-9 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-9 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-9 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-7 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.12.2 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5.54+ Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
phoenix-library 4.7.0-HBase-1.2 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.7.0-HBase-1.2 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.157.1 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.157.1 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.3 Clients de ligne de commande Spark.
spark-history-server 1.6.3 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.3 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.3 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
tez-on-yarn 0.8.4 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.6.1 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.9 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.9 Client de ligne de commande ZooKeeper.

Version 4.9.4 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.9.4

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

Amazon EMR version 4.9.3

Version 4.9.3 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Phoenix, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Tez, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.9.3 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.9.3. Il s'agit des modifications apportées à la version Amazon EMR 4.9.2.

Date de parution initiale : 22 janvier 2018

Modifications, améliorations et problèmes résolus

Version 4.9.3 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 4.3.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.2.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.3.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.4.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.17.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.3-amzn-2 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.3-amzn-2 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.3-amzn-2 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.3-amzn-2 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.3-amzn-2 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.3-amzn-2 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.3-amzn-2 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.3-amzn-2 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.3-amzn-2 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.7.3-amzn-2 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.2.2 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.2 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.2 Client de ligne de commande HBase.
hbase-rest-server 1.2.2 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.2 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-9 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-9 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-9 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-9 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-9 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-9 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-7 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.12.2 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5.54+ Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
phoenix-library 4.7.0-HBase-1.2 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.7.0-HBase-1.2 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.157.1 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.157.1 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.3 Clients de ligne de commande Spark.
spark-history-server 1.6.3 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.3 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.3 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
tez-on-yarn 0.8.4 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.6.1 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.9 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.9 Client de ligne de commande ZooKeeper.

Version 4.9.3 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.9.3

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

Version 4.9.2

Version 4.9.2 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Phoenix, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Tez, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.9.2 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.9.2. Il s'agit des modifications apportées à la version Amazon EMR 4.9.1.

Date de parution : 13 juillet 2017

Des modifications mineures, des correctifs de bogues et des améliorations ont été apportées à cette version.

Version 4.9.2 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 4.3.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.2.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.3.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.4.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.17.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.3-amzn-2 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.3-amzn-2 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.3-amzn-2 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.3-amzn-2 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.3-amzn-2 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.3-amzn-2 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.3-amzn-2 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.3-amzn-2 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.3-amzn-2 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.7.3-amzn-2 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.2.2 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.2 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.2 Client de ligne de commande HBase.
hbase-rest-server 1.2.2 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.2 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-9 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-9 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-9 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-9 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-9 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-9 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-7 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.12.2 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5.54+ Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
phoenix-library 4.7.0-HBase-1.2 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.7.0-HBase-1.2 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.157.1 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.157.1 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.3 Clients de ligne de commande Spark.
spark-history-server 1.6.3 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.3 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.3 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
tez-on-yarn 0.8.4 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.6.1 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.9 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.9 Client de ligne de commande ZooKeeper.

Version 4.9.2 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.9.2

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

Version 4.9.1

Version 4.9.1 - Versions des applications

Les applications suivantes sont prises en charge dans cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Phoenix, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Tez, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.9.1 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.9.1. Il s'agit des modifications apportées à la version Amazon EMR 4.8.4.

Date de parution : 10 avril 2017

Problèmes connus résolus depuis les versions précédentes

  • Rétroportages de HIVE-9976 et HIVE-10106

  • Résolution d'un problème dans YARN où un nombre important de nœuds (plus de 2 000) et de conteneurs (plus de 5 000) provoquait une erreur de mémoire insuffisante, par exemple : "Exception in thread main java.lang.OutOfMemoryError".

Modifications et améliorations

Version 4.9.1 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 4.2.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.2.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.3.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.4.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.15.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.3-amzn-2 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.3-amzn-2 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.3-amzn-2 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.3-amzn-2 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.3-amzn-2 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.3-amzn-2 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.3-amzn-2 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.3-amzn-2 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.3-amzn-2 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.7.3-amzn-2 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.2.2 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.2 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.2 Client de ligne de commande HBase.
hbase-rest-server 1.2.2 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.2 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-9 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-9 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-9 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-9 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-9 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-9 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-7 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.12.2 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5.54+ Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
phoenix-library 4.7.0-HBase-1.2 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.7.0-HBase-1.2 Un serveur léger fournissant un accès JDBC ainsi qu'un accès à l'API Avatica au format JSON et de tampons de protocole
presto-coordinator 0.157.1 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.157.1 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.3 Clients de ligne de commande Spark.
spark-history-server 1.6.3 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.3 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.3 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
tez-on-yarn 0.8.4 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.6.1 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.9 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.9 Client de ligne de commande ZooKeeper.

Version 4.9.1 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.8.5

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

4.8.x

La série 4.8 comporte plusieurs versions. Choisissez un lien ci-dessous pour afficher les informations relatives à une version spécifique dans cet onglet.

4.8.4 | 4.8.3 | 4.8.2 | 4.8.0

Amazon EMR version 4.8.4

Version 4.8.4 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Phoenix, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Tez, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.8.4 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.8.4. Il s'agit des modifications apportées à la version Amazon EMR 4.8.3.

Date de version : 7 février 2017

Des modifications mineures, des correctifs de bogues et des améliorations ont été apportées à cette version.

Version 4.8.4 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 4.2.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.2.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.2.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.4.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.14.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.3-amzn-1 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.3-amzn-1 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.3-amzn-1 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.3-amzn-1 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.3-amzn-1 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.3-amzn-1 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.3-amzn-1 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.3-amzn-1 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.3-amzn-1 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.7.3-amzn-1 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.2.2 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.2 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.2 Client de ligne de commande HBase.
hbase-rest-server 1.2.2 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.2 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-8 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-8 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-8 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-8 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-8 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-8 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-7 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.12.2 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5.54+ Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
phoenix-library 4.7.0-HBase-1.2 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.7.0-HBase-1.2 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.157.1 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.157.1 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.3 Clients de ligne de commande Spark.
spark-history-server 1.6.3 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.3 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.3 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
tez-on-yarn 0.8.4 Les bibliothèques et l'application tez YARN.
webserver 2.4.25+ Serveur HTTP Apache.
zeppelin-server 0.6.1 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.9 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.9 Client de ligne de commande ZooKeeper.

Version 4.8.4 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.8.4

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

Amazon EMR version 4.8.3

Version 4.8.3 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Phoenix, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Tez, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.8.3 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.8.3. Il s'agit des modifications apportées à la version Amazon EMR 4.8.2.

Date de parution : 29 décembre 2016

Mises à niveau

Modifications et améliorations

  • Ajout de la prise en charge du type d'instance m4.16xlarge Amazon EC2 dans Amazon EMR version 4.8.3 et versions ultérieures, sauf les versions 5.0.0, 5.0.3 et 5.2.0.

  • Les versions d'Amazon EMR sont maintenant basées sur Amazon Linux 2016.09. Pour plus d'informations, consultez https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Problèmes connus résolus depuis les versions précédentes

  • Résolution d'un problème dans Hadoop où le thread ReplicationMonitor pouvait rester bloqué longtemps en raison d'une concurrence entre la réplication et la suppression du même fichier dans un cluster volumineux.

  • Résolution d'un problème où ControlledJob #toString échouait avec une exception de pointeur null (NPE) lorsque le statut de la tâche n’était pas mis à jour avec succès.

Version 4.8.3 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 4.2.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.2.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.2.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.4.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.13.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.3-amzn-1 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.3-amzn-1 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.3-amzn-1 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.3-amzn-1 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.3-amzn-1 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.3-amzn-1 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.3-amzn-1 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.3-amzn-1 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.3-amzn-1 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.7.3-amzn-1 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.2.2 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.2 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.2 Client de ligne de commande HBase.
hbase-rest-server 1.2.2 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.2 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-8 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-8 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-8 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-8 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-8 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-8 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-7 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.12.2 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5.52 Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
phoenix-library 4.7.0-HBase-1.2 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.7.0-HBase-1.2 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.157.1 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.157.1 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.3 Clients de ligne de commande Spark.
spark-history-server 1.6.3 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.3 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.3 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
tez-on-yarn 0.8.4 Les bibliothèques et l'application tez YARN.
webserver 2.4.23 Serveur HTTP Apache.
zeppelin-server 0.6.1 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.9 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.9 Client de ligne de commande ZooKeeper.

Version 4.8.3 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.8.3

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

Amazon EMR version 4.8.2

Version 4.8.2 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Phoenix, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Tez, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.8.2 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.8.2. Il s'agit des modifications apportées à la version Amazon EMR 4.8.0.

Date de parution : 24 octobre 2016

Mises à niveau

  • Mise à niveau vers Hadoop 2.7.3

  • Mise à niveau vers Presto 0.152.3, qui comprend la prise en charge de l'interface Web Presto. Utilisez le port 8889 du coordinateur Presto pour accéder à l'interface Web Presto. Pour plus d'informations sur l'interface Web Presto, consultez Interface Web dans la documentation Presto.

  • Les versions d'Amazon EMR sont maintenant basées sur Amazon Linux 2016.09. Pour plus d'informations, consultez https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Version 4.8.2 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 4.1.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.1.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.2.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.4.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.10.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.3-amzn-0 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.3-amzn-0 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.3-amzn-0 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.3-amzn-0 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.3-amzn-0 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.3-amzn-0 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.3-amzn-0 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.3-amzn-0 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.3-amzn-0 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.7.3-amzn-0 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.2.2 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.2 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.2 Client de ligne de commande HBase.
hbase-rest-server 1.2.2 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.2 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-7 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-7 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-7 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-7 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-7 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-7 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-7 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.12.2 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5.52 Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
phoenix-library 4.7.0-HBase-1.2 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.7.0-HBase-1.2 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.152.3 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.152.3 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.2 Clients de ligne de commande Spark.
spark-history-server 1.6.2 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.2 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.2 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
tez-on-yarn 0.8.4 Les bibliothèques et l'application tez YARN.
webserver 2.4.23 Serveur HTTP Apache.
zeppelin-server 0.6.1 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.8 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.8 Client de ligne de commande ZooKeeper.

Version 4.8.2 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.8.2

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

Amazon EMR version 4.8.0

Version 4.8.0 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Phoenix, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Tez, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.8.0 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.8.0. Il s'agit des modifications apportées à la version Amazon EMR 4.7.2.

Date de parution : 7 septembre 2016

Mises à niveau

  • Mise à niveau vers HBase 1.2.2

  • Mise à niveau vers Presto-Sandbox 0.151

  • Mise à niveau vers Tez 0.8.4

  • Mise à niveau vers Zeppelin-Sandbox 0.6.1

Modifications et améliorations

  • Correction d'un problème dans YARN où ApplicationMaster essayait de nettoyer des conteneurs qui n'existaient plus, car leurs instances avaient été supprimées.

  • Correction de l'URL hive-server2 pour les actions Hive2 dans les exemples Oozie.

  • Ajout de la prise en charge d'autres catalogues Presto.

  • Correctifs rétroportés : HIVE-8948, HIVE-12679, HIVE-13405, PHOENIX-3116, HADOOP-12689

  • Ajout de la prise en charge des configurations de sécurité, qui vous permettent de créer et d'appliquer des options de chiffrement plus facilement. Pour en savoir plus, consultez Chiffrement des données.

Version 4.8.0 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 3.2.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.1.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.2.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.4.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.9.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.2-amzn-4 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.2-amzn-4 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.2-amzn-4 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.2-amzn-4 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.2-amzn-4 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.2-amzn-4 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.2-amzn-4 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.2-amzn-4 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.2-amzn-4 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.7.2-amzn-4 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.2.2 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.2 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.2 Client de ligne de commande HBase.
hbase-rest-server 1.2.2 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.2 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-7 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-7 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-7 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-7 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-7 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-7 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-7 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.12.2 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5.51 Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
phoenix-library 4.7.0-HBase-1.2 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.7.0-HBase-1.2 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.151 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.151 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.2 Clients de ligne de commande Spark.
spark-history-server 1.6.2 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.2 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.2 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
tez-on-yarn 0.8.4 Les bibliothèques et l'application tez YARN.
webserver 2.4.23 Serveur HTTP Apache.
zeppelin-server 0.6.1 Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.8 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.8 Client de ligne de commande ZooKeeper.

Version 4.8.0 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.8.0

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hiveserver2-site

Modifiez les valeurs dans le fichier hiveserver2-site.xml de Hive Server2

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-blackhole

Modifiez les valeurs dans le fichier blackhole.properties de Presto.

presto-connector-cassandra

Modifiez les valeurs dans le fichier cassandra.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

presto-connector-jmx

Modifiez les valeurs dans le fichier jmx.properties de Presto.

presto-connector-kafka

Modifiez les valeurs dans le fichier kafka.properties de Presto.

presto-connector-localfile

Modifiez les valeurs dans le fichier localfile.properties de Presto.

presto-connector-mongodb

Modifiez les valeurs dans le fichier mongodb.properties de Presto.

presto-connector-mysql

Modifiez les valeurs dans le fichier mysql.properties de Presto.

presto-connector-postgresql

Modifiez les valeurs dans le fichier postgresql.properties de Presto.

presto-connector-raptor

Modifiez les valeurs dans le fichier raptor.properties de Presto.

presto-connector-redis

Modifiez les valeurs dans le fichier redis.properties de Presto.

presto-connector-tpch

Modifiez les valeurs dans le fichier tpch.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

4.7.x

La série 4.7 comporte plusieurs versions. Choisissez un lien ci-dessous pour afficher les informations relatives à une version spécifique dans cet onglet.

4.7.2 | 4.7.1 | 4.7.1

Amazon EMR version 4.7.2

Version 4.7.2 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Phoenix, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Tez, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.7.2 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.7.2.

Date de parution : 15 juillet 2016

Fonctions

  • Mise à niveau vers Mahout 0.12.2

  • Mise à niveau vers Presto 0.148

  • Mise à niveau vers Spark 1.6.2

  • Vous pouvez désormais créer une classe AWSCredentialsProvider à utiliser avec EMRFS à l'aide d'un URI comme paramètre. Pour en savoir plus, consultez Création d'une classe AWSCredentialsProvider pour EMRFS.

  • EMRFS permet maintenant aux utilisateurs de configurer un point de terminaison DynamoDB personnalisé pour les métadonnées de leur vue cohérente à l'aide de la propriété fs.s3.consistent.dynamodb.endpoint dans le fichier emrfs-site.xml.

  • Ajout d'un script dans /usr/bin appelé spark-example, qui encapsule /usr/lib/spark/spark/bin/run-example pour vous permettre d'exécuter des exemples directement. Par exemple, pour exécuter l'exemple SparkPi fourni avec la distribution Spark, vous pouvez exécuter spark-example SparkPi 100 à partir de la ligne de commande ou à l'aide de command-runner.jar comme étape de l'API.

Problèmes connus résolus depuis les versions précédentes

  • Résolution d'un problème où spark-assembly.jar pour Oozie n'était pas à l'emplacement approprié quand Spark était également installé, ce qui provoquait un échec du lancement d'applications Spark avec Oozie.

  • Résolution d'un problème lié à la journalisation basée sur Spark Log4j dans des conteneurs YARN.

Version 4.7.2 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 3.2.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.1.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.2.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.4.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.8.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.2-amzn-3 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.2-amzn-3 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.2-amzn-3 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.2-amzn-3 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.2-amzn-3 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.2-amzn-3 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.2-amzn-3 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.2-amzn-3 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.2-amzn-3 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.7.2-amzn-3 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.2.1 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.1 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.1 Client de ligne de commande HBase.
hbase-rest-server 1.2.1 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.1 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-6 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-6 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-6 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-6 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-6 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-6 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-7 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.12.2 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5.46 Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
phoenix-library 4.7.0-HBase-1.2 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.7.0-HBase-1.2 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.148 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.148 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.2 Clients de ligne de commande Spark.
spark-history-server 1.6.2 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.2 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.2 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
tez-on-yarn 0.8.3 Les bibliothèques et l'application tez YARN.
webserver 2.4.23 Serveur HTTP Apache.
zeppelin-server 0.5.6-incubating Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.8 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.8 Client de ligne de commande ZooKeeper.

Version 4.7.2 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.7.2

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

Amazon EMR version 4.7.1

Version 4.7.1 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Phoenix, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Tez, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.7.1 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.7.1.

Date de parution : 10 juin 2016

Problèmes connus résolus depuis les versions précédentes

  • Résolution d'un problème qui augmentait la durée de démarrage des clusters lancés dans un VPC avec des sous-réseaux privés. Ce bogue affectait uniquement les clusters lancés avec la version 4.7.0 d'Amazon EMR.

  • Résolution d'un problème où des listes de fichiers dans Amazon EMR n'aient pas traitées correctement pour les clusters lancés avec la version 4.7.0 d'Amazon EMR.

Version 4.7.1 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 3.1.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.0.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.2.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.4.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.7.1 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.2-amzn-2 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.2-amzn-2 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.2-amzn-2 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.2-amzn-2 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.2-amzn-2 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.2-amzn-2 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.2-amzn-2 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.2-amzn-2 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.2-amzn-2 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.7.2-amzn-2 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.2.1 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.1 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.1 Client de ligne de commande HBase.
hbase-rest-server 1.2.1 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.1 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-5 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-5 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-5 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-5 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-5 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-5 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-7 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.12.0 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5.46 Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
phoenix-library 4.7.0-HBase-1.2 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.7.0-HBase-1.2 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.147 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.147 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.1 Clients de ligne de commande Spark.
spark-history-server 1.6.1 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.1 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.1 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
tez-on-yarn 0.8.3 Les bibliothèques et l'application tez YARN.
webserver 2.4.18 Serveur HTTP Apache.
zeppelin-server 0.5.6-incubating Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.8 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.8 Client de ligne de commande ZooKeeper.

Version 4.7.1 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.7.1

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

Amazon EMR version 4.7.0

Version 4.7.0 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Phoenix, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Tez, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.7.0 - Notes de mise à jour

Important

La version Amazon EMR 4.7.0 est obsolète. Veuillez plutôt utiliser Amazon EMR 4.7.1 ou une version ultérieure.

Date de parution : 2 juin 2016

Fonctions

  • Ajout d'Apache Phoenix 4.7.0

  • Ajout d'Apache Tez 0.8.3

  • Mise à niveau vers HBase 1.2.1

  • Mise à niveau vers Mahout 0.12.0

  • Mise à niveau vers Presto 0.147

  • Mise à niveau de AWS SDK for Java vers 1.10.75

  • L'indicateur final a été supprimé de la propriété mapreduce.cluster.local.dir dans mapred-site.xml pour permettre aux utilisateurs d'exécuter Pig en mode local.

  • Pilotes Amazon Redshift JDBC disponibles sur un cluster

    Les pilotes JDBC Amazon Redshift sont maintenant inclus dans /usr/share/aws/redshift/jdbc. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar est le pilote Amazon Redshift compatible avec JDBC 4.1 et /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar est le pilote Amazon Redshift compatible avec JDBC 4.0. Pour plus d'informations, consultez Configurer une connexion JDBC dans le Amazon Redshift Cluster Management Guide.

  • Java 8

    Sauf pour Presto, OpenJDK 1.7 est le JDK par défaut utilisé pour toutes les applications. Cependant, OpenJDK 1.7 et 1.8 sont installés. Pour en savoir plus sur la configuration de JAVA_HOME pour les applications, consultez Configuration d'applications pour utiliser Java 8.

Problèmes connus résolus depuis les versions précédentes

  • Résolution d'un problème de noyau qui affectait de manière significative les performances sur les volumes HDD à débit optimisé (ST1) EBS pour Amazon EMR dans emr-4.6.0.

  • Résolution d'un problème où un cluster échouait si une zone de chiffrement HDFS était spécifiée sans que Hadoop ait été choisi comme application.

  • Remplacement de la stratégie d'écriture HDFS par défaut RoundRobin par AvailableSpaceVolumeChoosingPolicy. Certains volumes n'étaient pas correctement utilisés avec la configuration RoundRobin, ce qui se traduisait par un échec de nœuds principaux et un HDFS peu fiable.

  • Résolution d'un problème lié à l'interface de ligne de commande EMRFS, qui entraînait une exception lors de la création de la table de métadonnées DynamoDB par défaut pour des vues cohérentes.

  • Résolution d'un problème de blocage dans EMRFS qui pouvait potentiellement se produire lors d'opérations de changement de nom et de copie en plusieurs parties.

  • Résolution d'un problème lié à EMRFS qui se traduisait par une valeur de taille par défaut de 5 Mo pour CopyPart. La valeur par défaut est maintenant correctement définie sur 128 Mo.

  • Résolution d'un problème lié à la configuration upstart dans Zeppelin qui pouvait vous empêcher potentiellement d'arrêter le service.

  • Résolution d'un problème lié à Spark et Zeppelin qui vous empêchait d'utiliser le schéma d'URI s3a://, car /usr/lib/hadoop/hadoop-aws.jar n'était pas chargé correctement dans leur chemin de classe respectif.

  • Rétroportage de HUE-2484.

  • Rétroportage d'une validation depuis Hue 3.9.0 (aucun JIRA n'existe) pour résoudre un problème lié à l'exemple de navigateur HBase.

  • Rétroportage de HIVE-9073.

Version 4.7.0 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 3.1.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.0.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.2.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.4.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.7.1 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.2-amzn-2 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.2-amzn-2 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.2-amzn-2 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.2-amzn-2 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.2-amzn-2 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.2-amzn-2 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.2-amzn-2 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.2-amzn-2 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.2-amzn-2 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server 2.7.2-amzn-2 Service de récupération d'informations actuelles et historiques pour les applications YARN.
hbase-hmaster 1.2.1 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.1 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.1 Client de ligne de commande HBase.
hbase-rest-server 1.2.1 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.1 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-5 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-5 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-5 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-5 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-5 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-5 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-7 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.12.0 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5.46 Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
phoenix-library 4.7.0-HBase-1.2 Les bibliothèques phoenix pour serveur et client
phoenix-query-server 4.7.0-HBase-1.2 Un serveur léger fournissant un accès JDBC, ainsi qu'un accès au format JSON et de tampons de protocole, à l'API Avatica
presto-coordinator 0.147 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.147 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.1 Clients de ligne de commande Spark.
spark-history-server 1.6.1 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.1 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.1 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
tez-on-yarn 0.8.3 Les bibliothèques et l'application tez YARN.
webserver 2.4.18 Serveur HTTP Apache.
zeppelin-server 0.5.6-incubating Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.8 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.8 Client de ligne de commande ZooKeeper.

Version 4.7.0 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.7.0

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

phoenix-hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de Phoenix.

phoenix-log4j

Modifiez les valeurs dans le fichier log4j.properties de Phoenix.

phoenix-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-phoenix.properties de Phoenix.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

tez-site

Modifiez les valeurs dans le fichier tez-site.xml de Tez.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

4.6.0

Version 4.6.0 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox, Zeppelin-Sandbox et ZooKeeper-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.6.0 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.6.0.

  • Ajout de HBase 1.2.0

  • Ajout de Zookeeper-Sandbox 3.4.8

  • Mise à niveau vers Presto-Sandbox 0.143

  • Les versions d'Amazon EMR sont maintenant basées sur Amazon Linux 2016.03.0. Pour plus d'informations, consultez https://aws.amazon.com/amazon-linux-ami/2016.03-release-notes/.

  • Problème affectant les types de volume HDD à débit optimisé (ST1) EBS

    Un problème dans les versions 4.2 et précédentes de noyau Linux affecte de manière significative les performances sur les volumes HDD à débit optimisé (ST1) EBS pour EMR. Cette version (emr-4.6.0) utilise la version de noyau 4.4.5 et est donc concernée. Par conséquent, nous vous recommandons de ne pas utiliser emr-4.6.0 si vous voulez utiliser des volumes EBS st1. Vous pouvez utiliser emr-4.5.0 ou des versions précédentes d'Amazon EMR avec ST1 sans incidence. En outre, nous fournirons le correctif avec les versions futures.

  • Version de Python par défaut

    Python 3.4 est maintenant installé par défaut, mais Python 2.7 reste la valeur système par défaut. Vous pouvez configurer Python 3.4 comme valeur système par défaut à l'aide d'une action d'amorçage ; vous pouvez utiliser l'API de configuration pour définir l'exportation de PYSPARK_PYTHON vers /usr/bin/python3.4 dans la classification spark-env pour affecter la version de Python utilisée par PySpark.

  • Java 8

    Sauf pour Presto, OpenJDK 1.7 est le JDK par défaut utilisé pour toutes les applications. Cependant, OpenJDK 1.7 et 1.8 sont installés. Pour en savoir plus sur la configuration de JAVA_HOME pour les applications, consultez Configuration d'applications pour utiliser Java 8.

Problèmes connus résolus depuis les versions précédentes

  • Résolution d'un problème où le provisionnement d'application échouait parfois de manière aléatoire en raison d'un mot de passe généré.

  • Auparavant, mysqld était installé sur tous les nœuds. Maintenant, il est uniquement installé sur l'instance principale et seulement si l'application choisie inclut mysql-server comme composant. Actuellement, les applications suivantes incluent le composant mysql-server : HCatalog, Hive, Hue, Presto-Sandbox et Sqoop-Sandbox.

  • Remplacement de la valeur par défaut 80 par 32 pour yarn.scheduler.maximum-allocation-vcores, ce qui résout un problème introduit dans emr-4.4.0 qui se produit principalement avec Spark lors de l'utilisation de l'option maximizeResourceAllocation dans un cluster dont le type d'instance principal est l'un des types d'instance large pour lesquels des cœurs virtuels YARN sont définis sur des valeurs supérieures à 32. Les types c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge et m4.10xlarge étaient affectés par ce problème.

  • s3-dist-cp utilise désormais EMRFS pour toutes les nominations Amazon S3 et n'effectue plus une copie intermédiaire dans un répertoire HDFS temporaire.

  • Résolution d'un problème lié au traitement des exceptions pour le chiffrement côté client du chargement partitionné.

  • Ajout d'une option pour permettre aux utilisateurs de modifier la classe de stockage Amazon S3. Par défaut, ce paramètre est STANDARD. La configuration de classification emrfs-site est fs.s3.storageClass, et les valeurs possibles sont STANDARD, STANDARD_IA et REDUCED_REDUNDANCY. Pour plus d'informations les classes de stockage, consultez Classes de stockage dans le Amazon Simple Storage Service Developer Guide.

Version 4.6.0 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 3.0.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.0.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.1.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.3.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.6.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.2-amzn-1 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.2-amzn-1 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.2-amzn-1 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.2-amzn-1 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.2-amzn-1 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.2-amzn-1 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.2-amzn-1 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.2-amzn-1 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.2-amzn-1 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hbase-hmaster 1.2.0 Service pour un cluster HBase responsable de la coordination des régions et de l'exécution des commandes administratives.
hbase-region-server 1.2.0 Service pour desservir une ou plusieurs régions HBase.
hbase-client 1.2.0 Client de ligne de commande HBase.
hbase-rest-server 1.2.0 Service fournissant un point de terminaison RESTful HTTP pour HBase.
hbase-thrift-server 1.2.0 Service fournissant un point de terminaison Thrift à HBase.
hcatalog-client 1.0.0-amzn-4 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-4 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-4 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-4 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-4 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-4 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-6 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.11.1 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5 Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
presto-coordinator 0.143 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.143 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.1 Clients de ligne de commande Spark.
spark-history-server 1.6.1 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.1 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.1 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
webserver 2,4 Serveur HTTP Apache.
zeppelin-server 0.5.6-incubating Portable basé sur le web qui permet l'analyse de données interactives.
zookeeper-server 3.4.8 Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client 3.4.8 Client de ligne de commande ZooKeeper.

Version 4.6.0 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.6.0

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hbase-env

Modifiez les valeurs dans l'environnement HBase.

hbase-log4j

Modifiez les valeurs dans le fichier hbase-log4j.properties de HBase.

hbase-metrics

Modifiez les valeurs dans le fichier hadoop-metrics2-hbaase.properties de HBase.

hbase-policy

Modifiez les valeurs dans le fichier hbase-policy.xml de HBase.

hbase-site

Modifiez les valeurs dans le fichier hbase-site.xml de HBase.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

zookeeper-config

Modifiez les valeurs dans le fichier zoo.cfg de ZooKeeper.

zookeeper-log4j

Modifiez les valeurs dans le fichier log4j.properties de ZooKeeper.

4.5.0

Version 4.5.0 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox et Zeppelin-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.5.0 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.5.0.

Date de parution : 4 avril 2016

Fonctions

  • Mise à niveau vers Spark 1.6.1

  • Mise à niveau vers Hadoop 2.7.2

  • Mise à niveau vers Presto 0.140

  • Ajout de la prise en charge par AWS KMS du chiffrement côté serveur Amazon S3.

Problèmes connus résolus depuis les versions précédentes

  • Résolution d'un problème où les serveurs MySQL et Apache ne démarraient pas après le redémarrage d'un nœud.

  • Résolution d'un problème où IMPORT ne fonctionnait pas correctement avec les tables non partitionnées stockées dans Amazon S3

  • Résolution d'un problème lié à Presto où le répertoire intermédiaire devait être /mnt/tmp au lieu de /tmp lors de l'écriture dans des tables Hive.

Version 4.5.0 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 3.0.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.0.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.1.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.2.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.5.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.2-amzn-0 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.2-amzn-0 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.2-amzn-0 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.2-amzn-0 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.2-amzn-0 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.2-amzn-0 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.2-amzn-0 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.2-amzn-0 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.2-amzn-0 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hcatalog-client 1.0.0-amzn-4 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-4 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-4 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-4 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-4 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-4 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-5 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.11.1 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5 Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
presto-coordinator 0.140 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.140 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.1 Clients de ligne de commande Spark.
spark-history-server 1.6.1 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.1 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.1 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
webserver 2,4 Serveur HTTP Apache.
zeppelin-server 0.5.6-incubating Portable basé sur le web qui permet l'analyse de données interactives.

Version 4.5.0 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.5.0

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

4.4.0

Version 4.4.0 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, HCatalog, Hive, Hue, Mahout, Oozie-Sandbox, Pig, Presto-Sandbox, Spark, Sqoop-Sandbox et Zeppelin-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.4.0 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.4.0.

Date de parution : 14 mars 2016

Fonctions

  • Ajout de HCatalog 1.0.0

  • Ajout de Sqoop-Sandbox 1.4.6

  • Mise à niveau vers Presto 0.136

  • Mise à niveau vers Zeppelin 0.5.6

  • Mise à niveau vers Mahout 0.11.1

  • dynamicResourceAllocation activé par défaut.

  • Ajout d'un tableau de toutes les classifications de configuration pour la version. Pour en savoir plus, consultez le tableau Classifications des configurations dans Configuration des applications.

Problèmes connus résolus depuis les versions précédentes

  • Résolution d'un problème où le paramètre maximizeResourceAllocation ne réservait pas suffisamment de mémoire pour les programmes fantômes ApplicationMaster YARN.

  • Résolution d'un problème rencontré avec un DNS personnalisé. Si des entrées dans resolve.conf précèdent les entrées personnalisées fournies, les entrées personnalisées ne peuvent pas être résolues. Ce comportement était affecté par des clusters dans un VPC dans lequel le serveur de noms VPC par défaut était inséré comme première entrée dans resolve.conf.

  • Résolution d'un problème où la version Python par défaut passait à la version 2.7 et boto n'était pas installé pour cette version.

  • Résolution d'un problème où des conteneurs YARN et des applications Spark généraient un fichier rdd (round robin database) unique Ganglia, si bien que le premier disque attaché à l'instance se remplissait. En raison de ce correctif, les métriques de niveau conteneur YARN ont été désactivées et les métriques de niveau application Spark ont été désactivées.

  • Résolution d'un problème dans le transmetteur de journaux où celui-ci supprimait tous les dossiers de journal vides. De ce fait, l'interface de ligne de commande Hive ne pouvait pas journaliser, car le transmetteur de journaux supprimait le dossier user vide sous /var/log/hive.

  • Résolution d'un problème affectant les importations Hive qui avait une incidence sur le partitionnement et entraînait une erreur lors de l'importation.

  • Résolution d'un problème où EMRFS et s3-dist-cp ne géraient pas correctement les noms de compartiment qui contenaient des points.

  • Modification d'un comportement dans EMRFS de sorte que dans les compartiments activés pour la gestion des versions, le fichier marqueur _$folder$ ne soit pas créé en permanence, ce qui peut contribuer à l'amélioration des performances de tels compartiments.

  • Modification d'un comportement dans EMRFS pour ne pas utiliser pas des fichiers d'instruction à l'exception des cas où le chiffrement côté client est activé. Si vous souhaitez supprimer des fichiers d'instruction tout en utilisant le chiffrement côté client, vous pouvez définir la propriété d'emrfs-site.xml fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled sur true.

  • Modification de l'agrégation de journaux YARN pour conserver les journaux dans la destination d'agrégation pendant deux jours. La destination par défaut est le stockage HDFS de votre cluster. Si vous souhaitez modifier cette durée, remplacez la valeur yarn.log-aggregation.retain-seconds à l'aide de la classification de configuration yarn-site lorsque vous créez votre cluster. Comme toujours, vous pouvez enregistrer vos journaux des applications dans Amazon S3 à l'aide du paramètre log-uri lorsque vous créez votre cluster.

Correctifs appliqués

Version 4.4.0 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 3.0.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.0.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.1.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.2.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.4.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.1-amzn-1 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.1-amzn-1 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.1-amzn-1 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.1-amzn-1 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.1-amzn-1 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.1-amzn-1 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.1-amzn-1 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.1-amzn-1 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.1-amzn-1 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hcatalog-client 1.0.0-amzn-3 Client de ligne de commande « hcat » pour la manipulation de hcatalog-server.
hcatalog-server 1.0.0-amzn-3 Service fournissant HCatalog, couche de gestion de table et de stockage pour les applications distribuées.
hcatalog-webhcat-server 1.0.0-amzn-3 Point de terminaison HTTP fournissant une interface REST à HCatalog.
hive-client 1.0.0-amzn-3 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-3 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-3 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-5 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.11.1 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5 Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
presto-coordinator 0.136 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.136 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.0 Clients de ligne de commande Spark.
spark-history-server 1.6.0 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.0 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.0 Bibliothèques Apache Spark requises par les esclaves YARN.
sqoop-client 1.4.6 Client de ligne de commande Apache Sqoop.
webserver 2,4 Serveur HTTP Apache.
zeppelin-server 0.5.6-incubating Portable basé sur le web qui permet l'analyse de données interactives.

Version 4.4.0 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.4.0

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hcatalog-env

Modifiez les valeurs dans l'environnement HCatalog.

hcatalog-server-jndi

Modifiez les valeurs dans jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Modifiez les valeurs dans proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Modifiez les valeurs dans l'environnement WebHCat HCatalog.

hcatalog-webhcat-log4j

Modifiez les valeurs dans log4j.properties de WebHCat HCatalog.

hcatalog-webhcat-site

Modifiez les valeurs dans le fichier webhcat-site.xml de WebHCat HCatalog.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

sqoop-env

Modifiez les valeurs d'environnement Sqoop.

sqoop-oraoop-site

Modifiez les valeurs dans le fichier oraoop-site.xml d'OraOop Sqoop.

sqoop-site

Modifiez les valeurs dans le fichier sqoop-site.xml de Sqoop.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

4.3.0

Version 4.3.0 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, Hive, Hue, Mahout, Oozie-Sandbox, Pig, Presto-Sandbox, Spark et Zeppelin-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.3.0 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.3.0.

Date de parution : 19 janvier 2016

Fonctions

  • Mise à niveau vers Hadoop 2.7.1

  • Mise à niveau vers Spark 1.6.0

  • Mise à niveau de Ganglia vers la version 3.7.2

  • Mise à niveau vers de Presto vers la version 0.130

  • Amazon EMR a apporté quelques modifications au paramètre spark.dynamicAllocation.enabled lorsque celui-ci est défini sur true ; la valeur par défaut est false. Lorsque ce paramètre est défini sur true, cela a un effet sur les valeurs par défaut définies par le paramètre maximizeResourceAllocation.

    • Si spark.dynamicAllocation.enabled est défini sur true, spark.executor.instances n'est pas défini par maximizeResourceAllocation.

    • Le paramètre spark.driver.memory est désormais configuré en fonction des types d'instances du cluster d'une manière similaire à la façon dont spark.executors.memory est défini. Cependant, étant donné que l'application de pilote Spark peut s'exécuter soit sur le maître, soit sur une des instances principales (par exemple, dans le client YARN et les modes cluster, respectivement), le paramètre spark.driver.memory est défini en fonction du type d'instance du plus petit des types d'instances entre ces deux groupes d'instances.

    • Le paramètre spark.default.parallelism est désormais défini sur deux fois le nombre de cœurs de processeurs disponibles pour les conteneurs YARN. Dans les versions précédentes, c'était la moitié de cette valeur.

    • Les calculs de la surcharge de mémoire réservée pour les processus Spark YARN ont été ajustés pour être plus précis, ce qui se traduit par une petite augmentation de la quantité de mémoire disponible pour Spark (c'est-à-dire, spark.executor.memory).

Problèmes connus résolus depuis les versions précédentes

  • L'agrégation de journaux YARN est maintenant activée par défaut.

  • Résolution d'un problème où les journaux ne pouvaient pas être transmis vers le compartiment de journaux Amazon S3 d'un cluster lorsque l'agrégation de journaux YARN était activée.

  • Les tailles de conteneur YARN ont maintenant un nouveau minimum de 32 sur tous les types de nœuds.

  • Résolution d'un problème lié à Ganglia qui entraînait des E/S de disque excessives sur le nœud principal dans les clusters de grande taille.

  • Résolution d'un problème qui empêchait les journaux des applications d'être transmis à Amazon S3 lorsqu'un cluster s'arrêtait.

  • Résolution d'un problème dans l'interface de ligne de commande EMRFS qui entraînait l'échec de certaines commandes.

  • Résolution d'un problème lié à Zeppelin qui empêchait les dépendances d'être chargées dans le SparkContext sous-jacent.

  • Résolution d'un problème provoqué par une tentative de redimensionnement pour ajouter des instances.

  • Résolution d'un problème dans Hive où CREATE TABLE AS SELECT effectuait des appels de liste excessifs vers Amazon S3.

  • Résolution d'un problème où les grands clusters n'étaient pas provisionnés correctement lorsque Hue, Oozie et Ganglia étaient installés.

  • Résolution d'un problème dans s3-dist-cp où un code de sortie zéro était renvoyé même en cas d'échec avec une erreur.

Version 4.3.0 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 3.0.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.0.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.1.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.1.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.3.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.7.2 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.7.2 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.7.1 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.7.1-amzn-0 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.7.1-amzn-0 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.7.1-amzn-0 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.7.1-amzn-0 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.7.1-amzn-0 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.7.1-amzn-0 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.7.1-amzn-0 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.7.1-amzn-0 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.7.1-amzn-0 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hive-client 1.0.0-amzn-2 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-2 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-2 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-5 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.11.0 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5 Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
presto-coordinator 0.130 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.130 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.6.0 Clients de ligne de commande Spark.
spark-history-server 1.6.0 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.6.0 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.6.0 Bibliothèques Apache Spark requises par les esclaves YARN.
webserver 2,4 Serveur HTTP Apache.
zeppelin-server 0.5.5-incubating-amzn-1 Portable basé sur le web qui permet l'analyse de données interactives.

Version 4.3.0 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.3.0

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

4.2.0

Version 4.2.0 - Versions des applications

Les applications suivantes sont prises en charge pour cette version : Ganglia, Hadoop, Hive, Hue, Mahout, Oozie-Sandbox, Pig, Presto-Sandbox, Spark et Zeppelin-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.2.0 - Notes de mise à jour

Les notes de mises à jour suivantes incluent des informations sur la version Amazon EMR 4.2.0.

Date de parution : 18 novembre 2015

Fonctions

  • Ajout de la prise en charge de Ganglia

  • Mise à niveau vers Spark 1.5.2

  • Mise à niveau vers Presto 0.125

  • Mise à niveau d'Oozie vers la version 4.2.0

  • Mise à niveau de Zeppelin vers la version 0.5.5

  • Mise à niveau de AWS SDK for Java vers 1.10.27

Problèmes connus résolus depuis les versions précédentes

  • Résolution d'un problème où l'interface de ligne de commande EMRFS n'utilisait pas le nom de table de métadonnées par défaut.

  • Résolution d'un problème rencontré lors de l'utilisation de tables basée sur ORC dans Amazon S3.

  • Résolution d'un problème rencontré avec une incompatibilité de version Python dans la configuration de Spark.

  • Résolution d'un problème où un état de nœud YARN n'était pas signalé en raison de problèmes de DNS pour des clusters dans un VPC.

  • Résolution d'un problème rencontré lorsque YARN mettait hors service des nœuds, ce qui se traduisait par le blocage d'applications ou l'incapacité de planifier de nouvelles applications.

  • Résolution d'un problème rencontré lorsque des clusters prenaient fin avec l'état TIMED_OUT_STARTING.

  • Résolution d'un problème rencontré lors de l'inclusion de la dépendance EMRFS Scala dans d'autres versions. La dépendance Scala a été supprimée.

Version 4.2.0 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 3.0.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.0.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.1.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.0.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.2.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
ganglia-monitor 3.6.0 Agent Ganglia intégré pour les applications de l'écosystème Hadoop avec agent de surveillance Ganglia.
ganglia-metadata-collector 3.6.0 Collecteur de métadonnées Ganglia pour agréger les métriques des agents de surveillance Ganglia.
ganglia-web 3.5.10 Application web pour afficher les métriques collectées par le collecteur de métadonnées Ganglia.
hadoop-client 2.6.0-amzn-2 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.6.0-amzn-2 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.6.0-amzn-2 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.6.0-amzn-2 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.6.0-amzn-2 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.6.0-amzn-2 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.6.0-amzn-2 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.6.0-amzn-2 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.6.0-amzn-2 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hive-client 1.0.0-amzn-1 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-1 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-1 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-5 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.11.0 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5 Serveur de base de données MySQL.
oozie-client 4.2.0 Client de ligne de commande Oozie.
oozie-server 4.2.0 Service pour l'acceptation des demandes de flux de travail Oozie.
presto-coordinator 0.125 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.125 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.5.2 Clients de ligne de commande Spark.
spark-history-server 1.5.2 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.5.2 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.5.2 Bibliothèques Apache Spark requises par les esclaves YARN.
webserver 2,4 Serveur HTTP Apache.
zeppelin-server 0.5.5-incubating-amzn-0 Portable basé sur le web qui permet l'analyse de données interactives.

Version 4.2.0 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.2.0

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

presto-connector-hive

Modifiez les valeurs dans le fichier hive.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

4.1.0

Version 4.1.0 - Versions des applications

Les applications suivantes sont prises en charge dans cette version : Hadoop, Hive, Hue, Mahout, Oozie-Sandbox, Pig, Presto-Sandbox, Spark et Zeppelin-Sandbox.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.1.0 - Notes de mise à jour

Indisponible.

Version 4.1.0 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 3.0.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.0.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.1.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.0.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.1.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
hadoop-client 2.6.0-amzn-1 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.6.0-amzn-1 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-library 2.6.0-amzn-1 Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode 2.6.0-amzn-1 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.6.0-amzn-1 Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server 2.6.0-amzn-1 Serveur de gestion des clés cryptographiques basé sur l'API KeyProvider de Hadoop.
hadoop-mapred 2.6.0-amzn-1 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.6.0-amzn-1 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.6.0-amzn-1 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hive-client 1.0.0-amzn-1 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-1 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-1 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
hue-server 3.7.1-amzn-4 Application web pour l'analyse des données à l'aide d'applications de l'écosystème Hadoop
mahout-client 0.11.0 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5 Serveur de base de données MySQL.
oozie-client 4.0.1 Client de ligne de commande Oozie.
oozie-server 4.0.1 Service pour l'acceptation des demandes de flux de travail Oozie.
presto-coordinator 0.119 Service pour accepter les requêtes et gérer l'exécution des requêtes des composants presto-worker.
presto-worker 0.119 Service pour exécuter les éléments d'une requête.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.5.0 Clients de ligne de commande Spark.
spark-history-server 1.5.0 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.5.0 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.5.0 Bibliothèques Apache Spark requises par les esclaves YARN.
zeppelin-server 0.6.0-incubating-SNAPSHOT Portable basé sur le web qui permet l'analyse de données interactives.

Version 4.1.0 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.1.0

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

hive-env

Modifiez les valeurs dans l'environnement Hive.

hive-exec-log4j

Modifiez les valeurs dans le fichier hive-exec-log4j.properties de Hive.

hive-log4j

Modifiez les valeurs dans le fichier hive-log4j.properties de Hive.

hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Hive

hue-ini

Modifiez les valeurs dans le fichier ini de Hue

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

mapred-env

Modifiez les valeurs dans l'environnement de l'application MapReduce.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l'application MapReduce.

oozie-env

Modifiez les valeurs dans l'environnement d'Oozie.

oozie-log4j

Modifier les valeurs dans le fichier oozie-log4j.properties d'Oozie.

oozie-site

Modifiez les valeurs dans le fichier oozie-site.xml d'Oozie.

pig-properties

Modifiez les valeurs dans le fichier pig.properties de Pig.

pig-log4j

Modifiez les valeurs dans le fichier log4j.properties de Pig.

presto-log

Modifiez les valeurs dans le fichier log.properties de Presto.

presto-config

Modifiez les valeurs dans le fichier config.properties de Presto.

spark

Paramètres organisés par Amazon EMR pour Apache Spark.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

spark-env

Modifiez les valeurs dans l'environnement Spark.

spark-log4j

Modifiez les valeurs dans le fichier log4j.properties de Spark.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

zeppelin-env

Modifiez les valeurs dans l'environnement Zeppelin.

4.0.0

Version 4.0.0 - Versions des applications

Les applications suivantes sont prises en charge dans cette version : Hadoop, Hive, Mahout, Pig et Spark.

Le schéma ci-dessous décrit les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des quatre précédentes versions Amazon EMR.

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les diagrammes suivants :

Version 4.0.0 - Notes de mise à jour

Indisponible.

Version 4.0.0 - Versions des composants

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ceux-ci commencent généralement par emr ou aws. Les packages d'application de Big Data de la version Amazon EMR la plus récente sont généralement la dernière version trouvée dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants ont besoin de changements de versions de la communauté pour Amazon EMR. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. Par exemple, si un composant de la communauté du Big Data nommé myapp-component de la version 2.2a été modifié trois fois en vue de son inclusion dans différentes versions Amazon EMR, sa version apparaît sous le nom 2.2-amzn-3.

Composant Version Description
emr-ddb 3.0.0 Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies 2.0.0 Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-kinesis 3.0.0 Connecteur Amazon Kinesis pour les applications de l'écosystème Hadoop.
emr-s3-dist-cp 2.0.0 Application de copie distribuée optimisée pour Amazon S3.
emrfs 2.0.0 Connecteur Amazon S3 pour les applications de l'écosystème Hadoop.
hadoop-client 2.6.0-amzn-0 Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode 2.6.0-amzn-0 Service au niveau du nœud HDFS pour stocker les blocs.
hadoop-hdfs-namenode 2.6.0-amzn-0 Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-httpfs-server 2.6.0-amzn-0 Point de terminaison HTTP pour les opérations HDFS.
hadoop-mapred 2.6.0-amzn-0 Bibliothèques de moteur d'exécution MapReduce pour exécuter une application MapReduce.
hadoop-yarn-nodemanager 2.6.0-amzn-0 Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager 2.6.0-amzn-0 Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hive-client 1.0.0-amzn-0 Client de ligne de commande Hive.
hive-metastore-server 1.0.0-amzn-0 Service pour accéder au metastore Hive, référentiel sémantique stockant des métadonnées pour SQL sur les opérations Hadoop.
hive-server 1.0.0-amzn-0 Service pour l'acceptation de requêtes Hive en tant que requêtes web.
mahout-client 0.10.0 Bibliothèque pour la technologie Machine Learning.
mysql-server 5.5 Serveur de base de données MySQL.
pig-client 0.14.0-amzn-0 Client de ligne de commande Pig.
spark-client 1.4.1 Clients de ligne de commande Spark.
spark-history-server 1.4.1 Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn 1.4.1 Moteur d'exécution en mémoire pour YARN.
spark-yarn-slave 1.4.1 Bibliothèques Apache Spark requises par les esclaves YARN.

Version 4.0.0 - Classifications des configurations

Les classifications de configuration vous permettent de personnaliser les applications lorsque vous créez un cluster. Elles correspondent souvent à un fichier de configuration XML de l'application, tel que hive-site.xml. Pour plus d'informations, consultez Configuration des applications.

Classifications emr-4.0.0

Classifications Description

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

emrfs-site

Modifiez les paramètres EMRFS.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

hadoop-log4j