Versiones de lanzamiento de Amazon EMR 5.x - Amazon EMR

Versiones de lanzamiento de Amazon EMR 5.x

En cada pestaña se indican las versiones de las aplicaciones, las notas de la versión, las versiones de los componentes y las clasificaciones de configuración de cada versión de Amazon EMR 5.x.

Para ver un diagrama completo de las versiones de las aplicaciones de cada versión, consulte Versiones de las aplicaciones de las versiones 5.x de Amazon EMR (PNG).

Al lanzar un clúster, puede elegir entre varias versiones de lanzamiento de Amazon EMR. Esto le permite probar y utilizar versiones de las aplicaciones adecuadas a sus requisitos de compatibilidad. La versión se especifica mediante la etiqueta de versión. Las etiquetas de versión tienen el formato emr-x.x.x. For example, emr-5.30.0.

New Amazon EMR release versions are made available in different regions over a period of several days, beginning with the first region on the initial release date. The latest release version may not be available in your region during this period.

5.30.0

Versiones de la aplicación 5.30.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.30.0

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.30.0 de Amazon EMR. Los cambios son respecto a la versión 5.29.0.

Fecha de lanzamiento inicial: 13 de mayo de 2020

Fecha de última actualización: 3 de junio de 2020

Actualizaciones

  • Se actualizó AWS SDK for Java a la versión 1.11.759

  • Se actualizó el SDK de Amazon SageMaker Spark a la versión 1.3.0

  • Se actualizó el servidor de registros de EMR a la versión 1.6.0

  • Se actualizó Flink a la versión 1.10.0

  • Se actualizó Ganglia a la versión 3.7.2

  • Se actualizó HBase a la versión 1.4.13

  • Se actualizó Hudi a la versión 0.5.2-incubating

  • Se actualizó Hue a la versión 4.6.0

  • Se actualizó JupyterHub a la versión 1.1.0

  • Se actualizó Livy a la versión 0.7.0-incubating

  • Se actualizó Oozie a la versión 5.2.0

  • Se actualizó Presto a la versión 0.232

  • Se actualizó Spark a la versión 2.4.5

  • Conectores y controladores actualizados: Amazon Glue Connector 1.12.0; Amazon Kinesis Connector 3.5.0; EMR DynamoDB Connector 4.14.0

Nuevas características

  • EMR Notebooks: cuando se utilizan con clústeres de EMR creados con 5.30.0, los kernels de Cuaderno de EMR se ejecutan en el clúster. Esto mejora el rendimiento del bloc de notas y le permite instalar y personalizar kernels. También puede instalar bibliotecas de Python en el nodo maestro del clúster. Para obtener más información, consulte Instalación y uso de kernels y bibliotecas en la Guía de administración de EMR.

  • Compatibilidad con Amazon Linux 2: En la versión 5.30.0 y posterior de EMR, se utiliza el sistema operativo Amazon Linux 2. Las nuevas AMI (Imagen de Amazon Machine) personalizadas deben basarse en la AMI de Amazon Linux 2. Para obtener más información, consulte Uso de una AMI personalizada.

  • Escalado administrado: Con la versión 5.30.0 y posteriores de Amazon EMR, puede habilitar el escalado administrado por EMR para aumentar o disminuir automáticamente el número de instancias o unidades del clúster en función de la carga de trabajo. EMR evalúa continuamente las métricas del clúster para tomar decisiones de escalado que optimicen los clústeres en cuanto al costo y la velocidad. Para obtener más información, consulte Scaling Cluster Resources en la Guía de administración de Amazon EMR.

  • Cifrar archivos de registro almacenados en Amazon S3: con Amazon EMR versión 5.30.0 y posterior, puede cifrar los archivos de registro almacenados en Amazon S3 con una clave administrada por el cliente de AWS KMS. Para obtener más información, consulte Cifrar archivos de registro almacenados en Amazon S3 en la Guía de administración de Amazon EMR.

  • Compatibilidad con Amazon Linux 2: En la versión 5.30.0 y posterior de EMR, se utiliza el sistema operativo Amazon Linux 2. Las nuevas AMI (Imagen de Amazon Machine) personalizadas deben basarse en la AMI de Amazon Linux 2. Para obtener más información, consulte Uso de una AMI personalizada.

  • Escalado automático de Presto Graceful: Los clústeres de la versión 5.30.0 de EMR se pueden configurar con un período de tiempo de espera de escalado automático que da tiempo a las tareas de Presto para terminar de ejecutarse antes de que su nodo sea retirado. Para obtener más información, consulte Uso del escalado automático de Presto con la retirada estable de nodos.

Cambios, mejoras y problemas resueltos

  • La versión 5.30.0 de EMR no instala Ganglia de forma predeterminada. Puede seleccionar explícitamente Ganglia para instalar cuando cree un clúster.

  • Optimizaciones de rendimiento de Spark.

  • Optimizaciones de rendimiento de Presto.

  • El grupo de seguridad administrado predeterminado para el acceso al servicio en subredes privadas se ha actualizado con nuevas reglas. Si utiliza un grupo de seguridad personalizado para el acceso al servicio, debe incluir las mismas reglas que el grupo de seguridad administrado predeterminado. Para obtener más información, consulte Grupo de seguridad administrada por Amazon EMR para el acceso al servicio (Subredes privadas). Si utiliza un rol de servicio personalizado para Amazon EMR, debe conceder permiso a ec2:describeSecurityGroups para que EMR pueda validar si los grupos de seguridad se crean correctamente. Si utiliza EMR_DefaultRole, este permiso ya está incluido en la política administrada predeterminada.

Versiones de los componentes de la versión 5.30.0

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.3.0 SDK de Amazon SageMaker Spark
emr-ddb 4.14.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.13.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.5.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-notebook-env 1.0.0 Entorno Conda para emr notebook
emr-s3-dist-cp 2.14.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.5.0 Conector S3Select de EMR
emrfs 2.40.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.10.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-6 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-6 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-6 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-6 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-6 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-6 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-6 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-6 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-6 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-6 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-6 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.13 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.13 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.13 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.13 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.13 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.6-amzn-2 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.6-amzn-2 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.6-amzn-2 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.6-amzn-2 Cliente de línea de comando de Hive.
hive-hbase 2.3.6-amzn-2 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-2 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.6-amzn-2 Servicio para aceptar consultas de Hive como solicitudes web.
hudi 0.5.2-incubating Marco de procesamiento incremental para impulsar la canalización de datos a baja latencia y alta eficiencia.
hudi-presto 0.5.2-incubating Biblioteca de paquetes para ejecutar Presto con Hudi.
hue-server 4.6.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.1.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.7.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.5.1 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mariadb-server 5.5.64 Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.2.0 Cliente de línea de comando de Oozie.
oozie-server 5.2.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.3-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.3-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.232 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.232 Service para ejecutar partes de una consulta.
presto-client 0.232 Cliente de línea de comandos Presto que se instala en los nodos principales en espera de un clúster de HA donde el servidor Presto no se ha iniciado.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.3 Proyecto R para análisis estadístico
ranger-kms-server 2.0.0 Sistema de administración de claves Apache Ranger
spark-client 2.4.5-amzn-0 Clientes de línea de comando de Spark.
spark-history-server 2.4.5-amzn-0 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.5-amzn-0 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.5-amzn-0 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.14.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.2 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión 5.30.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.30.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

hudi-env

Cambiar los valores en el entorno de Hudi.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.29.0

Versiones de las aplicaciones de la versión 5.29.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.29.0

Las siguientes notas de la versión incluyen información acerca de la versión de lanzamiento 5.29.0 de Amazon EMR. Los cambios son respecto a la versión 5.28.1.

Fecha de lanzamiento inicial: 17 de enero de 2020

Actualizaciones

  • Actualización de AWS SDK para Java a la versión 1.11.682

  • Actualización de Hive a la versión 2.3.6

  • Actualización de Flink a la versión 1.9.1

  • Actualización de EmrFS a la versión 2.38.0

  • Actualización de EMR DynamoDB Connector a la versión 4.13.0

Cambios, mejoras y problemas resueltos

  • Spark

    • Optimizaciones de rendimiento de Spark.

  • EMRFS

    • La guía de administración se ha actualizado para reflejar la configuración predeterminada de emrfs-site.xml para la vista consistente.

Versiones de los componentes de la versión 5.29.0

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.6 SDK de Amazon SageMaker Spark
emr-ddb 4.13.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.12.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.13.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.4.0 Conector S3Select de EMR
emrfs 2.38.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.9.1 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-5 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-5 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-5 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-5 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-5 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-5 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-5 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-5 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-5 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.10 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.10 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.10 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.10 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.10 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.6-amzn-1 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.6-amzn-1 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.6-amzn-1 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.6-amzn-1 Cliente de línea de comando de Hive.
hive-hbase 2.3.6-amzn-1 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-1 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.6-amzn-1 Servicio para aceptar consultas de Hive como solicitudes web.
hudi 0.5.0-incubating Marco de procesamiento incremental para impulsar la canalización de datos a baja latencia y alta eficiencia.
hudi-presto 0.5.0-incubating Biblioteca de paquetes para ejecutar Presto con Hudi.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.0.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.5.1 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.3-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.3-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.227 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.227 Service para ejecutar partes de una consulta.
presto-client 0.227 Cliente de línea de comandos Presto que se instala en los nodos principales en espera de un clúster de HA donde el servidor Presto no se ha iniciado.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.4 Clientes de línea de comando de Spark.
spark-history-server 2.4.4 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.4 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.4 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.14.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.2 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión 5.29.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.29.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.28.x

Hay varias versiones en la serie 5.28. Elija un enlace para ver información de una versión específica en esta pestaña.

5.28.1 (la más reciente) | 5.28.0

Versión 5.28.1 de Amazon EMR

Versiones de las aplicaciones de la versión 5.28.1

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.28.1

Las siguientes notas de la versión incluyen información acerca de la versión de lanzamiento 5.28.1 de Amazon EMR. Los cambios son respecto a la versión 5.28.0.

Fecha de lanzamiento inicial: 10 de enero de 2020

Cambios, mejoras y problemas resueltos

  • Spark

    • Se han corregido problemas de compatibilidad con Spark.

  • Métricas de CloudWatch

    • Se ha corregido la publicación de métricas de Amazon CloudWatch en un clúster de EMR con varios nodos maestros.

  • Mensaje de registro deshabilitado

    • Se ha deshabilitado el mensaje de registro falso "...using old version (<4.5.8) of Apache http client" (...está utilizando una versión anterior [<4.5.8] del cliente http de Apache).

Versiones de los componentes de la versión 5.28.1

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.6 SDK de Amazon SageMaker Spark
emr-ddb 4.12.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.11.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.13.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.3.0 Conector S3Select de EMR
emrfs 2.37.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.9.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-5 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-5 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-5 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-5 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-5 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-5 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-5 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-5 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-5 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.10 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.10 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.10 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.10 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.10 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.6-amzn-0 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.6-amzn-0 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.6-amzn-0 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.6-amzn-0 Cliente de línea de comando de Hive.
hive-hbase 2.3.6-amzn-0 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-0 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.6-amzn-0 Servicio para aceptar consultas de Hive como solicitudes web.
hudi 0.5.0-incubating Marco de procesamiento incremental para impulsar la canalización de datos a baja latencia y alta eficiencia.
hudi-presto 0.5.0-incubating Biblioteca de paquetes para ejecutar Presto con Hudi.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.0.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.5.1 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.3-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.3-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.227 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.227 Service para ejecutar partes de una consulta.
presto-client 0.227 Cliente de línea de comandos Presto que se instala en los nodos principales en espera de un clúster de HA donde el servidor Presto no se ha iniciado.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.4 Clientes de línea de comando de Spark.
spark-history-server 2.4.4 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.4 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.4 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.14.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.2 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión 5.28.1

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.28.1
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

Versión 5.28.0 de Amazon EMR

Versiones de las aplicaciones de la versión 5.28.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.28.0

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.28.0 de Amazon EMR. Los cambios son respecto a la versión 5.27.0.

Fecha de lanzamiento inicial: 12 de noviembre de 2019

Actualizaciones

  • Actualización de Flink a la versión 1.9.0

  • Actualización de Hive a la versión 2.3.6

  • Actualización de MXNet a la versión 1.5.1

  • Actualización de Phoenix a la versión 4.14.3

  • Actualización de Presto a la versión 0.227

  • Actualización de Zeppelin a la versión 0.8.2

Nuevas características

  • Ahora está disponible Apache Hudi para que Amazon EMR lo instale al crear un clúster. Para obtener más información, consulte Hudi (Incubating).

  • (25 de noviembre de 2019) Ahora puede ejecutar varios pasos en paralelo para mejorar la utilización del clúster y ahorrar costos. También puede cancelar los pasos pendientes y los pasos que estén en ejecución. Para obtener más información, consulte Trabajo con pasos utilizando la AWS CLI y la consola.

  • (3 de diciembre de 2019) Ahora, puede crear y ejecutar clústeres de EMR en AWS Outposts. AWS Outposts dispone de servicios, infraestructuras y modelos operativos nativos de AWS para prácticamente cualquier instalación local. En los entornos de AWS Outposts, puede utilizar las mismas API, herramientas e infraestructura de AWS que utiliza en la nube de AWS. Para obtener más información, consulte este artículo sobre los clústeres de EMR en AWS Outposts.

  • (11 de marzo de 2020) A partir de la Amazon EMR versión 5.28.0, puede crear y ejecutar clústeres de Amazon EMR en una subred Zonas locales de AWS como una extensión lógica de una región de AWS compatible con Zonas locales. Una Zona local permite que las características de Amazon EMR y un subconjunto de servicios de AWS, como los servicios informáticos y de almacenamiento, se encuentren más cerca de los usuarios, lo que proporciona un acceso de latencia muy baja a las aplicaciones que se ejecutan localmente. Para ver la lista de Zonas locales disponibles, consulte Zonas locales de AWS. Para obtener información acerca del acceso disponible Zonas locales de AWS, vea Regiones, zonas de disponibilidad y zonas locales.

    Actualmente, Zonas locales no es compatible con blocs de notas de Amazon EMR y no admite conexiones directamente a Amazon EMR con el punto de enlace de la interfaz de la VPC (AWS PrivateLink).

Cambios, mejoras y problemas resueltos

Versiones de los componentes de la versión 5.28.0

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.6 SDK de Amazon SageMaker Spark
emr-ddb 4.12.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.11.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.13.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.3.0 Conector S3Select de EMR
emrfs 2.37.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.9.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-5 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-5 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-5 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-5 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-5 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-5 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-5 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-5 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-5 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.10 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.10 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.10 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.10 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.10 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.6-amzn-0 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.6-amzn-0 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.6-amzn-0 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.6-amzn-0 Cliente de línea de comando de Hive.
hive-hbase 2.3.6-amzn-0 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-0 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.6-amzn-0 Servicio para aceptar consultas de Hive como solicitudes web.
hudi 0.5.0-incubating Marco de procesamiento incremental para impulsar la canalización de datos a baja latencia y alta eficiencia.
hudi-presto 0.5.0-incubating Biblioteca de paquetes para ejecutar Presto con Hudi.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.0.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.5.1 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.3-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.3-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.227 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.227 Service para ejecutar partes de una consulta.
presto-client 0.227 Cliente de línea de comandos Presto que se instala en los nodos principales en espera de un clúster de HA donde el servidor Presto no se ha iniciado.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.4 Clientes de línea de comando de Spark.
spark-history-server 2.4.4 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.4 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.4 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.14.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.2 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión 5.28.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.28.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.27.0

Versiones de las aplicaciones de la versión 5.27.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.27.0

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.27.0 de Amazon EMR. Los cambios son respecto a la versión 5.26.0.

Fecha de lanzamiento inicial: 23 de agosto de 2019

Actualizaciones

  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • Tensorflow 1.14.0

  • Conectores y controladores:

    • DynamoDB Connector 4.12.0

Nuevas características

  • (24 de octubre de 2019) Las siguientes características nuevas en blocs de notas de EMR están disponibles con todas las versiones de Amazon EMR.

    • Puede asociar repositorios de Git con sus blocs de notas de EMR para guardar los blocs de notas en un entorno con control de versiones. Puede compartir código con compañeros y reutilizar los blocs de notas de Jupyter existentes a través de repositorios de Git remotos. Para obtener más información, consulte Asociar repositorios de Git con blocs de notas de Amazon EMR en la Guía de administración de Amazon EMR.

    • La utilidad nbdime ahora está disponible en blocs de notas de EMR para simplificar la comparación y fusión de blocs de notas.  

    • Los blocs de notas de EMR ahora admiten JupyterLab. JupyterLab es un entorno de desarrollo interactivo basado en la Web que es completamente compatible con los bloc de notas de Jupyter. Ahora puede elegir abrir el bloc de notas en JupyterLab o en el editor de blocs de contas de Jupyter. 

  • (30 de octubre de 2019) Con la versión 5.25.0 de Amazon EMR y posteriores, puede conectar a la interfaz de usuario del servidor del historial de Spark desde la página Summary (Resumen) del clúster o desde la pestaña Application history (Historial de aplicaciones) de la consola. En lugar de configurar un proxy web a través de una conexión SSH, puede acceder rápidamente a la interfaz de usuario del servidor del historial de Spark para ver métricas de aplicación y acceder a archivos de registro pertinentes para los clústeres activos y terminados. Para obtener más información, consulte Acceso a la interfaz de usuario del servidor del historial de Spark desde la consola en la Guía de administración de Amazon EMR.

Cambios, mejoras y problemas resueltos

Versiones de los componentes de la versión 5.27.0

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.4 SDK de Amazon SageMaker Spark
emr-ddb 4.12.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.11.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.13.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.3.0 Conector S3Select de EMR
emrfs 2.36.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.8.1 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-4 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-4 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-4 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-4 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-4 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-4 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-4 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-4 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-4 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-4 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-4 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.10 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.10 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.10 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.10 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.10 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.5-amzn-1 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.5-amzn-1 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.5-amzn-1 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.5-amzn-1 Cliente de línea de comando de Hive.
hive-hbase 2.3.5-amzn-1 Hive-hbase client.
hive-metastore-server 2.3.5-amzn-1 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.5-amzn-1 Servicio para aceptar consultas de Hive como solicitudes web.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.0.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.4.0 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.2-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.2-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.224 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.224 Service para ejecutar partes de una consulta.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.4 Clientes de línea de comando de Spark.
spark-history-server 2.4.4 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.4 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.4 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.14.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.1 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión 5.27.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones emr-5.27.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.26.0

Versiones de las aplicaciones de la versión 5.26.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.26.0

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.26.0 de Amazon EMR. Los cambios son respecto a la versión 5.25.0.

Fecha de lanzamiento inicial: 8 de agosto de 2019

Fecha de última actualización: 19 de abril de 2019

Actualizaciones

  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • Conectores y controladores:

    • DynamoDB Connector 4.11.0

    • MariaDB Connector 2.4.2

    • Amazon Redshift JDBC Driver 1.2.32.1056

Nuevas características

  • (Beta) Con Amazon EMR 5.26.0, puede lanzar un clúster que se integre con Lake Formation. Esta integración proporciona acceso detallado de nivel de columna a bases de datos y tablas en AWS Glue Data Catalog. También permite un inicio de sesión único federado en blocs de notas de EMR o Apache Zeppelin desde un sistema de identidades de la compañía. Para obtener más información, consulte Integración de Amazon EMR con AWS Lake Formation (Beta).

  • (19 de agosto de 2019) Block Public Access de Amazon EMR está ahora disponible con todas las versiones de Amazon EMR que admiten grupos de seguridad. Block Public Access es una configuración en toda la cuenta que se aplica a cada región de AWS. Block Public Access evita que un clúster se ejecute cuando un grupo de seguridad asociado con el clúster disponga de una regla que permita el tráfico de entrada desde IPv4 0.0.0.0/0 o IPv6 ::/0 (acceso público) en un puerto, a no ser que el puerto se especifique como excepción. El puerto 22 es una excepción de forma predeterminada. Para obtener más información, consulte Uso de Amazon EMR Block Public Access en la Guía de administración de Amazon EMR.

Cambios, mejoras y problemas resueltos

  • Cuadernos de EMR

    • Con EMR 5.26.0 y versiones posteriores, Cuadernos de EMR admite bibliotecas Python adaptadas al bloc de notas además de bibliotecas Python predeterminadas. Puede instalar bibliotecas adaptadas al bloc de notas desde el editor de blocs de notas sin tener que volver a crear un clúster o volver a asociar un bloc de notas a un clúster. Las bibliotecas adaptadas al bloc de notas se crean en el entorno virtual de Python, por lo que se aplican solo a la sesión de bloc de notas actual. Esto le permite aislar dependencias del bloc de notas. Para obtener más información, consulte Uso de bibliotecas adaptadas al bloc de notas en la Guía de administración de Amazon EMR.

  • EMRFS

    • Puede habilitar una característica de verificación de ETag (Beta) estableciendo fs.s3.consistent.metadata.etag.verification.enabled en true. Con esta característica, EMRFS utiliza las ETags de Amazon S3 para comprobar que los objetos leídos tienen la última versión disponible. Esta característica resulta útil para casos de uso de lectura después de la actualización en los que los archivos de Amazon S3 se sobrescriben conservando el mismo nombre. Esta capacidad de comprobación de ETag no funciona actualmente con S3 Select. Para obtener más información, consulte Configuración de vista consistente.

  • Spark

    • Las siguientes optimizaciones se encuentran ahora habilitadas de forma predeterminada: reducción dinámica de particiones, DISTINCT antes de INTERSECT, mejoras en la interferencia de estadísticas del plan SQL para consultas JOIN seguido de DISTINCT, aplanamiento de subconsultas escalares, reordenación de unión optimizada y unión de filtros de Bloom. Para obtener más información, consulte Optimización de rendimiento de Spark.

    • Se ha mejorado la generación de todo el código de fase para Sort Merge Join.

    • Se ha mejorado la reutilización de subconsultas y de fragmentos de consultas.

    • Se han realizado mejoras para asignar previamente los ejecutores en el inicio de Spark.

    • Las uniones de filtro de Bloom ya no se aplican cuando la parte más pequeña de la unión incluye una sugerencia de difusión.

  • Tez

    • Se ha resuelto un problema con Tez. La IU de Tez funciona ahora en Clúster de EMR con varios nodos principales.

Problemas conocidos

  • Las capacidades mejoradas de generación de todo el código de fase para Sort Merge Join pueden aumentar la presión de la memoria cuando se habilitan. Esta optimización mejora el rendimiento, pero puede provocar reintentos en las tareas o errores si no se ajusta spark.yarn.executor.memoryOverheadFactor para proporcionar suficiente memoria. Para deshabilitar esta característica, establezca spark.sql.sortMergeJoinExec.extendedCodegen.enabled en false.

Versiones de los componentes de la versión 5.26.0

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.4 SDK de Amazon SageMaker Spark
emr-ddb 4.11.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.10.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.12.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.3.0 Conector S3Select de EMR
emrfs 2.35.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.8.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-4 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-4 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-4 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-4 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-4 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-4 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-4 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-4 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-4 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-4 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-4 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.10 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.10 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.10 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.10 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.10 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.5-amzn-0 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.5-amzn-0 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.5-amzn-0 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.5-amzn-0 Cliente de línea de comando de Hive.
hive-hbase 2.3.5-amzn-0 Hive-hbase client.
hive-metastore-server 2.3.5-amzn-0 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.5-amzn-0 Servicio para aceptar consultas de Hive como solicitudes web.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 0.9.6 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.4.0 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.2-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.2-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.220 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.220 Service para ejecutar partes de una consulta.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.3 Clientes de línea de comando de Spark.
spark-history-server 2.4.3 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.3 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.3 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.13.1 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.1 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión 5.26.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.26.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.25.0

Versiones de las aplicaciones de la versión 5.25.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.25.0

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.25.0 de Amazon EMR. Los cambios son respecto a la versión 5.24.1.

Fecha de lanzamiento inicial: 17 de julio de 2019

Fecha de última actualización: 30 de octubre de 2019

Amazon EMR 5.25.0

Actualizaciones

  • AWS SDK for Java 1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • Zookeeper 3.4.14

Nuevas características

  • (30 de octubre de 2019) A partir de la versión 5.25.0 de Amazon EMR, puede conectar a la interfaz de usuario del servidor del historial de Spark desde la página Summary (Resumen) del clúster o desde la pestaña Application history (Historial de aplicaciones) de la consola. En lugar de configurar un proxy web a través de una conexión SSH, puede acceder rápidamente a la interfaz de usuario del servidor del historial de Spark para ver métricas de aplicación y acceder a archivos de registro pertinentes para los clústeres activos y terminados. Para obtener más información, consulte Acceso a la interfaz de usuario del servidor del historial de Spark desde la consola en la Guía de administración de Amazon EMR.

Cambios, mejoras y problemas resueltos

  • Spark

    • Se ha mejorado el rendimiento de algunas uniones mediante el uso de filtros de Bloom para filtrar previamente las entradas. La optimización está deshabilitada de forma predeterminada y se puede habilitar estableciendo el parámetro de configuración de Spark spark.sql.bloomFilterJoin.enabled en true.

    • Se ha mejorado el rendimiento de la agrupación por columnas de tipo cadena.

    • Se ha mejorado la configuración predeterminada de la memoria y los núcleos del ejecutor de Spark de los tipos de instancias R4 para los clústeres sin HBase instalado.

    • Se ha resuelto un problema anterior con la característica de recorte dinámico de particiones que obligaba a que la tabla recortada tuviera que estar en el lado izquierdo de la unión.

    • Se ha mejorado la optimización de DISTINCT delante de INTERSECT y ahora se aplica a casos adicionales en los que intervienen alias.

    • Se ha mejorado la inferencia de estadísticas del plan SQL para consultas JOIN seguido de DISTINCT. Esta mejora está deshabilitada de forma predeterminada y se puede habilitar estableciendo el parámetro de configuración de Spark spark.sql.statsImprovements.enabled en true. Esta optimización es necesaria para la característica de Distinct delante de Intersect y se habilitará automáticamente cuando spark.sql.optimizer.distinctBeforeIntersect.enabled esté establecido en true.

    • Se ha optimizado el orden de la uniones basado en el tamaño de tabla y los filtros. Esta optimización está deshabilitada de forma predeterminada y se puede habilitar estableciendo el parámetro de configuración de Spark spark.sql.optimizer.sizeBasedJoinReorder.enabled en true.

    Para obtener más información, consulte Optimización de rendimiento de Spark.

  • EMRFS

    • El valor de EMRFS, fs.s3.buckets.create.enabled, ahora está deshabilitado de forma predeterminada. En las pruebas detectamos que al deshabilitar este valor se mejora el rendimiento y se impide la creación accidental de buckets de S3. Si su aplicación utiliza esta funcionalidad, puede habilitarla estableciendo la propiedad fs.s3.buckets.create.enabled en true en la clasificación de la configuración de emrfs-site. Para obtener más información, consulte Proporcionar una configuración durante la creación de un clúster.

  • Mejoras en el cifrado de disco local y el cifrado de S3 en las configuraciones de seguridad (5 de agosto de 2019)

    • Ajustes de cifrado de Amazon S3 de la configuración de cifrado de disco local en la configuración de seguridad.

    • Se ha añadido una opción para habilitar el cifrado de EBS con la versión 5.24.0 y superior. Si se selecciona esta opción, se cifrará el volumen del dispositivo raíz además de los volúmenes de almacenamiento. Se precisan versiones anteriores que utilicen la AMI personalizada para cifrar el volumen del dispositivo raíz.

    • Para obtener más información, consulte Opciones de cifrado en la Guía de administración de Amazon EMR.

Versiones de los componentes de la versión 5.25.0

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.4 SDK de Amazon SageMaker Spark
emr-ddb 4.10.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.9.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.11.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.3.0 Conector S3Select de EMR
emrfs 2.34.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.8.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-4 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-4 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-4 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-4 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-4 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-4 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-4 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-4 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-4 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-4 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-4 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.9 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.9 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.9 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.9 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.9 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.5-amzn-0 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.5-amzn-0 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.5-amzn-0 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.5-amzn-0 Cliente de línea de comando de Hive.
hive-hbase 2.3.5-amzn-0 Hive-hbase client.
hive-metastore-server 2.3.5-amzn-0 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.5-amzn-0 Servicio para aceptar consultas de Hive como solicitudes web.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 0.9.6 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.4.0 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.1-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.1-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.220 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.220 Service para ejecutar partes de una consulta.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.3 Clientes de línea de comando de Spark.
spark-history-server 2.4.3 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.3 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.3 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.13.1 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.1 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión 5.25.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.25.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.24.x

Hay varias versiones en la serie 5.24. Elija un enlace para ver información de una versión específica en esta pestaña.

5.24.1 (la más reciente) | 5.24.0

Versión de Amazon EMR 5.24.1

Versiones de las aplicaciones de la versión 5.24.1

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.24.1

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.24.1 de Amazon EMR. Los cambios son respecto a la versión 5.24.0.

Fecha de lanzamiento inicial: 26 de junio de 2019

Cambios, mejoras y problemas resueltos

  • Updated the default Amazon Linux AMI for EMR to include important Linux kernel security updates, including the TCP SACK Denial of Service Issue (AWS-2019-005).

Versiones de los componentes de la versión 5.24.1

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.1 SDK de Amazon SageMaker Spark
emr-ddb 4.9.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.8.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.11.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.3.0 Conector S3Select de EMR
emrfs 2.33.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.8.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-4 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-4 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-4 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-4 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-4 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-4 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-4 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-4 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-4 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-4 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-4 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.9 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.9 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.9 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.9 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.9 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.4-amzn-2 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.4-amzn-2 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.4-amzn-2 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.4-amzn-2 Cliente de línea de comando de Hive.
hive-hbase 2.3.4-amzn-2 Hive-hbase client.
hive-metastore-server 2.3.4-amzn-2 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.4-amzn-2 Servicio para aceptar consultas de Hive como solicitudes web.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 0.9.6 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.4.0 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.1-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.1-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.219 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.219 Service para ejecutar partes de una consulta.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.2 Clientes de línea de comando de Spark.
spark-history-server 2.4.2 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.2 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.2 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.12.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.1 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.1 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.13 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.13 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión 5.24.1

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.24.1
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

Versión de Amazon EMR 5.24.0

Versiones de las aplicaciones de la versión 5.24.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.24.0

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.24.0 de Amazon EMR. Los cambios son respecto a la versión 5.23.0.

Fecha de lanzamiento inicial: 11 de junio de 2019

Fecha de última actualización: 5 de agosto de 2019

Actualizaciones

  • Flink 1.8.0

  • Hue

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java 1.11.546

  • Conectores y controladores:

    • DynamoDB Connector 4.9.0

    • MariaDB Connector 2.4.1

    • Amazon Redshift JDBC Driver 1.2.27.1051

Cambios, mejoras y problemas resueltos

  • Spark

    • Optimización añadida para recortar dinámicamente particiones. La optimización se deshabilita de forma predeterminada. Para habilitarla, establezca el parámetro de configuración de Spark spark.sql.dynamicPartitionPruning.enabled en true.

    • Mejora del rendimiento de las consultas INTERSECT. Esta optimización se deshabilita de forma predeterminada. Para habilitarla, establezca el parámetro de configuración de Spark spark.sql.optimizer.distinctBeforeIntersect.enabled en true.

    • Optimización añadida para allanar subconsultas escalares con agregados que utilizan la misma relación. La optimización se deshabilita de forma predeterminada. Para habilitarla, establezca el parámetro de configuración de Spark spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled en true.

    • Generación de todo el código de fase mejorada.

    Para obtener más información, consulte Optimización de rendimiento de Spark.

  • Mejoras en el cifrado de disco local y el cifrado de S3 en las configuraciones de seguridad (5 de agosto de 2019)

    • Ajustes de cifrado de Amazon S3 de la configuración de cifrado de disco local en la configuración de seguridad.

    • Se ha añadido una opción para habilitar el cifrado de EBS. Si se selecciona esta opción, se cifrará el volumen del dispositivo raíz además de los volúmenes de almacenamiento. Se precisan versiones anteriores que utilicen la AMI personalizada para cifrar el volumen del dispositivo raíz.

    • Para obtener más información, consulte Opciones de cifrado en la Guía de administración de Amazon EMR.

Versiones de los componentes de la versión 5.24.0

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.1 SDK de Amazon SageMaker Spark
emr-ddb 4.9.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.8.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.11.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.3.0 Conector S3Select de EMR
emrfs 2.33.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.8.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-4 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-4 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-4 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-4 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-4 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-4 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-4 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-4 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-4 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-4 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-4 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.9 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.9 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.9 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.9 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.9 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.4-amzn-2 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.4-amzn-2 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.4-amzn-2 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.4-amzn-2 Cliente de línea de comando de Hive.
hive-hbase 2.3.4-amzn-2 Hive-hbase client.
hive-metastore-server 2.3.4-amzn-2 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.4-amzn-2 Servicio para aceptar consultas de Hive como solicitudes web.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 0.9.6 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.4.0 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.1-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.1-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.219 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.219 Service para ejecutar partes de una consulta.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.2 Clientes de línea de comando de Spark.
spark-history-server 2.4.2 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.2 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.2 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.12.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.1 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.1 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.13 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.13 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión 5.24.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.24.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.23.0

Versiones de las aplicaciones de la versión 5.23.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

5.23.0 Notas de la versión

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.23.0 de Amazon EMR. Los cambios son respecto a la versión 5.22.0.

Fecha de lanzamiento inicial: 1 de abril de 2019

Fecha de última actualización: 30 de abril de 2019

Actualizaciones

  • AWS SDK for Java 1.11.519

Nuevas características

  • (30 de abril de 2019) Con Amazon EMR 5.23.0 y versiones posteriores, puede lanzar un clúster con tres nodos principales para admitir una alta disponibilidad de aplicaciones como YARN Resource Manager, HDFS Name Node, Spark, Hive y Ganglia. El nodo principal ya no es un posible punto único de fallo con esta característica. Si se produce un error en los nodos principales, se produce un error automáticamente en Amazon EMR a través de nodo principal en espera y se reemplaza el nodo principal erróneo por uno nuevo con las mismas acciones de arranque y configuración. Para obtener más información, consulte Plan and Configure Master Nodes (Planificación y configuración de nodos principales).

Problemas conocidos

  • IU de Tez (Fija en la versión 5.26.0 de Amazon EMR)

    La IU de Tez no funciona en un clúster de EMR con varios nodos principales.

  • Hue (Fijo en la versión 5.24.0 de Amazon EMR)

    • La ejecución de Hue en Amazon EMR no es compatible con Solr. A partir de la versión de lanzamiento 5.20.0 de Amazon EMR, un problema de configuración incorrecta provoca que se habilite Solr y que aparezca un mensaje de error inofensivo similar al siguiente:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Para evitar que aparezca el mensaje de error de Solr:

      1. Conéctese a la línea de comandos del nodo principal utilizando SSH.

      2. Use un editor de texto para abrir el archivo hue.ini. Por ejemplo:

        sudo vim /etc/hue/conf/hue.ini

      3. Busque el término "appblacklist" y modifique la línea con estos datos:

        appblacklist = search
      4. Guarde los cambios y reinicie Hue como se muestra en el ejemplo siguiente:

        sudo stop hue; sudo start hue

Versiones de los componentes 5.23.0

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.1 SDK de Amazon SageMaker Spark
emr-ddb 4.8.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.7.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.11.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.2.0 Conector S3Select de EMR
emrfs 2.32.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.7.1 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-3 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-3 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-3 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-3 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-3 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-3 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-3 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.