Amazon EMRVersiones de lanzamiento de 5.x - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon EMRVersiones de lanzamiento de 5.x

En cada pestaña se indican las versiones de las aplicaciones, las notas de la versión, las versiones de los componentes y las clasificaciones de configuración de cada versión de Amazon EMR 5.x.

Para ver un diagrama completo de las versiones de las aplicaciones de cada versión, consulte Versiones de las aplicaciones de las versiones 5.x de Amazon EMR (PNG).

Al lanzar un clúster, puede elegir entre varias versiones de lanzamiento de Amazon EMR. Esto le permite probar y utilizar versiones de las aplicaciones adecuadas a sus requisitos de compatibilidad. La versión se especifica mediante la etiqueta de versión. Las etiquetas de versión tienen el formato emr-x.x.x. For example, emr-5.32.0.

New Amazon EMR release versions are made available in different regions over a period of several days, beginning with the first region on the initial release date. The latest release version may not be available in your region during this period.

5.32.0

Versiones de la aplicación de la versión de lanzamiento 5.32.0

Las siguientes aplicaciones se admiten en esta versión: JupyterEnterpriseGateway, Flink, GG, Hadoop, HBase, HCatalog, Hive, Hent___entpoentEempEempEempEempezando_Eempendo_Epondo_EempendoDe_EempEempEempEempE__E__E___E_E_E_________________E___Eu__Eu____EuE_________EEEE________________E_E__E__E_E_E_E_E_E_E__E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E__E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E__E_E_E_E_E_E_E_E_E_________E_______E______________________________________________E___________________________________________________________________________E_______________________E_E_______________E_E__E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E__E_E______E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_______E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E______E_E_________E_E_E_E_E_E_E_E_E____E_E_____________E_E_E_________E____E_E___E_E_________________E_E_________E_E________E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_E_________E__https://jupyterhub.readthedocs.io/en/latest/#https://livy.incubator.apache.org/http://mahout.apache.org/https://mxnet.incubator.apache.org/http://oozie.apache.org/https://phoenix.apache.org/http://pig.apache.org/https://prestodb.io/https://spark.apache.org/docs/latest/http://sqoop.apache.org/https://www.tensorflow.org/https://tez.apache.org/https://zeppelin.incubator.apache.org/https://zookeeper.apache.org

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión de la versión de lanzamiento 5.32.0

En las siguientes notas de la versión, se incluye información sobre la versión 5.32.0 de Amazon EMR. Se indican los cambios con respecto a la versión 5.31.0.

Fecha de lanzamiento inicial: 8 de enero de 2021

Actualizaciones

  • Se ha actualizado el conector de Amazon Glue a la versión 1.14.0

  • Se ha actualizado el SDK de Spark para Amazon SageMaker a la versión 1.4.1

  • Se ha actualizado AWS SDK para Java a la versión 1.11.890

  • Se ha actualizado el conector de DynamoDB para EMR a la versión 4.16.0

  • Se ha actualizado EMRFS a la versión 2.45.0

  • Se han actualizado las métricas de análisis de registros de EMR a la versión 1.18.0

  • Se ha actualizado EMR MetricsAndEventsApiGateway Client a la versión 1.5.0

  • Se ha actualizado el servidor de registros de EMR a la versión 1.8.0

  • Se ha actualizado EMR S3 Dist CP a la versión 2.17.0

  • Se ha actualizado EMR Secret Agent a la versión 1.7.0

  • Se ha actualizado Flink a la versión 1.11.2

  • Se ha actualizado Hadoop a la versión 2.10.1-amzn-0

  • Se ha actualizado Hive a la versión 2.3.7-amzn-3

  • Se ha actualizado Hue a la versión 4.8.0

  • Se ha actualizado Mxnet a la versión 1.7.0

  • Se ha actualizado OpenCV a la versión 4.4.0

  • Se ha actualizado Presto a la versión 0.240.1-amzn-0

  • Se actualizó Spark a la versión 2.4.7-amzn-0

  • Se ha actualizado TensorFlow a la versión 2.3.1

Cambios, mejoras y problemas resueltos

Nuevas características

  • A partir de Amazon EMR 5.32.0, se puede iniciar un clúster que esté integrado de forma nativa con Apache Ranger. Apache Ranger es un marco de código abierto que permite habilitar, monitorear y administrar de forma pormenorizada la seguridad de los datos en la plataforma Hadoop. Para obtener más información, consulte Apache Ranger. Con la integración nativa, puede traer su propia instancia de Apache Ranger para aplicar un control pormenorizado en el acceso a los datos de Amazon EMR. Consulte Integración de Amazon EMR con Apache Ranger en la Guía de publicación de Amazon EMR.

  • La versión 5.32.0 de Amazon EMR es compatible con Amazon EMR en EKS. Para obtener más información sobre cómo empezar a utilizar EMR en EKS, consulte What is Amazon EMR on EKS.

  • La versión 5.32.0 de Amazon EMR es compatible con Amazon EMR Studio (versión preliminar). Para obtener más información sobre cómo empezar a utilizar EMR Studio, consulte Amazon EMR Studio (Preview).

Problemas conocidos

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    sudo mkdir -p /etc/systemd/system/instance-controller.service.d/ sudo tee /etc/systemd/system/instance-controller.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF sudo systemctl daemon-reload tee /home/hadoop/restart.sh <<EOS #!/bin/bash while true; do NODEPROVISIONSTATE=' sed -n '/localInstance [{]/,/[}]/{ /nodeProvisionCheckinRecord [{]/,/[}]/ { /status: / { p } /[}]/a } /[}]/a }' /emr/instance-controller/lib/info/job-flow-state.txt | awk { print $2 }' if [ "\$NODEPROVISIONSTATE" == "SUCCESSFUL" ]; then sleep 10; echo "Node Provisioning Completed" echo "Restart IC" sudo systemctl restart instance-controller exit fi sleep 10; done EOS sudo bash /home/hadoop/restart-ic.sh & exit 0
  • importante

    Los clústeres de Amazon EMR que ejecutan AMI de Amazon Linux o Amazon Linux 2 (Amazon Linux Machine Images) utilizan el comportamiento predeterminado de Amazon Linux y no descargan e instalan automáticamente actualizaciones importantes y críticas del kernel que requieran reiniciar. Este es el mismo comportamiento que otras instancias Amazon EC2 que ejecutan la AMI de Amazon Linux predeterminada. Si las nuevas actualizaciones de software de Amazon Linux que requieren reiniciar (por ejemplo, actualizaciones del kernel, NVIDIA y CUDA) están disponibles después del lanzamiento de una versión de EMR, las instancias de clúster de EMR que ejecutan la AMI predeterminada no descargan ni instalan automáticamente dichas actualizaciones. Para obtener actualizaciones del kernel, puede personalizar su AMI de Amazon EMR de manera que utilice la AMI de Amazon Linux más reciente.

  • En la actualidad, no se puede utilizar la consola en la región GovCloud para crear una configuración de seguridad que especifique la opción de integración de AWS Ranger. En su lugar, se puede utilizar la CLI. Consulte Create the EMR Security Configuration en la Guía de administración de Amazon EMR.

Versiones del componente de la versión de lanzamiento 5.32.0

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Versión Descripción
aws-sagemaker-spark-sdk 1.4.1 SDK de Amazon SageMaker Spark
emr-ddb versión 4.16.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.13.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.5.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-notebook-env 1.1.0 Entorno Conda para el bloc de notas emr que incluye la gateway empresarial jupyter
emr-s3-dist-cp 2.17.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.6.0 Conector S3Select de EMR
emrfs 2.45.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.11.2 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
: flink-jobmanager-config 1.11.2 Administración de recursos en nodos de EMR para Apache Flink JobManager.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.10.1-amzn-0 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.10.1-amzn-0 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.10.1-amzn-0 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.10.1-amzn-0 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.10.1-amzn-0 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.10.1-amzn-0 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.10.1-amzn-0 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.10.1-amzn-0 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.10.1-amzn-0 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.10.1-amzn-0 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.10.1-amzn-0 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.13 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.13 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.13 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.13 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.13 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.7-amzn-3 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.7-amzn-3 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.7-amzn-3 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.7-amzn-3 Cliente de línea de comando de Hive.
hive-hbase 2.3.7-amzn-3 Hive-hbase client.
hive-metastore-server 2.3.7-amzn-3 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.7-amzn-3 Servicio para aceptar consultas de Hive como solicitudes web.
hudi 0.6.0-amzn-0 Marco de procesamiento incremental para impulsar la canalización de datos a baja latencia y alta eficiencia.
chispa de Hudi 0.6.0-amzn-0 Biblioteca de paquetes para ejecutar Spark con Hudi.
hudi-presto 0.6.0-amzn-0 Biblioteca de paquetes para ejecutar Presto con Hudi.
hue-server 4.8.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.1.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.7.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.7.0 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mariadb-server 5.5.68 Servidor de bases de datos MySQL.
nvidia-cuda 10.1.243 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.2.0 Cliente de línea de comando de Oozie.
oozie-server 5.2.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 4.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.3-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.3-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.240.1-amzn-0 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.240.1-amzn-0 Service para ejecutar partes de una consulta.
presto-client 0.240.1-amzn-0 Cliente de línea de comandos Presto que se instala en los nodos principales en espera de un clúster de HA donde el servidor Presto no se ha iniciado.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.3 Proyecto R para análisis estadístico
ranger-kms-server 1.2.0 Sistema de administración de claves Apache Ranger
spark-client 2.4.7-amzn-0 Clientes de línea de comando de Spark.
spark-history-server 2.4.7-amzn-0 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.7-amzn-0 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.7-amzn-0 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 2.3.1 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.2 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión de lanzamiento 5.32.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.32.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-executor

Cambie los valores en el archivo container-executor.cfg de Hadoop YARN.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

: docker-conf

Cambie la configuración relacionada con Docker.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

hudi-env

Cambiar los valores en el entorno de Hudi.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.31.0

Versiones de la aplicación de la versión de lanzamiento 5.31.0

En esta versión se admiten las siguientes aplicaciones: [EMPTY]de Gangliosde [EMPTY]de HBasede HCatalogde colmenade [EMPTY]de JupyterHubde [EMPTY]de de Mahoutde MXNetde desnudode de fénixde Cerdode [EMPTY]de chispade [EMPTY]de TensorFlowde Ézde zepelina, y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión de la versión de lanzamiento 5.31.0

En las siguientes notas de la versión se incluye información sobre la versión de publicación 5.31.0 de Amazon EMR. Los cambios son respecto a la versión 5.30.1.

Fecha de publicación inicial: 9 de octubre de 2020

Fecha de última actualización: 15 de octubre de 2020

Actualizaciones

  • Se ha actualizado el conector de Amazon Glue a la versión 1.13.0

  • Se ha actualizado el SDK de Amazon SageMaker Spark a la versión 1.4.0

  • Se ha actualizado el conector de Amazon Kinesis a la versión 3.5.9

  • Se ha actualizado AWS SDK para Java a la versión 1.11.852

  • Se ha actualizado Bigtop-tomcat a la versión 8.5.56

  • Se ha actualizado EMR FS a la versión 2.43.0

  • Se ha actualizado EMR MetricsAndEventsApiGateway Client a la versión 1.4.0

  • Se ha actualizado EMR S3 Dist CP a la versión 2.15.0

  • Se ha actualizado EMR S3 Select a la versión 1.6.0

  • Se ha actualizado Flink a la versión 1.11.0

  • Se ha actualizado Hadoop a la versión 2.10.0

  • Se ha actualizado Hive a la versión 2.3.7

  • Se ha actualizado Hudi a la versión 0.6.0

  • Se ha actualizado Hue a la versión 4.7.1

  • Se actualizó JupyterHub a la versión 1.1.0

  • Se ha actualizado Mxnet a la versión 1.6.0

  • Se ha actualizado OpenCV a la versión 4.3.0

  • Se ha actualizado Presto a la versión 0.238.3

  • Se ha actualizado TensorFlow a la versión 2.1.0

Cambios, mejoras y problemas resueltos

Nuevas características

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    sudo mkdir -p /etc/systemd/system/instance-controller.service.d/ sudo tee /etc/systemd/system/instance-controller.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF sudo systemctl daemon-reload tee /home/hadoop/restart.sh <<EOS #!/bin/bash while true; do NODEPROVISIONSTATE=' sed -n '/localInstance [{]/,/[}]/{ /nodeProvisionCheckinRecord [{]/,/[}]/ { /status: / { p } /[}]/a } /[}]/a }' /emr/instance-controller/lib/info/job-flow-state.txt | awk { print $2 }' if [ "\$NODEPROVISIONSTATE" == "SUCCESSFUL" ]; then sleep 10; echo "Node Provisioning Completed" echo "Restart IC" sudo systemctl restart instance-controller exit fi sleep 10; done EOS sudo bash /home/hadoop/restart-ic.sh & exit 0
  • Con 5.31.0, puede lanzar un clúster que se integre con Lake Formation. Esta integración proporciona un filtrado detallado de datos de nivel de columna a bases de datos y tablas en el catálogo de datos de AWS Glue. También permite un inicio de sesión único federado en blocs de notas de EMR o Apache Zeppelin desde un sistema de identidades de la compañía. Para obtener más información, consulte Integración de con AWS Lake Formation en la Guía de administración de Amazon EMR.

    Amazon EMR con Lake Formation está disponible actualmente en 16 regiones de AWS: EE. UU. Este (Ohio y Norte de Virginia), EE. UU. Oeste (Norte de California y Oregón), Asia Pacífico (Bombay, Seúl, Singapur, Sídney y Tokio), Canadá (Central), Europa (Fráncfort, Irlanda, Londres, París y Estocolmo), América del Sur (São Paulo).

Problemas conocidos

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    nota

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versiones del componente de la versión de lanzamiento 5.31.0

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version ​Descripción
aws-sagemaker-spark-sdk 1.4.0 El Amazonas SageMaker SDK de Spark
emr-ddb 4,15,0 El Amazonas DynamoDB conector para aplicaciones de ecosistema de Hadoop.
emr-goodies 2.13.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.5.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.15.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.6.0 [EMPTY] S3Select Conector
emrfs 2,43,0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.11.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
administrador-de-trabajo-flink-configuración 1.11.0 Administración de recursos en nodos de EMR para Apache Flink JobManager.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2,10,0-amzn-0 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2,10,0-amzn-0 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2,10,0-amzn-0 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2,10,0-amzn-0 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2,10,0-amzn-0 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2,10,0-amzn-0 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2,10,0-amzn-0 Servidor de administración de claves criptográficas basado en Hadoop KeyProvider de la API de.
hadoop-mapred 2,10,0-amzn-0 MapReduce Las bibliotecas del motor de ejecución de para ejecutar un MapReduce aplicación.
hadoop-yarn-nodemanager 2,10,0-amzn-0 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2,10,0-amzn-0 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2,10,0-amzn-0 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.13 Servicio para un HBase El clúster de responsable de la coordinación de regiones de y la ejecución de comandos administrativos de.
hbase-region-server 1.4.13 Servicio para servir a uno o más HBase regiones.
hbase-client 1.4.13 HBase cliente de línea de comandos de.
hbase-rest-server 1.4.13 Servicio que proporciona un RESTful Punto de enlace HTTP para HBase.
hbase-thrift-server 1.4.13 Servicio que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2,37 amperios-1 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2,37 amperios-1 El servicio que proporciona HCatalog, una tabla y una capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2,37 amperios-1 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2,37 amperios-1 Cliente de línea de comando de Hive.
hive-hbase 2,37 amperios-1 Hive-hbase client.
hive-metastore-server 2,37 amperios-1 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2,37 amperios-1 Servicio para aceptar consultas de Hive como solicitudes web.
hudi entre 0,60 y 0 amperios Marco de procesamiento incremental para impulsar la canalización de datos a baja latencia y alta eficiencia.
chispa hudi entre 0,60 y 0 amperios Agrupar biblioteca para ejecutar Spark con Hudi.
hudi-presto entre 0,60 y 0 amperios Biblioteca de paquetes para ejecutar Presto con Hudi.
hue-server 4.7.1. Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.1.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.7.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.6.0 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mariadb-server 5.5.64 MySQL servidor de base de datos.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.2.0 Cliente de línea de comando de Oozie.
oozie-server 5.2.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 4.3.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.3-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.3-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0,238,3-amzn-0 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0,238,3-amzn-0 Service para ejecutar partes de una consulta.
presto-client 0,238,3-amzn-0 Cliente de línea de comandos Presto que se instala en los nodos principales en espera de un clúster de HA donde el servidor Presto no se ha iniciado.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.3 Proyecto R para análisis estadístico
ranger-kms-server 1.2.0 Sistema de administración de claves Apache Ranger
spark-client 2,4,6 amperios-0 Clientes de línea de comando de Spark.
spark-history-server 2,4,6 amperios-0 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2,4,6 amperios-0 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2,4,6 amperios-0 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 2.1.0 TensorFlow librería de software de código abierto para cálculo numérico de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.2 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 ZooKeeper del cliente de línea de comandos de.

Clasificaciones de configuración de la versión de lanzamiento 5.31.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Con clasificaciones de emr-5.31.0
Clasificaciones ​Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR para Apache HBase.

hbase-env

Cambiar valores en HBasedel entorno de.

hbase-log4j

Cambiar valores en HBaseEl archivo hbase-log4j.properties de.

hbase-metrics

Cambiar valores en HBaseEl archivo hadoop-metrics2-hbase.properties de.

hbase-policy

Cambiar valores en HBaseEl archivo hbase-policy.xml de.

hbase-site

Cambiar valores en HBaseEl archivo hbase-site.xml de.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar valores en HCatalogdel entorno de.

hcatalog-server-jndi

Cambiar valores en HCatalogLas propiedades jndi.properties de.

hcatalog-server-proto-hive-site

Cambiar valores en HCatalogde proto-hive-site.xml de.

hcatalog-webhcat-env

Cambiar valores en HCatalog WebHCatdel entorno de.

hcatalog-webhcat-log4j2

Cambiar valores en HCatalog WebHCatde log4j2.properties de.

hcatalog-webhcat-site

Cambiar valores en HCatalog WebHCatEl archivo webhcat-site.xml de.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

hudi-env

Cambiar los valores en el entorno de Hudi.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar valores en JupyterHubsEl archivo jupyterhub_config.py de.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en la MapReduce del entorno de la aplicación.

mapred-site

Cambiar los valores en la MapReduce archivo mapred-site.xml de la aplicación.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambiar valores para el archivo de CA en S3 para MySQL Conexión SSL con Ranger KMS.

recordserver-env

Cambiar valores en el EMR RecordServer del entorno de.

recordserver-conf

Cambiar valores en EMR RecordServerEl archivo erver.properties de.

recordserver-log4j

Cambiar valores en EMR RecordServerEl archivo log4j.properties de.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar valores en Sqoop OraOopdel archivo oraoop-site.xml de.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar valores en ZooKeeperdel archivo zoo.cfg de.

zookeeper-log4j

Cambiar valores en ZooKeeperEl archivo log4j.properties de.

5.30.x

Hay varias versiones en la serie 5.30. Elija un enlace para ver información de una versión específica en esta pestaña.

5.30.1 (La más reciente) | 5.30.0

Amazon EMR Versión 5.30.1

Versiones de la aplicación de la versión de lanzamiento 5.30.1

Las siguientes aplicaciones son compatibles con esta versión: Parpadeo, , Ganglios, , Hadoop, , base, , hcatalog, , Ve, , Tono, , jupyterhub, , Livy, , Mahout, , mxnet, , Oozie, , Phoenix, , Cerdo, , Presto, , Chispa, , Cuadrados, , tensorflujo, , Tez, , Zeppelin, y zookeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión de la versión de lanzamiento 5.30.1

En las siguientes notas de la versión se incluye información sobre la versión de publicación 5.30.1 de Amazon EMR. Los cambios son respecto a la versión 5.30.0.

Fecha de publicación inicial: 30 de junio de 2020

Fecha de última actualización: 24 de agosto de 2020

Cambios, mejoras y problemas resueltos

  • Se ha corregido un problema por el que el proceso del controlador de instancias generaba un número infinito de procesos.

  • Se ha corregido un problema por el que Hue no podía ejecutar una consulta de Hive, mostrando un mensaje "la base de datos está bloqueada" e impidiendo la ejecución de consultas.

  • Se ha corregido un problema de Spark para permitir que más tareas se ejecuten simultáneamente en el clúster de EMR.

  • Se ha corregido un problema de bloc de notas de Jupyter que provocaba un "error de apertura de demasiados archivos" en el servidor Jupyter.

  • Se ha corregido un problema con las horas de comienzo del clúster.

Nuevas características

  • Las interfaces de aplicaciones persistentes del servidor de línea temporal de Tez UI y YARN están disponibles con las versiones 6.x de Amazon EMR y la versión 5.30.1 y posteriores. El acceso de enlace con un solo clic al historial de aplicaciones persistentes le permite acceder rápidamente al historial de trabajos sin configurar un proxy web a través de una conexión SSH. Los registros de clústeres activos y terminados están disponibles durante 30 días después de que finalice la aplicación. Para obtener más información, consulte Ver interfaces de usuario de aplicaciones persistentes en la Guía de administración de Amazon EMR.

  • Las API de ejecución de EMR Notebook están disponibles para ejecutar EMR Notebooks a través de un script o línea de comandos. La capacidad de comenzar, detener, mostrar y describir ejecuciones de EMR Notebook sin que la consola de AWS le permita controlar mediante programación un EMR Notebook. Con una celda de bloc de notas parametrizada, puede pasar diferentes valores de parámetros a un bloc de notas sin tener que crear una copia del bloc de notas para cada nuevo conjunto de valores de parámetros. Consulte Acciones de la API de EMR. Para ver un código de muestra, consulte Comandos de ejemplo para ejecutar EMR Notebooks mediante programación.

Problemas conocidos

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    sudo mkdir -p /etc/systemd/system/instance-controller.service.d/ sudo tee /etc/systemd/system/instance-controller.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF sudo systemctl daemon-reload tee /home/hadoop/restart.sh <<EOS #!/bin/bash while true; do NODEPROVISIONSTATE=' sed -n '/localInstance [{]/,/[}]/{ /nodeProvisionCheckinRecord [{]/,/[}]/ { /status: / { p } /[}]/a } /[}]/a }' /emr/instance-controller/lib/info/job-flow-state.txt | awk { print $2 }' if [ "\$NODEPROVISIONSTATE" == "SUCCESSFUL" ]; then sleep 10; echo "Node Provisioning Completed" echo "Restart IC" sudo systemctl restart instance-controller exit fi sleep 10; done EOS sudo bash /home/hadoop/restart-ic.sh & exit 0
  • Cuadernos de EMR

    La característica que le permite instalar kernels y bibliotecas de Python adicionales en el nodo maestro del clúster está desactivada de forma predeterminada en la versión 5.30.1 de EMR. Para obtener más información acerca de esta característica, consulte Instalación de kernels y bibliotecas de Python en un nodo maestro del clúster.

    Para habilitar la característica, haga lo siguiente:

    1. Asegúrese de que la política de permisos asociada al rol de servicio para EMR Notebooks permite la siguiente acción:

      elasticmapreduce:ListSteps

      Para obtener más información, consulte Rol de servicio para cuadernos de EMR.

    2. Utilice la AWS CLI para ejecutar un paso en el clúster que configure Cuadernos de EMR como se muestra en el siguiente ejemplo. Reemplace us-east-1 por la región en la que reside el clúster. Para obtener más información, consulte Agregar pasos a un clúster mediante la CLI de AWS.

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • Escalado administrado

    Las operaciones de escalado administrado en clústeres 5.30.0 y 5.30.1 sin Presto instalado pueden provocar errores en la aplicación o hacer que un grupo de instancias o una flota de instancias uniforme permanezca en el estado ARRESTED, especialmente cuando a una operación de escalado descendente le sigue inmediatamente una operación de escalado ascendente.

    Como solución alternativa, elija Presto como la aplicación que desea instalar cuando cree un clúster, aunque su trabajo no requiera Presto.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    nota

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versiones del componente de la versión de lanzamiento 5.30.1

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version ​Descripción
aws-sagemaker-spark-sdk 1.3.0 SDK de Amazon SageMaker Spark
emr-ddb 4.14.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.13.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.5.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.14.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.5.0 Conector S3Select de EMR
emrfs 2.40.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.10.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-6 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-6 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-6 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-6 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-6 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-6 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-6 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-6 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-6 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-6 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-6 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.13 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.13 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.13 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.13 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.13 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.6-amzn-2 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.6-amzn-2 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.6-amzn-2 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.6-amzn-2 Cliente de línea de comando de Hive.
hive-hbase 2.3.6-amzn-2 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-2 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.6-amzn-2 Servicio para aceptar consultas de Hive como solicitudes web.
hudi 0.5.2-incubating Marco de procesamiento incremental para impulsar la canalización de datos a baja latencia y alta eficiencia.
hudi-presto 0.5.2-incubating Biblioteca de paquetes para ejecutar Presto con Hudi.
hue-server 4.6.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.1.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.7.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.5.1 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mariadb-server 5.5.64 Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.2.0 Cliente de línea de comando de Oozie.
oozie-server 5.2.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.3-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.3-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.232 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.232 Service para ejecutar partes de una consulta.
presto-client 0.232 Cliente de línea de comandos Presto que se instala en los nodos principales en espera de un clúster de HA donde el servidor Presto no se ha iniciado.
pig-client 0.17.0 Cliente de línea de comando de Pig.
\r 3.4.3 Proyecto R para análisis estadístico
ranger-kms-server 1.2.0 Sistema de administración de claves Apache Ranger
spark-client 2.4.5-amzn-0 Clientes de línea de comando de Spark.
spark-history-server 2.4.5-amzn-0 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.5-amzn-0 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.5-amzn-0 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.14.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.2 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión de lanzamiento 5.30.1

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.30.1
Clasificaciones ​Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

hudi-env

Cambiar los valores en el entorno de Hudi.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

Amazon EMR Versión 5.30.0

Versiones de la aplicación de la versión de lanzamiento 5.30.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión de la versión de lanzamiento 5.30.0

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.30.0 de Amazon EMR. Los cambios son respecto a la versión 5.29.0.

Fecha de lanzamiento inicial: 13 de mayo de 2020

Fecha de última actualización: 25 de junio de 2020

Actualizaciones

  • Se actualizó AWS SDK for Java a la versión 1.11.759

  • Se actualizó el SDK de Amazon SageMaker Spark a la versión 1.3.0

  • Se actualizó el servidor de registros de EMR a la versión 1.6.0

  • Se actualizó Flink a la versión 1.10.0

  • Se actualizó Ganglia a la versión 3.7.2

  • Se actualizó HBase a la versión 1.4.13

  • Se actualizó Hudi a la versión 0.5.2-incubating

  • Se actualizó Hue a la versión 4.6.0

  • Se actualizó JupyterHub a la versión 1.1.0

  • Se actualizó Livy a la versión 0.7.0-incubating

  • Se actualizó Oozie a la versión 5.2.0

  • Se actualizó Presto a la versión 0.232

  • Se actualizó Spark a la versión 2.4.5

  • Conectores y controladores actualizados: Amazon Glue Connector 1.12.0; Amazon Kinesis Connector 3.5.0; EMR DynamoDB Connector 4.14.0

Nuevas características

  • EMR Notebooks: cuando se utilizan con clústeres de EMR creados con 5.30.0, los kernels de Cuaderno de EMR se ejecutan en el clúster. Esto mejora el rendimiento del bloc de notas y le permite instalar y personalizar kernels. También puede instalar bibliotecas de Python en el nodo maestro del clúster. Para obtener más información, consulte Instalación y uso de kernels y bibliotecas en la Guía de administración de EMR.

  • Escalado administrado: Con la versión 5.30.0 y posteriores de Amazon EMR, puede habilitar el escalado administrado por EMR para aumentar o disminuir automáticamente el número de instancias o unidades del clúster en función de la carga de trabajo. EMR evalúa continuamente las métricas del clúster para tomar decisiones de escalado que optimicen los clústeres en cuanto al costo y la velocidad. Para obtener más información, consulte Scaling Cluster Resources en la Guía de administración de Amazon EMR.

  • Cifrar archivos de registro almacenados en Amazon S3: con Amazon EMR versión 5.30.0 y posterior, puede cifrar los archivos de registro almacenados en Amazon S3 con una clave administrada por el cliente de AWS KMS. Para obtener más información, consulte Cifrar archivos de registro almacenados en Amazon S3 en la Guía de administración de Amazon EMR.

  • Compatibilidad con Amazon Linux 2: En la versión 5.30.0 y posterior de EMR, se utiliza el sistema operativo Amazon Linux 2. Las nuevas AMI (Imagen de Amazon Machine) personalizadas deben basarse en la AMI de Amazon Linux 2. Para obtener más información, consulte Uso de una AMI personalizada.

  • Escalado automático de Presto Graceful: Los clústeres de la versión 5.30.0 de EMR se pueden configurar con un período de tiempo de espera de escalado automático que da tiempo a las tareas de Presto para terminar de ejecutarse antes de que su nodo sea retirado. Para obtener más información, consulte Uso del escalado automático de Presto con la retirada estable de nodos.

  • Creación de instancias de flota con nueva opción de estrategia de asignación: una nueva opción de estrategia de asignación está disponible en la versión 5.12.1 y más reciente de EMR. Ofrece aprovisionamiento de clústeres más rápido, asignación de spot más precisa y menos interrupciones de instancias de spot. Se requieren actualizaciones para roles de servicio EMR no predeterminados. Consulte Configurar flotas de instancias.

  • Comandos sudo systemctl stop y sudo systemctl start: en EMR versión 5.30.0 y posterior, que utilizan el sistema operativo Amazon Linux 2, EMR utiliza los comandos sudo systemctl stop y sudo systemctl start para reiniciar los servicios. Para obtener más información, consulte ¿Cómo reinicio un servicio en Amazon EMR?.

Cambios, mejoras y problemas resueltos

  • La versión 5.30.0 de EMR no instala Ganglia de forma predeterminada. Puede seleccionar explícitamente Ganglia para instalar cuando cree un clúster.

  • Optimizaciones de rendimiento de Spark.

  • Optimizaciones de rendimiento de Presto.

  • Python 3 es el predeterminado para la versión 5.30.0 y más recientes de Amazon EMR.

  • El grupo de seguridad administrado predeterminado para el acceso al servicio en subredes privadas se ha actualizado con nuevas reglas. Si utiliza un grupo de seguridad personalizado para el acceso al servicio, debe incluir las mismas reglas que el grupo de seguridad administrado predeterminado. Para obtener más información, consulte Grupo de seguridad administrada por Amazon EMR para el acceso al servicio (Subredes privadas). Si utiliza un rol de servicio personalizado para Amazon EMR, debe conceder permiso a ec2:describeSecurityGroups para que EMR pueda validar si los grupos de seguridad se crean correctamente. Si utiliza EMR_DefaultRole, este permiso ya está incluido en la política administrada predeterminada.

Problemas conocidos

  • Lower "Max open files" limit on older AL2. Amazon EMR releases: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, and emr-6.2.0 are based on older versions of Amazon Linux 2 (AL2), which have a lower ulimit setting for “Max open files” when EMR clusters are created with the default AMI. The lower open file limit causes a "Too many open files" error when submitting Spark job. In the impacted EMR releases, the Amazon EMR default AMI has a default ulimit setting of 4096 for "Max open files," which is lower than the 65536 file limit in the latest Amazon Linux 2 AMI. The lower ulimit setting for "Max open files" causes Spark job failure when the Spark driver and executor try to open more than 4096 files. To fix the issue, Amazon EMR has a bootstrap action (BA) script that adjusts the ulimit setting at cluster creation. Amazon EMR releases 6.3.0 and 5.33.0 will include a permanent fix with a higher "Max open files" setting.

    The following workaround for this issue lets you to explicitly set the instance-controller ulimit to a maximum of 65536 files.

    Explicitly set a ulimit from the command line

    1. Edit /etc/systemd/system/instance-controller.service to add the following parameters to Service section.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Set a ulimit using bootstrap action (BA)

    You can also use a bootstrap action (BA) script to configure the instance-controller ulimit to 65536 files at cluster creation.

    sudo mkdir -p /etc/systemd/system/instance-controller.service.d/ sudo tee /etc/systemd/system/instance-controller.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF sudo systemctl daemon-reload tee /home/hadoop/restart.sh <<EOS #!/bin/bash while true; do NODEPROVISIONSTATE=' sed -n '/localInstance [{]/,/[}]/{ /nodeProvisionCheckinRecord [{]/,/[}]/ { /status: / { p } /[}]/a } /[}]/a }' /emr/instance-controller/lib/info/job-flow-state.txt | awk { print $2 }' if [ "\$NODEPROVISIONSTATE" == "SUCCESSFUL" ]; then sleep 10; echo "Node Provisioning Completed" echo "Restart IC" sudo systemctl restart instance-controller exit fi sleep 10; done EOS sudo bash /home/hadoop/restart-ic.sh & exit 0
  • Escalado administrado

    Las operaciones de escalado administrado en clústeres 5.30.0 y 5.30.1 sin Presto instalado pueden provocar errores en la aplicación o hacer que un grupo de instancias o una flota de instancias uniforme permanezca en el estado ARRESTED, especialmente cuando a una operación de escalado descendente le sigue inmediatamente una operación de escalado ascendente.

    Como solución alternativa, elija Presto como la aplicación que desea instalar cuando cree un clúster, aunque su trabajo no requiera Presto.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    nota

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versiones del componente de la versión de lanzamiento 5.30.0

Componente Version ​Descripción
aws-sagemaker-spark-sdk 1.3.0 SDK de Amazon SageMaker Spark
emr-ddb 4.14.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.13.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.5.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-notebook-env 1.0.0 Entorno Conda para emr notebook
emr-s3-dist-cp 2.14.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.5.0 Conector S3Select de EMR
emrfs 2.40.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.10.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-6 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-6 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-6 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-6 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-6 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-6 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-6 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-6 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-6 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-6 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-6 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.13 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.13 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.13 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.13 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.13 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.6-amzn-2 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.6-amzn-2 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.6-amzn-2 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.6-amzn-2 Cliente de línea de comando de Hive.
hive-hbase 2.3.6-amzn-2 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-2 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.6-amzn-2 Servicio para aceptar consultas de Hive como solicitudes web.
hudi 0.5.2-incubating Marco de procesamiento incremental para impulsar la canalización de datos a baja latencia y alta eficiencia.
hudi-presto 0.5.2-incubating Biblioteca de paquetes para ejecutar Presto con Hudi.
hue-server 4.6.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.1.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.7.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.5.1 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mariadb-server 5.5.64 Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.2.0 Cliente de línea de comando de Oozie.
oozie-server 5.2.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.3-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.3-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.232 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.232 Service para ejecutar partes de una consulta.
presto-client 0.232 Cliente de línea de comandos Presto que se instala en los nodos principales en espera de un clúster de HA donde el servidor Presto no se ha iniciado.
pig-client 0.17.0 Cliente de línea de comando de Pig.
\r 3.4.3 Proyecto R para análisis estadístico
ranger-kms-server 1.2.0 Sistema de administración de claves Apache Ranger
spark-client 2.4.5-amzn-0 Clientes de línea de comando de Spark.
spark-history-server 2.4.5-amzn-0 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.5-amzn-0 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.5-amzn-0 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.14.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.2 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión de lanzamiento 5.30.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.30.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

hudi-env

Cambiar los valores en el entorno de Hudi.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.29.0

Versiones de las aplicaciones de la versión 5.29.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.29.0

Las siguientes notas de la versión incluyen información acerca de la versión de lanzamiento 5.29.0 de Amazon EMR. Los cambios son respecto a la versión 5.28.1.

Fecha de lanzamiento inicial: 17 de enero de 2020

Actualizaciones

  • Actualización de AWS SDK para Java a la versión 1.11.682

  • Actualización de Hive a la versión 2.3.6

  • Actualización de Flink a la versión 1.9.1

  • Actualización de EmrFS a la versión 2.38.0

  • Actualización de EMR DynamoDB Connector a la versión 4.13.0

Cambios, mejoras y problemas resueltos

  • Spark

    • Optimizaciones de rendimiento de Spark.

  • EMRFS

    • La guía de administración se ha actualizado para reflejar la configuración predeterminada de emrfs-site.xml para la vista consistente.

Problemas conocidos

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    nota

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versiones de los componentes de la versión 5.29.0

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.6 SDK de Amazon SageMaker Spark
emr-ddb 4.13.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.12.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.13.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.4.0 Conector S3Select de EMR
emrfs 2.38.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.9.1 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-5 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-5 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-5 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-5 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-5 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-5 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-5 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-5 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-5 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.10 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.10 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.10 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.10 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.10 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.6-amzn-1 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.6-amzn-1 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.6-amzn-1 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.6-amzn-1 Cliente de línea de comando de Hive.
hive-hbase 2.3.6-amzn-1 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-1 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.6-amzn-1 Servicio para aceptar consultas de Hive como solicitudes web.
hudi 0.5.0-incubating Marco de procesamiento incremental para impulsar la canalización de datos a baja latencia y alta eficiencia.
hudi-presto 0.5.0-incubating Biblioteca de paquetes para ejecutar Presto con Hudi.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.0.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.5.1 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.3-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.3-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.227 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.227 Service para ejecutar partes de una consulta.
presto-client 0.227 Cliente de línea de comandos Presto que se instala en los nodos principales en espera de un clúster de HA donde el servidor Presto no se ha iniciado.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.4 Clientes de línea de comando de Spark.
spark-history-server 2.4.4 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.4 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.4 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.14.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.2 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión 5.29.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.29.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.28.x

Hay varias versiones en la serie 5.28. Elija un enlace para ver información de una versión específica en esta pestaña.

5.28.1 (La más reciente) | 5.28.0

Amazon EMR Versión 5.28.1

Versiones de la aplicación de la versión de lanzamiento 5.28.1

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión de la versión de lanzamiento 5.28.1

Las siguientes notas de la versión incluyen información acerca de la versión de lanzamiento 5.28.1 de Amazon EMR. Los cambios son respecto a la versión 5.28.0.

Fecha de lanzamiento inicial: 10 de enero de 2020

Cambios, mejoras y problemas resueltos

  • Spark

    • Se han corregido problemas de compatibilidad con Spark.

  • Métricas de CloudWatch

    • Se ha corregido la publicación de métricas de Amazon CloudWatch en un clúster de EMR con varios nodos maestros.

  • Mensaje de registro deshabilitado

    • Se ha deshabilitado el mensaje de registro falso "...using old version (<4.5.8) of Apache http client" (...está utilizando una versión anterior [<4.5.8] del cliente http de Apache).

Problemas conocidos

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    nota

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versiones del componente de la versión de lanzamiento 5.28.1

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.6 SDK de Amazon SageMaker Spark
emr-ddb 4.12.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.11.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.13.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.3.0 Conector S3Select de EMR
emrfs 2.37.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.9.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-5 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-5 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-5 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-5 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-5 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-5 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-5 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-5 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-5 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.10 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.10 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.10 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.10 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.10 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.6-amzn-0 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.6-amzn-0 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.6-amzn-0 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.6-amzn-0 Cliente de línea de comando de Hive.
hive-hbase 2.3.6-amzn-0 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-0 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.6-amzn-0 Servicio para aceptar consultas de Hive como solicitudes web.
hudi 0.5.0-incubating Marco de procesamiento incremental para impulsar la canalización de datos a baja latencia y alta eficiencia.
hudi-presto 0.5.0-incubating Biblioteca de paquetes para ejecutar Presto con Hudi.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.0.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.5.1 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.3-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.3-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.227 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.227 Service para ejecutar partes de una consulta.
presto-client 0.227 Cliente de línea de comandos Presto que se instala en los nodos principales en espera de un clúster de HA donde el servidor Presto no se ha iniciado.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.4 Clientes de línea de comando de Spark.
spark-history-server 2.4.4 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.4 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.4 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.14.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.2 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión de lanzamiento 5.28.1

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.28.1
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

Amazon EMR Versión 5.28.0

Versiones de la aplicación de la versión de lanzamiento 5.28.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión de la versión de lanzamiento 5.28.0

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.28.0 de Amazon EMR. Los cambios son respecto a la versión 5.27.0.

Fecha de lanzamiento inicial: 12 de noviembre de 2019

Actualizaciones

  • Actualización de Flink a la versión 1.9.0

  • Actualización de Hive a la versión 2.3.6

  • Actualización de MXNet a la versión 1.5.1

  • Actualización de Phoenix a la versión 4.14.3

  • Actualización de Presto a la versión 0.227

  • Actualización de Zeppelin a la versión 0.8.2

Nuevas características

  • Ahora está disponible Apache Hudi para que Amazon EMR lo instale al crear un clúster. Para obtener más información, consulte Hudi.

  • (25 de noviembre de 2019) Ahora puede ejecutar varios pasos en paralelo para mejorar la utilización del clúster y ahorrar costos. También puede cancelar los pasos pendientes y los pasos que estén en ejecución. Para obtener más información, consulte Trabajo con pasos utilizando la AWS CLI y la consola.

  • (3 de diciembre de 2019) Ahora, puede crear y ejecutar clústeres de EMR en AWS Outposts. AWS Outposts dispone de servicios, infraestructuras y modelos operativos nativos de AWS para prácticamente cualquier instalación local. En los entornos de AWS Outposts, puede utilizar las mismas API, herramientas e infraestructura de AWS que utiliza en la nube de AWS. Para obtener más información, consulte este artículo sobre los clústeres de EMR en AWS Outposts.

  • (11 de marzo de 2020) A partir de la Amazon EMR versión 5.28.0, puede crear y ejecutar clústeres de Amazon EMR en una subred Zonas locales de AWS como una extensión lógica de una región de AWS compatible con Zonas locales. Una Zona local permite que las características de Amazon EMR y un subconjunto de servicios de AWS, como los servicios informáticos y de almacenamiento, se encuentren más cerca de los usuarios, lo que proporciona un acceso de latencia muy baja a las aplicaciones que se ejecutan localmente. Para ver la lista de Zonas locales disponibles, consulte Zonas locales de AWS. Para obtener información acerca del acceso a Zonas locales de AWS disponibles, consulte Regiones, zonas de disponibilidad y zonas locales.

    En la actualidad, Zonas locales no es compatible con Amazon EMR Notebooks y no permite realizar conexiones directamente con Amazon EMR utilizando el punto de enlace de la VPC de la interfaz (AWS PrivateLink).

Cambios, mejoras y problemas resueltos

Problemas conocidos

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    nota

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versiones del componente de la versión de lanzamiento 5.28.0

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.6 SDK de Amazon SageMaker Spark
emr-ddb 4.12.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.11.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.13.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.3.0 Conector S3Select de EMR
emrfs 2.37.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.9.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-5 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-5 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-5 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-5 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-5 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-5 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-5 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-5 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-5 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-5 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-5 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.10 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.10 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.10 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.10 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.10 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.6-amzn-0 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.6-amzn-0 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.6-amzn-0 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.6-amzn-0 Cliente de línea de comando de Hive.
hive-hbase 2.3.6-amzn-0 Hive-hbase client.
hive-metastore-server 2.3.6-amzn-0 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.6-amzn-0 Servicio para aceptar consultas de Hive como solicitudes web.
hudi 0.5.0-incubating Marco de procesamiento incremental para impulsar la canalización de datos a baja latencia y alta eficiencia.
hudi-presto 0.5.0-incubating Biblioteca de paquetes para ejecutar Presto con Hudi.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.0.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.5.1 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.3-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.3-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.227 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.227 Service para ejecutar partes de una consulta.
presto-client 0.227 Cliente de línea de comandos Presto que se instala en los nodos principales en espera de un clúster de HA donde el servidor Presto no se ha iniciado.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.4 Clientes de línea de comando de Spark.
spark-history-server 2.4.4 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.4 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.4 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.14.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.2 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión de lanzamiento 5.28.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones de emr-5.28.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.27.0

Versiones de las aplicaciones de la versión 5.27.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.27.0

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.27.0 de Amazon EMR. Los cambios son respecto a la versión 5.26.0.

Fecha de lanzamiento inicial: 23 de agosto de 2019

Actualizaciones

  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • Tensorflow 1.14.0

  • Conectores y controladores:

    • DynamoDB Connector 4.12.0

Nuevas características

  • (24 de octubre de 2019) Las siguientes características nuevas en blocs de notas de EMR están disponibles con todas las versiones de Amazon EMR.

    • Puede asociar repositorios de Git con sus blocs de notas de EMR para guardar los blocs de notas en un entorno con control de versiones. Puede compartir código con compañeros y reutilizar los blocs de notas de Jupyter existentes a través de repositorios de Git remotos. Para obtener más información, consulte Asociar repositorios de Git con blocs de notas de Amazon EMR en la Guía de administración de Amazon EMR.

    • La utilidad nbdime ahora está disponible en EMR Notebooks para simplificar la comparación y fusión de blocs de notas. Â

    • Los blocs de notas de EMR ahora admiten JupyterLab. JupyterLab es un entorno de desarrollo interactivo basado en la Web que es completamente compatible con los bloc de notas de Jupyter. Ahora, puede elegir si desea abrir un bloc de notas en JupyterLab o en el editor de blocs de notas de Jupyter.

  • (30 de octubre de 2019) Con la versión 5.25.0 de Amazon EMR y posteriores, puede conectar a la interfaz de usuario del servidor del historial de Spark desde la página Summary (Resumen) del clúster o desde la pestaña Application history (Historial de aplicaciones) de la consola. En lugar de configurar un proxy web a través de una conexión SSH, puede acceder rápidamente a la interfaz de usuario del servidor del historial de Spark para ver métricas de aplicación y acceder a archivos de registro pertinentes para los clústeres activos y terminados. Para obtener más información, consulte Acceso fuera de clúster a interfaces de usuario de aplicaciones persistentes en la Guía de administración de Amazon EMR.

Cambios, mejoras y problemas resueltos

Problemas conocidos

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    nota

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versiones de los componentes de la versión 5.27.0

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.4 SDK de Amazon SageMaker Spark
emr-ddb 4.12.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.11.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.13.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.3.0 Conector S3Select de EMR
emrfs 2.36.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.8.1 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-4 Los clientes de línea de comando de Hadoop como, por ejemplo "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode 2.8.5-amzn-4 Servicio de nivel de nodos de HDFS para el almacenamiento de bloques.
hadoop-hdfs-library 2.8.5-amzn-4 Biblioteca y cliente de línea de comandos HDFS
hadoop-hdfs-namenode 2.8.5-amzn-4 Servicio de HDFS para realizar un seguimiento de nombres de archivo y bloquear ubicaciones.
Hadoop-hdfs-journalnode 2.8.5-amzn-4 Servicio de HDFS para administrar los archivos de Hadoop periódico en clústeres de alta disponibilidad.
hadoop-httpfs-server 2.8.5-amzn-4 Punto de enlace HTTP para operaciones HDFS.
hadoop-kms-server 2.8.5-amzn-4 Servidor de administración de claves criptográficas basado en el API KeyProvider de Hadoop.
hadoop-mapred 2.8.5-amzn-4 Bibliotecas de motor de ejecución de MapReduce para ejecutar una aplicación de MapReduce.
hadoop-yarn-nodemanager 2.8.5-amzn-4 Servicio de YARN para la administración de contenedores en un nodo individual.
hadoop-yarn-resourcemanager 2.8.5-amzn-4 Servicio de YARN para la asignación y administración de recursos de clúster y aplicaciones distribuidas.
hadoop-yarn-timeline-server 2.8.5-amzn-4 Servicio para recuperar información actual e histórica para aplicaciones de YARN.
hbase-hmaster 1.4.10 Servicio para un clúster de HBase responsable de la coordinación de regiones y ejecución de comandos administrativos.
hbase-region-server 1.4.10 Servicio que atiende a una o varias regiones de HBase.
hbase-client 1.4.10 Cliente de línea de comando de HBase.
hbase-rest-server 1.4.10 Servicio que proporciona un punto de enlace HTTP RESTful para HBase.
hbase-thrift-server 1.4.10 Service que proporciona un punto de enlace de Thrift a HBase.
hcatalog-client 2.3.5-amzn-1 El cliente de línea de comando "hcat" para manipular hcatalog-server.
hcatalog-server 2.3.5-amzn-1 Service que proporciona a HCatalog, una tabla y capa de administración de almacenamiento para aplicaciones distribuidas.
hcatalog-webhcat-server 2.3.5-amzn-1 Punto de enlace HTTP que proporciona una interfaz REST a HCatalog.
hive-client 2.3.5-amzn-1 Cliente de línea de comando de Hive.
hive-hbase 2.3.5-amzn-1 Hive-hbase client.
hive-metastore-server 2.3.5-amzn-1 Service para acceder al metaalmacén de Hive, un repositorio semántico que almacena metadatos para SQL en operaciones de Hadoop.
hive-server2 2.3.5-amzn-1 Servicio para aceptar consultas de Hive como solicitudes web.
hue-server 4.4.0 Aplicación web para analizar datos con aplicaciones del ecosistema de Hadoop
jupyterhub 1.0.0 Servidor multiusuario para blocs de notas Jupyter
livy-server 0.6.0-incubating Interfaz de REST para interactuar con Apache Spark
nginx 1.12.1 nginx [engine x] es un servidor HTTP y proxy inverso
mahout-client 0.13.0 Biblioteca para aprendizaje automático.
mxnet 1.4.0 Una biblioteca flexible, escalable y eficiente para el aprendizaje profundo.
mysql-server 5.5.54+ Servidor de bases de datos MySQL.
nvidia-cuda 9.2.88 Controladores Nvidia y conjunto de herramientas Cuda
oozie-client 5.1.0 Cliente de línea de comando de Oozie.
oozie-server 5.1.0 Servicio para aceptar solicitudes de flujo de trabajo de Oozie.
opencv 3.4.0 Biblioteca de visión artificial de código abierto.
phoenix-library 4.14.2-HBase-1.4 Las bibliotecas de Phoenix para servidor y cliente
phoenix-query-server 4.14.2-HBase-1.4 Un servidor ligero que proporciona acceso a JDBC, así como acceso de formato Protocol Buffers y JSON al API de Avatica
presto-coordinator 0.224 Servicio para aceptar las consultas y administrar la ejecución de consultas entre presto-workers.
presto-worker 0.224 Service para ejecutar partes de una consulta.
pig-client 0.17.0 Cliente de línea de comando de Pig.
r 3.4.1 Proyecto R para análisis estadístico
spark-client 2.4.4 Clientes de línea de comando de Spark.
spark-history-server 2.4.4 IU web para la visualización de eventos registrados durante la vida útil de una aplicación Spark completada.
spark-on-yarn 2.4.4 Motor de ejecución en memoria para YARN.
spark-yarn-slave 2.4.4 Bibliotecas de Apache Spark necesarias para esclavos de YARN.
sqoop-client 1.4.7 Cliente de línea de comando de Apache Sqoop.
tensorflow 1.14.0 Biblioteca de software de código abierto de TensorFlow para cálculos numéricos de alto rendimiento.
tez-on-yarn 0.9.2 La aplicación YARN de tez y bibliotecas.
webserver 2.4.25+ Servidor HTTP de Apache.
zeppelin-server 0.8.1 Bloc de notas basado en web que permite el análisis de datos interactivo.
zookeeper-server 3.4.14 Servicio centralizado para mantener información de configuración, nomenclatura, proporcionar sincronización distribuida y proporcionar servicios de grupo.
zookeeper-client 3.4.14 Cliente de línea de comando de ZooKeeper.

Clasificaciones de configuración de la versión 5.27.0

Las clasificaciones de configuración le permiten personalizar aplicaciones. Normalmente, se corresponden con un archivo de configuración XML de la aplicación, como hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Clasificaciones emr-5.27.0
Clasificaciones Descripción

capacity-scheduler

Cambiar los valores en el archivo capacity-scheduler.xml de Hadoop.

container-log4j

Cambiar los valores en el archivo container-log4j.properties de Hadoop YARN.

core-site

Cambiar los valores en el archivo core-site.xml de Hadoop.

emrfs-site

Cambiar la configuración de EMRFS.

flink-conf

Cambiar la configuración de flink-conf.yaml.

flink-log4j

Cambiar la configuración de log4j.properties de Flink.

flink-log4j-yarn-session

Cambiar la configuración de log4j-yarn-session.properties de Flink.

flink-log4j-cli

Cambiar la configuración de log4j-cli.properties de Flink.

hadoop-env

Cambiar los valores en el entorno de Hadoop para todos los componentes de Hadoop.

hadoop-log4j

Cambiar los valores en el archivo log4j.properties de Hadoop.

hadoop-ssl-server

Cambiar la configuración del servidor ssl de Hadoop

hadoop-ssl-client

Cambiar la configuración del cliente ssl de Hadoop

hbase

Configuración de Amazon EMR mantenida para Apache HBase.

hbase-env

Cambiar los valores en el entorno de HBase.

hbase-log4j

Cambiar los valores en el archivo hbase-log4j.properties de HBase.

hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de HBase.

hbase-policy

Cambiar los valores en el archivo hbase-policy.xml de HBase.

hbase-site

Cambiar los valores en el archivo hbase-site.xml de HBase.

hdfs-encryption-zones

Configurar zonas de cifrado de HDFS.

hdfs-site

Cambiar los valores en hdfs-site.xml de HDFS.

hcatalog-env

Cambiar los valores en el entorno de HCatalog.

hcatalog-server-jndi

Cambiar los valores en jndi.properties de HCatalog.

hcatalog-server-proto-hive-site

Cambiar los valores en proto-hive-site.xml de HCatalog.

hcatalog-webhcat-env

Cambiar los valores en el entorno de HCatalog WebHCat.

hcatalog-webhcat-log4j2

Cambiar los valores en log4j2.properties de HCatalog WebHCat.

hcatalog-webhcat-site

Cambiar los valores en el archivo webhcat-site.xml de HCatalog WebHCat.

hive-beeline-log4j2

Cambiar los valores en el archivo beeline-log4j2.properties de Hive.

hive-parquet-logging

Cambiar los valores en el archivo parquet-logging.properties de Hive.

hive-env

Cambiar los valores en el entorno de Hive.

hive-exec-log4j2

Cambiar los valores en el archivo hive-exec-log4j2.properties de Hive.

hive-llap-daemon-log4j2

Cambiar los valores en el archivo llap-daemon-log4j2.properties de Hive.

hive-log4j2

Cambiar los valores en el archivo hive-log4j2.properties de Hive.

hive-site

Cambiar los valores en el archivo hive-site.xml de Hive.

hiveserver2-site

Cambiar los valores en el archivo hiveserver2-site.xml de Hive Server2.

hue-ini

Cambiar los valores en el archivo ini de Hue

httpfs-env

Cambiar los valores en el entorno de HTTPFS.

httpfs-site

Cambiar los valores en el archivo httpfs-site.xml de Hadoop.

hadoop-kms-acls

Cambiar los valores en el archivo kms-acls.xml de Hadoop.

hadoop-kms-env

Cambiar los valores en el entorno de Hadoop KMS.

hadoop-kms-log4j

Cambiar los valores en el archivo kms-log4j.properties de Hadoop.

hadoop-kms-site

Cambiar los valores en el archivo kms-site.xml de Hadoop.

jupyter-notebook-conf

Cambiar los valores en el archivo jupyter_notebook_config.py de Jupyter Notebook.

jupyter-hub-conf

Cambiar los valores en el archivo jupyterhub_config.py de JupyterHubs.

jupyter-s3-conf

Configurar la persistencia en S3 del bloc de notas de Jupyter.

jupyter-sparkmagic-conf

Cambiar los valores en el archivo config.json de Sparkmagic.

livy-conf

Cambiar los valores en el archivo livy.conf de Livy.

livy-env

Cambiar los valores en el entorno de Livy.

livy-log4j

Cambiar la configuración de log4j.properties de Livy.

mapred-env

Cambiar los valores en el entorno de aplicación de MapReduce.

mapred-site

Cambiar los valores en el archivo mapred-site.xml de la aplicación MapReduce.

oozie-env

Cambiar los valores en el entorno de Oozie.

oozie-log4j

Cambiar los valores en el archivo oozie-log4j.properties de Oozie.

oozie-site

Cambiar los valores en el archivo oozie-site.xml de Oozie.

phoenix-hbase-metrics

Cambiar los valores en el archivo hadoop-metrics2-hbase.properties de Phoenix.

phoenix-hbase-site

Cambiar los valores en el archivo hbase-site.xml de Phoenix.

phoenix-log4j

Cambiar los valores en el archivo log4j.properties de Phoenix.

phoenix-metrics

Cambiar los valores en el archivo hadoop-metrics2-phoenix.properties de Phoenix.

pig-env

Cambiar los valores en el entorno de Pig.

pig-properties

Cambiar los valores en el archivo pig.properties de Pig.

pig-log4j

Cambiar los valores en el archivo log4j.properties de Pig.

presto-log

Cambiar los valores en el archivo log.properties de Presto.

presto-config

Cambiar los valores en el archivo config.properties de Presto.

presto-password-authenticator

Cambiar los valores en el archivo password-authenticator.properties de Presto.

presto-env

Cambiar valores en el archivo presto-env.sh de Presto.

presto-node

Cambiar valores en el archivo node.properties de Presto.

presto-connector-blackhole

Cambiar los valores en el archivo blackhole.properties de Presto.

presto-connector-cassandra

Cambiar los valores en el archivo cassandra.properties de Presto.

presto-connector-hive

Cambiar los valores en el archivo hive.properties de Presto.

presto-connector-jmx

Cambiar los valores en el archivo jmx.properties de Presto.

presto-connector-kafka

Cambiar los valores en el archivo kafka.properties de Presto.

presto-connector-localfile

Cambiar los valores en el archivo localfile.properties de Presto.

presto-connector-memory

Cambiar los valores del archivo memory.properties de Presto.

presto-connector-mongodb

Cambiar los valores en el archivo mongodb.properties de Presto.

presto-connector-mysql

Cambiar los valores en el archivo mysql.properties de Presto.

presto-connector-postgresql

Cambiar los valores en el archivo postgresql.properties de Presto.

presto-connector-raptor

Cambiar los valores en el archivo raptor.properties de Presto.

presto-connector-redis

Cambiar los valores en el archivo redis.properties de Presto.

presto-connector-redshift

Cambiar los valores en el archivo redshift.properties de Presto.

presto-connector-tpch

Cambiar los valores en el archivo tpch.properties de Presto.

presto-connector-tpcds

Cambiar los valores del archivo tpcds.properties de Presto.

ranger-kms-dbks-site

Cambie los valores del archivo dbks-site.xml de Ranger KMS.

ranger-kms-site

Cambie los valores del archivo ranger-kms-site.xml de Ranger KMS.

ranger-kms-env

Cambie los valores del entorno Ranger KMS.

ranger-kms-log4j

Cambie los valores del archivo kms-log4j.properties de Ranger KMS.

ranger-kms-db-ca

Cambie los valores del archivo CA en S3 para la conexión SSL de MySQL con Ranger KMS.

recordserver-env

Cambiar los valores en el entorno de EMR RecordServer.

recordserver-conf

Cambiar los valores en el archivo server.properties de EMR RecordServer.

recordserver-log4j

Cambiar los valores en el archivo log4j.properties de EMR RecordServer.

spark

Configuración de Amazon EMR mantenida para Apache Spark.

spark-defaults

Cambiar los valores en el archivo spark-defaults.conf de Spark.

spark-env

Cambiar los valores en el entorno de Spark.

spark-hive-site

Cambiar los valores en el archivo hive-site.xml de Spark.

spark-log4j

Cambiar los valores en el archivo log4j.properties de Spark.

spark-metrics

Cambiar los valores en el archivo metrics.properties de Spark.

sqoop-env

Cambiar los valores en el entorno de Sqoop.

sqoop-oraoop-site

Cambiar los valores en el archivo oraoop-site.xml de Sqoop OraOop.

sqoop-site

Cambiar los valores en el archivo sqoop-site.xml de Sqoop.

tez-site

Cambiar los valores en el archivo tez-site.xml de Tez.

yarn-env

Cambiar los valores en el entorno de YARN.

yarn-site

Cambiar los valores en el archivo yarn-site.xml de YARN.

zeppelin-env

Cambiar los valores en el entorno de Zeppelin.

zookeeper-config

Cambiar los valores del archivo zoo.cfg de ZooKeeper.

zookeeper-log4j

Cambiar los valores en el archivo log4j.properties de ZooKeeper.

5.26.0

Versiones de las aplicaciones de la versión 5.26.0

Las siguientes aplicaciones son compatibles con esta versión: Flink, Ganglia, Hadoop, HBase, HCatalog, Hive, Hue, JupyterHub, Livy, Mahout, MXNet, Oozie, Phoenix, Pig, Presto, Spark, Sqoop, TensorFlow, Tez, Zeppelin y ZooKeeper.

En el diagrama siguiente, se muestran las versiones de la aplicación disponibles para esta versión de Amazon EMR y las de las cuatro versiones anteriores de Amazon EMR.

Para ver un historial completo de las versiones de la aplicación disponibles para cada versión de Amazon EMR, consulte los diagramas siguientes:

Notas de la versión 5.26.0

Las siguientes notas de la versión incluyen información sobre la versión de lanzamiento 5.26.0 de Amazon EMR. Los cambios son respecto a la versión 5.25.0.

Fecha de lanzamiento inicial: 8 de agosto de 2019

Fecha de última actualización: 19 de abril de 2019

Actualizaciones

  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • Conectores y controladores:

    • DynamoDB Connector 4.11.0

    • MariaDB Connector 2.4.2

    • Amazon Redshift JDBC Driver 1.2.32.1056

Nuevas características

  • (Beta) Con Amazon EMR 5.26.0, puede lanzar un clúster que se integre con Lake Formation. Esta integración proporciona acceso detallado de nivel de columna a bases de datos y tablas en AWS Glue Data Catalog. También permite un inicio de sesión único federado en blocs de notas de EMR o Apache Zeppelin desde un sistema de identidades de la compañía. Para obtener más información, consulte Integración de Amazon EMR con AWS Lake Formation (Beta).

  • (19 de agosto de 2019) Block Public Access de Amazon EMR está ahora disponible con todas las versiones de Amazon EMR que admiten grupos de seguridad. Block Public Access es una configuración en toda la cuenta que se aplica a cada región de AWS. Block Public Access evita que un clúster se ejecute cuando un grupo de seguridad asociado con el clúster disponga de una regla que permita el tráfico de entrada desde IPv4 0.0.0.0/0 o IPv6 ::/0 (acceso público) en un puerto, a no ser que el puerto se especifique como excepción. El puerto 22 es una excepción de forma predeterminada. Para obtener más información, consulte Uso de Amazon EMR Block Public Access en la Guía de administración de Amazon EMR.

Cambios, mejoras y problemas resueltos

  • Cuadernos de EMR

    • Con EMR 5.26.0 y versiones posteriores, Cuadernos de EMR admite bibliotecas Python adaptadas al bloc de notas además de bibliotecas Python predeterminadas. Puede instalar bibliotecas adaptadas al bloc de notas desde el editor de blocs de notas sin tener que volver a crear un clúster o volver a asociar un bloc de notas a un clúster. Las bibliotecas adaptadas al bloc de notas se crean en el entorno virtual de Python, por lo que se aplican solo a la sesión de bloc de notas actual. Esto le permite aislar dependencias del bloc de notas. Para obtener más información, consulte Uso de bibliotecas adaptadas al bloc de notas en la Guía de administración de Amazon EMR.

  • EMRFS

    • Puede habilitar una característica de verificación de ETag (Beta) estableciendo fs.s3.consistent.metadata.etag.verification.enabled en true. Con esta característica, EMRFS utiliza las ETags de Amazon S3 para comprobar que los objetos leídos tienen la última versión disponible. Esta característica resulta útil para casos de uso de lectura después de la actualización en los que los archivos de Amazon S3 se sobrescriben conservando el mismo nombre. Esta capacidad de comprobación de ETag no funciona actualmente con S3 Select. Para obtener más información, consulte Configuración de vista consistente.

  • Spark

    • Las siguientes optimizaciones se encuentran ahora habilitadas de forma predeterminada: reducción dinámica de particiones, DISTINCT antes de INTERSECT, mejoras en la interferencia de estadísticas del plan SQL para consultas JOIN seguido de DISTINCT, aplanamiento de subconsultas escalares, reordenación de unión optimizada y unión de filtros de Bloom. Para obtener más información, consulte Optimización de rendimiento de Spark.

    • Se ha mejorado la generación de todo el código de fase para Sort Merge Join.

    • Se ha mejorado la reutilización de subconsultas y de fragmentos de consultas.

    • Se han realizado mejoras para asignar previamente los ejecutores en el inicio de Spark.

    • Las uniones de filtro de Bloom ya no se aplican cuando la parte más pequeña de la unión incluye una sugerencia de difusión.

  • Tez

    • Se ha resuelto un problema con Tez. La IU de Tez funciona ahora en Clúster de EMR con varios nodos principales.

Problemas conocidos

  • Las capacidades mejoradas de generación de todo el código de fase para Sort Merge Join pueden aumentar la presión de la memoria cuando se habilitan. Esta optimización mejora el rendimiento, pero puede provocar reintentos en las tareas o errores si no se ajusta spark.yarn.executor.memoryOverheadFactor para proporcionar suficiente memoria. Para deshabilitar esta característica, establezca spark.sql.sortMergeJoinExec.extendedCodegen.enabled en false.

  • Known issue in clusters with multiple master nodes and Kerberos authentication

    If you run clusters with multiple master nodes and Kerberos authentication in EMR releases 5.20.0 and later, you may encounter problems with cluster operations such as scale down or step submission, after the cluster has been running for some time. The time period depends on the Kerberos ticket validity period that you defined. The scale-down problem impacts both automatic scale-down and explicit scale down requests that you submitted. Additional cluster operations can also be impacted.

    Workaround:

    • SSH as hadoop user to the lead master node of the EMR cluster with multiple master nodes.

    • Run the following command to renew Kerberos ticket for hadoop user.

      kinit -kt <keytab_file> <principal>

      Typically, the keytab file is located at /etc/hadoop.keytab and the principal is in the form of hadoop/<hostname>@<REALM>.

    nota

    This workaround will be effective for the time period the Kerberos ticket is valid. This duration is 10 hours by default, but can configured by your Kerberos settings. You must re-run the above command once the Kerberos ticket expires.

Versiones de los componentes de la versión 5.26.0

A continuación, se detallan los componentes que Amazon EMR instala con esta versión. Algunos se instalan como parte de paquetes de aplicación de Big Data. Otros son exclusivos de Amazon EMR y se instalan para ciertos procesos y características del sistema. Normalmente, estos componentes comienzan con emr o aws. Normalmente, los paquetes de aplicación de Big Data de la versión más reciente de Amazon EMR son las versiones más recientes que pueden encontrarse en la comunidad. Intentamos que los paquetes de la comunidad estén disponibles en Amazon EMR lo más rápido posible.

Algunos componentes de Amazon EMR son distintos de las versiones de la comunidad. Estos componentes tienen una etiqueta de versión con el formato CommunityVersion-amzn-EmrVersion. La EmrVersion empieza por 0. Por ejemplo, si un componente de la comunidad de Open Source llamado myapp-component con la versión 2.2 se ha modificado tres veces para ser incluido en diferentes versiones de lanzamiento de Amazon EMR, la versión que se mostrará será 2.2-amzn-2.

Componente Version Descripción
aws-sagemaker-spark-sdk 1.2.4 SDK de Amazon SageMaker Spark
emr-ddb 4.11.0 Conector de Amazon DynamoDB para aplicaciones del ecosistema de Hadoop.
emr-goodies 2.10.0 Bibliotecas especialmente prácticas para el ecosistema de Hadoop.
emr-kinesis 3.4.0 Conector de Amazon Kinesis para aplicaciones del ecosistema de Hadoop.
emr-s3-dist-cp 2.12.0 Aplicación de copia distribuida optimizada para Amazon S3.
emr-s3-select 1.3.0 Conector S3Select de EMR
emrfs 2.35.0 Conector de Amazon S3 para aplicaciones del ecosistema de Hadoop.
flink-client 1.8.0 Scripts y aplicaciones de cliente de línea de comando de Apache Flink.
ganglia-monitor 3.7.2 Agente de Ganglia incrustado para aplicaciones del ecosistema de Hadoop junto con el agente de monitorización de Ganglia.
ganglia-metadata-collector 3.7.2 Recopilador de metadatos de Ganglia para agregación de métricas a partir de los agentes de monitorización de Ganglia.
ganglia-web 3.7.1 Aplicación web para visualizar las métricas recopiladas por el recopilador de metadatos de Ganglia.
hadoop-client 2.8.5-amzn-4