Archivo de notas de la versión de Amazon EMR
Las notas de la versión de todas las versiones de Amazon EMR están disponibles a continuación. Para ver información de la versión completa para cada versión, consulte Versiones de lanzamiento de Amazon EMR 6.x, Versiones de lanzamiento de Amazon EMR 5.x y Versiones de lanzamiento de Amazon EMR 4.x.
Para recibir actualizaciones cuando haya una nueva versión de Amazon EMR disponible, suscríbase a la fuente RSS de las notas de la versión de Amazon EMR.
Versión 6.14.0
Las siguientes notas de la versión incluyen información sobre la versión 6.14.0 de Amazon EMR. Los cambios son respecto a la versión 6.13.0. Para obtener información sobre el cronograma de lanzamiento, consulte el Registro de cambios de la versión 6.14.0.
Nuevas características
-
Amazon EMR 6.14.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-2, Flink 1.17.1, Iceberg 1.3.1, and Trino 422.
-
El Escalado administrado de Amazon EMR ya está disponible en la región Asia-Pacífico (Yakarta)
ap-southeast-3
para los clústeres que cree con Amazon EMR 6.14.0 y versiones posteriores.
Cambios, mejoras y problemas resueltos
-
La versión 6.14.0 optimiza la administración de registros con Amazon EMR en ejecución en Amazon EC2. Como resultado, es posible que observe una pequeña reducción en los costos de almacenamiento de los registros de su clúster.
-
La versión 6.14.0 mejora el flujo de trabajo de escalado para tener en cuenta las diferentes instancias principales que tienen una variación sustancial de tamaño en sus volúmenes de Amazon EBS. Esta mejora se aplica únicamente a los nodos principales; las operaciones de reducción vertical de la escala de los nodos de tareas no se ven afectadas.
-
La versión 6.14.0 mejora la forma en que Amazon EMR interactúa con aplicaciones de código abierto, como Apache Hadoop YARN ResourceManager and HDFS NameNode. Esta mejora reduce el riesgo de que se produzcan retrasos operativos relacionados con el escalado de clústeres y mitiga las fallas en el arranque que se producen debido a problemas de conectividad con las aplicaciones de código abierto.
-
La versión 6.14.0 optimiza la instalación de las aplicaciones durante el lanzamiento del clúster. Esto reduce la cantidad necesaria de tiempo para que arranque el clúster para determinadas combinaciones de aplicaciones de Amazon EMR.
-
La versión 6.14.0 corrige un problema por el que las operaciones de reducción vertical de la escala del clúster se interrumpen cuando un clúster que se ejecuta en una VPC con un dominio personalizado experimenta el reinicio de un nodo de tareas o nodo principal.
Al lanzar un clúster con la versión de parche más reciente de Amazon EMR 5.36, 6.6 o 7.0 o sus respectivas versiones posteriores, Amazon EMR utiliza la versión más reciente de Amazon Linux 2023 o Amazon Linux 2 para la AMI de Amazon EMR predeterminada. Para más información, consulte Uso de la AMI de Amazon Linux predeterminada para Amazon EMR.
OsReleaseLabel (versión de Amazon Linux) Versión de kernel de Amazon Linux Fecha de disponibilidad Regiones admitidas 2.0.20240709.1 4.14.348 23 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Asia-Pacífico (Hyderabad), Oriente Medio (EAU), Europa (España), Europa (Zúrich); Asia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste de Canadá (Calgary) 2.0.20240223.0 4.14.336 8 de marzo de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240131.0 4.14.336 14 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240124.0 4.14.336 7 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240109.0 4.14.334 24 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20231218.0 4.14.330 2 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231206.0 4.14.330 22 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231116.0 4.14.328 11 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231101.0 4.14.327 17 de noviembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20230906.0 4.14.322 11 de septiembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv)
Versión 6.13.0
Las siguientes notas de la versión incluyen información sobre la versión 6.13.0 de Amazon EMR. Los cambios son respecto a la versión 6.12.0. Para obtener información sobre el cronograma de lanzamiento, consulte el Registro de cambios de la versión 6.13.0.
Nuevas características
-
Amazon EMR 6.13.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-1, CUDA Toolkit 11.8.0, and JupyterHub 1.5.0.
Cambios, mejoras y problemas resueltos
-
La versión 6.13.0 mejora el daemon de administración de registros de Amazon EMR para garantizar que todos los registros se carguen a una cadencia normal en Amazon S3 cuando se emite un comando de terminación de clúster. Esto facilita que los clústeres se terminen de forma más rápida.
-
La versión 6.13.0 mejora las capacidades de administración de registros de Amazon EMR para garantizar la carga coherente y puntual de todos los archivos de registro a Amazon S3. Esto beneficia especialmente a los clústeres de EMR de ejecución prolongada.
Al lanzar un clúster con la versión de parche más reciente de Amazon EMR 5.36, 6.6 o 7.0 o sus respectivas versiones posteriores, Amazon EMR utiliza la versión más reciente de Amazon Linux 2023 o Amazon Linux 2 para la AMI de Amazon EMR predeterminada. Para más información, consulte Uso de la AMI de Amazon Linux predeterminada para Amazon EMR.
OsReleaseLabel (versión de Amazon Linux) Versión de kernel de Amazon Linux Fecha de disponibilidad Regiones admitidas 2.0.20241001.0 4.14.352 4 de octubre de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240816.0 4.14.350 21 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240809.0 4.14.349 20 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240719.0 4.14.348 25 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240709.1 4.14.348 23 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Asia-Pacífico (Hyderabad), Oriente Medio (EAU), Europa (España), Europa (Zúrich); Asia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste de Canadá (Calgary) 2.0.20240223.0 4.14.336 8 de marzo de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240131.0 4.14.336 14 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240124.0 4.14.336 7 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240109.0 4.14.334 24 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20231218.0 4.14.330 2 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231206.0 4.14.330 22 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231116.0 4.14.328 11 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231101.0 4.14.327 16 de noviembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231020.1 4.14.326 7 de noviembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231012.1 4.14.326 26 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20230926.0 4.14.322 19 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20230906.0 4.14.322 4 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230808.0 4.14.320 24 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv)
Versión 6.12.0
Las siguientes notas de la versión incluyen información sobre la versión 6.12.0 de Amazon EMR. Los cambios son respecto a la versión 6.11.0. Para obtener información sobre el cronograma de lanzamiento, consulte el Registro de cambios de la versión 6.12.0.
Nuevas características
-
Amazon EMR 6.12.0 supports Apache Spark 3.4.0, Apache Spark RAPIDS 23.06.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.1-amzn-0, Apache Iceberg 1.3.0-amzn-0, Trino 414, and PrestoDB 0.281.
-
Las versiones 6.12.0 y posteriores de Amazon EMR admiten la integración de LDAP con Apache Livy, Apache Hive a través de HiveServer2 (HS2), Trino, Presto y Hue. También puede instalar Apache Spark y Apache Hadoop en un clúster de EMR que utilice la versión 6.12.0 o posteriores y configurarlos para que utilicen LDAP. Para más información, consulte Uso de servidores de Active Directory o LDAP para la autenticación con Amazon EMR.
Cambios, mejoras y problemas resueltos
-
La versión 6.12.0 y posteriores de Amazon EMR proporcionan compatibilidad con el tiempo de ejecución de Java 11 para Flink. Para obtener más información, consulte Configuración de Flink para que se ejecute con Java 11.
-
La versión 6.12.0 agrega un nuevo mecanismo de reintento al flujo de trabajo de escalado de clústeres para clústeres de EMR que ejecutan Presto o Trino. Esta mejora reduce el riesgo de que el cambio de tamaño del clúster se detenga indefinidamente debido a una única operación de cambio de tamaño con errores. También mejora la utilización del clúster, ya que el clúster se escala y reduce verticalmente más rápido.
-
La versión 6.12.0 corrige un problema que provocaba que las operaciones de reducción vertical de los clústeres se interrumpieran cuando un nodo principal que se encontraba en proceso de retirada estable pasara a un estado incorrecto por cualquier motivo antes de retirarse por completo.
-
La versión 6.12.0 mejora la lógica de reducción vertical de los clústeres para que el clúster no intente reducir verticalmente los nodos principales por debajo de la configuración de la configuración del factor de replicación de HDFS del clúster. Esto se ajusta a sus requisitos de redundancia de datos y reduce la posibilidad de que una operación de escalado se detenga.
-
La versión 6.12.0 mejora el rendimiento y la eficiencia del servicio de supervisión de estado de Amazon EMR al aumentar la velocidad a la que registra los cambios de estado de las instancias. Esta mejora reduce la posibilidad de que se degrade el rendimiento de los nodos del clúster que ejecutan varias herramientas de cliente personalizadas o aplicaciones de terceros.
-
La versión 6.12.0 mejora el rendimiento del daemon de administración de registros en el clúster para Amazon EMR. Como resultado, hay menos probabilidades de que se degrade el rendimiento con los clústeres de EMR que ejecutan pasos con una alta simultaneidad.
-
Con la versión 6.12.0 de Amazon EMR, el daemon de administración de registros se ha actualizado para identificar todos los registros que están en uso activo con controladores de archivos abiertos en el almacenamiento de instancias local y los procesos asociados. Esta actualización garantiza que Amazon EMR elimine correctamente los archivos y recupere espacio de almacenamiento una vez archivados los registros en Amazon S3.
-
La versión 6.12.0 incluye una mejora del daemon de administración de registros que elimina los directorios escalonados vacíos y no utilizados del sistema de archivos del clúster local. Un número excesivamente elevado de directorios vacíos puede reducir el rendimiento de los daemons de Amazon EMR y provocar una sobreutilización del disco.
-
La versión 6.12.0 permite la rotación de registros para los registros del servidor YARN Timeline. Esto minimiza los escenarios de sobreutilización del disco, especialmente en el caso de clústeres de ejecución prolongada.
El tamaño del volumen raíz predeterminado ha aumentado a 15 GB en la versión 6.10.0 y posteriores de Amazon EMR. Las versiones anteriores tienen un tamaño de volumen raíz predeterminado de 10 GB.
Al lanzar un clúster con la versión de parche más reciente de Amazon EMR 5.36, 6.6 o 7.0 o sus respectivas versiones posteriores, Amazon EMR utiliza la versión más reciente de Amazon Linux 2023 o Amazon Linux 2 para la AMI de Amazon EMR predeterminada. Para más información, consulte Uso de la AMI de Amazon Linux predeterminada para Amazon EMR.
OsReleaseLabel (versión de Amazon Linux) Versión de kernel de Amazon Linux Fecha de disponibilidad Regiones admitidas 2.0.20241001.0 4.14.352 4 de octubre de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240816.0 4.14.350 21 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240809.0 4.14.349 20 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240719.0 4.14.348 25 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240709.1 4.14.348 23 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Asia-Pacífico (Hyderabad), Oriente Medio (EAU), Europa (España), Europa (Zúrich); Asia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste de Canadá (Calgary) 2.0.20240223.0 4.14.336 8 de marzo de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240131.0 4.14.336 14 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240124.0 4.14.336 7 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240109.0 4.14.334 24 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20231218.0 4.14.330 2 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231206.0 4.14.330 22 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231116.0 4.14.328 11 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231101.0 4.14.327 16 de noviembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231020.1 4.14.326 7 de noviembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231012.1 4.14.326 26 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20230926.0 4.14.322 19 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20230906.0 4.14.322 4 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230822.0 4.14.322 30 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230808.0 4.14.320 24 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230727.0 4.14.320 14 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230719.0 4.14.320 2 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230628.0 4.14.318 12 de julio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro)
Versión 6.11.1
Las siguientes notas de la versión incluyen información sobre la versión 6.11.1 de Amazon EMR. Los cambios son respecto a la versión 6.11.0. Para obtener información sobre el cronograma de lanzamiento, consulte el Registro de cambios de la versión 6.11.1.
Cambios, mejoras y problemas resueltos
-
Debido a la contención de bloqueo, un nodo puede entrar en un interbloqueo si se agrega o elimina al mismo tiempo que intenta retirarse. Como resultado, el administrador de recursos de Hadoop (YARN) deja de responder y afecta a todos los contenedores entrantes y en ejecución actualmente.
-
Esta versión incluye un cambio que permite que los clústeres de alta disponibilidad se recuperen de un estado de error tras el reinicio.
-
Esta versión incluye correcciones de seguridad para Hue y HBase.
-
Esta versión corrige un problema por el que los clústeres que ejecutan cargas de trabajo en Spark con Amazon EMR podrían recibir silenciosamente resultados incorrectos con
contains
,startsWith
,endsWith
ylike
. Este problema se produce cuando utiliza las expresiones en campos particionados que tienen metadatos en Hive3 Metastore Server (HMS) de Amazon EMR. -
Esta versión corrige un problema con la limitación en Glue cuando no hay funciones definidas por el usuario (UDF).
-
Esta versión corrige un problema que elimina los registros de contenedores mediante el servicio de agregación de registros de nodos antes de que el insertador de registros pudiera enviarlos a S3 en caso de retirada de YARN.
-
Esta versión corrige un problema con las métricas de FairShare Scheduler cuando la etiqueta de nodo se ha habilitado en Hadoop.
-
Esta versión corrige un problema que afectaba al rendimiento de Spark cuando se establecía un valor
true
predeterminado para la configuraciónspark.yarn.heterogeneousExecutors.enabled
enspark-defaults.conf
. -
Esta versión corrige un problema que provocaba que la tarea de reducción no pudiera leer los datos de mezclas aleatorias. El problema provocaba errores en las consultas de Hive debido a un error de memoria dañada.
-
Esta versión agrega un nuevo mecanismo de reintento al flujo de trabajo de escalado de clústeres para clústeres de EMR que ejecutan Presto o Trino. Esta mejora reduce el riesgo de que el cambio de tamaño del clúster se detenga indefinidamente debido a una única operación de cambio de tamaño con errores. También mejora la utilización del clúster, ya que el clúster se escala y reduce verticalmente más rápido.
-
Esta versión mejora la lógica de reducción vertical del clúster para que el clúster no intente reducir verticalmente los nodos principales por debajo de la configuración del factor de replicación de HDFS del clúster. Esto se ajusta a sus requisitos de redundancia de datos y reduce la posibilidad de que una operación de escalado se detenga.
-
El daemon de administración de registros se ha actualizado para identificar todos los registros que están en uso activo con controladores de archivos abiertos en el almacenamiento de instancias local y los procesos asociados. Esta actualización garantiza que Amazon EMR elimine correctamente los archivos y recupere espacio de almacenamiento una vez archivados los registros en Amazon S3.
-
Esta versión incluye una mejora del daemon de administración de registros que elimina los directorios escalonados vacíos y no utilizados del sistema de archivos del clúster local. Un número excesivamente elevado de directorios vacíos puede reducir el rendimiento de los daemons de Amazon EMR y provocar una sobreutilización del disco.
Al lanzar un clúster con la versión de parche más reciente de Amazon EMR 5.36, 6.6 o 7.0 o sus respectivas versiones posteriores, Amazon EMR utiliza la versión más reciente de Amazon Linux 2023 o Amazon Linux 2 para la AMI de Amazon EMR predeterminada. Para más información, consulte Uso de la AMI de Amazon Linux predeterminada para Amazon EMR.
OsReleaseLabel (versión de Amazon Linux) Versión de kernel de Amazon Linux Fecha de disponibilidad Regiones admitidas 2.0.20241001.0 4.14.352 4 de octubre de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240816.0 4.14.350 21 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240809.0 4.14.349 20 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240719.0 4.14.348 25 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240709.1 4.14.348 23 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Asia-Pacífico (Hyderabad), Oriente Medio (EAU), Europa (España), Europa (Zúrich); Asia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste de Canadá (Calgary) 2.0.20240223.0 4.14.336 8 de marzo de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240131.0 4.14.336 14 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240124.0 4.14.336 7 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20240109.0 4.14.334 24 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Eropa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Hyderabad), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Oeste de Canadá (Calgary) 2.0.20231218.0 4.14.330 2 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231206.0 4.14.330 22 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231116.0 4.14.328 11 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231101.0 4.14.327 16 de noviembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231020.1 4.14.326 7 de noviembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231012.1 4.14.326 26 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20230926.0 4.14.322 19 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20230906.0 4.14.322 4 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230822.0 4.14.322 30 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230808.0 4.14.320 24 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230727.0 4.14.320 14 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro)
Versión 6.11.0
Las siguientes notas de la versión incluyen información sobre la versión 6.11.0 de Amazon EMR. Los cambios son respecto a la versión 6.10.0. Para obtener información sobre el cronograma de lanzamiento, consulte el registro de cambios.
Nuevas características
-
Amazon EMR 6.11.0 es compatible con Apache Spark 3.3.2-amzn-0, Apache Spark RAPIDS 23.02.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.0-amzn-0, Apache Iceberg 1.2.0-amzn-0, Trino 410-amzn-0 y PrestoDB 0.279-amzn-0.
Cambios, mejoras y problemas resueltos
Con Amazon EMR 6.11.0, el conector de DynamoDB se ha actualizado a la versión 5.0.0. En la versión 5.0.0 se utiliza AWS SDK for Java 2.x. En las versiones anteriores se utilizaba AWS SDK for Java 1.x. Como resultado de esta actualización, se recomienda encarecidamente que pruebe el código antes de utilizar el conector de DynamoDB con Amazon EMR 6.11.
Cuando el conector de DynamoDB para Amazon EMR 6.11.0 llama al servicio DynamoDB, utiliza el valor de región que usted proporciona para la propiedad
dynamodb.endpoint
. Se recomienda que también configuredynamodb.region
cuando utilicedynamodb.endpoint
y que ambas propiedades tengan la misma Región de AWS. Si utilizadynamodb.endpoint
y no configuradynamodb.region
, el conector de DynamoDB para Amazon EMR 6.11.0 devolverá una excepción de región no válida e intentará conciliar la información de la Región de AWS del servicio de metadatos de instancias (IMDS) de Amazon EC2. Si el conector no puede recuperar la región del IMDS, el valor predeterminado será Este de EE. UU. (Norte de Virginia) (us-east-1
). El siguiente error es un ejemplo de la excepción de región no válida que se puede obtener si no se configura correctamente la propiedaddynamodb.region
:error software.amazon.awssdk.services.dynamodb.model.DynamoDbException: Credential should be scoped to a valid region.
Para más información sobre las clases afectadas por la actualización de AWS SDK for Java a la versión 2.x, consulte la confirmación Actualizar AWS SDK for Java de 1.x a 2.x (#175)en el repositorio de GitHub para el conector de DynamoDB para Amazon EMR. Esta versión corrige un problema por el que los datos de las columnas se convierten en
NULL
cuando se utiliza Delta Lake para almacenar los datos de la tabla Delta en Amazon S3 tras una operación de cambio de nombre de columna. Para más información sobre esta característica experimental de Delta Lake, consulte Operación de cambio de nombre de columnasen la Guía del usuario de Delta Lake. -
La versión 6.11.0 corrige un problema que podía producirse al crear un nodo de periferia mediante la replicación de uno de los nodos principales de un clúster con varios nodos principales. El nodo de periferia replicado podría provocar retrasos en las operaciones de reducción vertical o provocar un uso elevado de la memoria en los nodos principales. Para más información sobre cómo crear un nodo de periferia para comunicarse con el clúster de EMR, consulte Edge Node Creator
en el repositorio de aws-samples
de GitHub. -
La versión 6.11.0 mejora el proceso de automatización que Amazon EMR utiliza para volver a montar los volúmenes de Amazon EBS en una instancia tras un reinicio.
-
La versión 6.11.0 corrige un problema que provocaba brechas intermitentes en las métricas de Hadoop que Amazon EMR publica en Amazon CloudWatch.
-
La versión 6.11.0 corrige un problema con los clústeres de EMR por el que se interrumpe una actualización del archivo de configuración de YARN que contiene la lista de nodos excluidos del clúster debido a una sobreutilización del disco. La actualización incompleta dificulta las futuras operaciones de reducción vertical de los clústeres. Esta versión garantiza que el clúster se mantenga en buen estado y que las operaciones de escalado funcionen según lo previsto.
-
El tamaño del volumen raíz predeterminado ha aumentado a 15 GB en la versión 6.10.0 y posteriores de Amazon EMR. Las versiones anteriores tienen un tamaño de volumen raíz predeterminado de 10 GB.
-
Hadoop 3.3.3 ha introducido un cambio en YARN (YARN-9608
) que mantiene los nodos donde se ejecutaron los contenedores en un estado de retirada hasta que se complete la aplicación. Este cambio garantiza que los datos locales, como los datos de mezclas aleatorias, no se pierdan y que no sea necesario volver a ejecutar el trabajo. Este enfoque también puede provocar una infrautilización de los recursos en los clústeres con o sin el escalado administrado habilitado. En las versiones 6.11.0 y posteriores de Amazon EMR, así como en las 6.8.1, 6.9.1 y 6.10.1, el valor de
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
se establece comofalse
enyarn-site.xml
para resolver este problema.Si bien la corrección soluciona los problemas que ha introducido YARN-9608, es posible que los trabajos de Hive presenten errores debido a la pérdida de datos de mezclas aleatorias en los clústeres que tienen habilitado el escalado administrado. Se ha mitigado ese riesgo en esta versión al configurar también
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-shuffle-data
para las cargas de trabajo de Hive. Esta configuración solo está disponible con la versión 6.11.0 y posteriores de Amazon EMR. Al lanzar un clúster con la versión de parche más reciente de Amazon EMR 5.36, 6.6 o 7.0 o sus respectivas versiones posteriores, Amazon EMR utiliza la versión más reciente de Amazon Linux 2023 o Amazon Linux 2 para la AMI de Amazon EMR predeterminada. Para más información, consulte Uso de la AMI de Amazon Linux predeterminada para Amazon EMR.
nota
Esta versión ya no recibe actualizaciones automáticas de la AMI, ya que ha sido sustituida por 1 versión de revisión adicional. La versión de revisión se indica con el número que sigue al segundo punto decimal (
6.8.
). Para comprobar si está utilizando la versión de revisión más reciente, consulte las versiones disponibles en la Guía de versiones o consulte el menú desplegable Versiones de Amazon EMR cuando cree un clúster en la consola o utilice la acción de la API1
ListReleaseLabels
o la CLIlist-release-labels
. Para recibir actualizaciones sobre las nuevas versiones, suscríbase a la fuente RSS de la página Novedades.OsReleaseLabel (versión de Amazon Linux) Versión de kernel de Amazon Linux Fecha de disponibilidad Regiones admitidas 2.0.20241001.0 4.14.352 4 de octubre de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240816.0 4.14.350 21 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240809.0 4.14.349 20 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240719.0 4.14.348 25 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240709.1 4.14.348 23 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Asia-Pacífico (Hyderabad), Oriente Medio (EAU), Europa (España), Europa (Zúrich); Asia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste de Canadá (Calgary) 2.0.20230808.0 4.14.320 24 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv) 2.0.20230727.0 4.14.320 14 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230719.0 4.14.320 2 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230628.0 4.14.318 12 de julio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Zúrich), Europa (Milán), Europa (España), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU) 2.0.20230612.0 4.14.314 23 de junio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Zúrich), Europa (Milán), Europa (España), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU) 2.0.20230504.1 4.14.313 16 de mayo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro)
Versión 6.10.0
Las siguientes notas de la versión incluyen información sobre la versión 6.10.0 de Amazon EMR. Los cambios son respecto a la versión 6.9.0. Para obtener información sobre el cronograma de lanzamiento, consulte el registro de cambios.
Nuevas características
-
Amazon EMR 6.10.0 es compatible con Apache Spark 3.3.1, Apache Spark RAPIDS 22.12.0, CUDA 11.8.0, Apache Hudi 0.12.2-amzn-0, Apache Iceberg 1.1.0-amzn-0, Trino 403 y PrestoDB 0.278.1.
Amazon EMR 6.10.0 incluye un conector Trino-Hudi nativo que proporciona acceso de lectura a los datos de las tablas de Hudi. Puede activar el conector con
trino-cli --catalog hudi
y configurarlo según sus requisitos contrino-connector-hudi
. La integración nativa con Amazon EMR significa que ya no necesitará utilizartrino-connector-hive
para consultar tablas de Hudi. Para obtener una lista de las configuraciones compatibles con el nuevo conector, consulte la página Hudi connectorde la documentación de Trino. -
Las versiones 6.10.0 y posteriores de Amazon EMR admiten la integración de Apache Zeppelin con Apache Flink. Para obtener más información, consulte Trabajar con trabajos de Flink de Zeppelin en Amazon EMR.
Problemas conocidos
Hadoop 3.3.3 ha introducido un cambio en YARN (YARN-9608
) que mantiene los nodos donde se ejecutaron los contenedores en un estado de retirada hasta que se complete la aplicación. Este cambio garantiza que los datos locales, como los datos de mezclas aleatorias, no se pierdan y que no sea necesario volver a ejecutar el trabajo. Este enfoque también puede provocar una infrautilización de los recursos en los clústeres con o sin el escalado administrado habilitado. Para solucionar este problema en Amazon EMR 6.10.0, puede establecer el valor de
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
comofalse
enyarn-site.xml
. En las versiones 6.11.0 y posteriores de Amazon EMR, así como en las 6.8.1, 6.9.1 y 6.10.1, la configuración se establece enfalse
de manera predeterminada para resolver este problema.
Cambios, mejoras y problemas resueltos
Amazon EMR 6.10.0 elimina la dependencia en
minimal-json.jar
de la integración de Amazon Redshift para Apache Spark y agrega automáticamente los archivos JAR necesarios relacionados con Spark-Redshift a la ruta de clases de los ejecutores de Spark:spark-redshift.jar
,spark-avro.jar
yRedshiftJDBC.jar
.-
La versión 6.10.0 mejora el daemon de administración de registros en el clúster para supervisar las carpetas de registro adicionales del clúster de EMR. Esta mejora minimiza los escenarios de sobreutilización del disco.
-
La versión 6.10.0 reinicia automáticamente el daemon de administración de registros en el clúster cuando se detiene. Esta mejora reduce el riesgo de que los nodos parezcan estar en mal estado debido a la sobreutilización del disco.
-
Amazon EMR 6.10.0 admite puntos de conexión regionales para la asignación de usuarios de EMRFS.
-
El tamaño del volumen raíz predeterminado ha aumentado a 15 GB en la versión 6.10.0 y posteriores de Amazon EMR. Las versiones anteriores tienen un tamaño de volumen raíz predeterminado de 10 GB.
-
La versión 6.10.0 corrige un problema que provocaba que los trabajos de Spark se detuvieran cuando todos los ejecutores de Spark restantes se encontraban en un host de retirada con el administrador de recursos de YARN.
Con las versiones 6.6.0 a 6.9.x de Amazon EMR, las consultas INSERT con partición dinámica y una cláusula ORDER BY o SORT BY siempre tendrán dos reductores. Este problema se debe al cambio HIVE-20703
de OSS, que sitúa la optimización de la clasificación dinámica de las particiones en una decisión basada en los costos. Si su carga de trabajo no requiere ordenar las particiones dinámicas, le recomendamos que establezca la propiedad hive.optimize.sort.dynamic.partition.threshold
en-1
para deshabilitar la nueva característica y obtener el número de reductores calculado correctamente. Este problema se ha corregido en OSS Hive como parte de HIVE-22269y se ha corregido en Amazon EMR 6.10.0. Al lanzar un clúster con la versión de parche más reciente de Amazon EMR 5.36, 6.6 o 7.0 o sus respectivas versiones posteriores, Amazon EMR utiliza la versión más reciente de Amazon Linux 2023 o Amazon Linux 2 para la AMI de Amazon EMR predeterminada. Para más información, consulte Uso de la AMI de Amazon Linux predeterminada para Amazon EMR.
nota
Esta versión ya no recibe actualizaciones automáticas de la AMI, ya que ha sido sustituida por 1 versión de revisión adicional. La versión de revisión se indica con el número que sigue al segundo punto decimal (
6.8.
). Para comprobar si está utilizando la versión de revisión más reciente, consulte las versiones disponibles en la Guía de versiones o consulte el menú desplegable Versiones de Amazon EMR cuando cree un clúster en la consola o utilice la acción de la API1
ListReleaseLabels
o la CLIlist-release-labels
. Para recibir actualizaciones sobre las nuevas versiones, suscríbase a la fuente RSS de la página Novedades.OsReleaseLabel (versión de Amazon Linux) Versión de kernel de Amazon Linux Fecha de disponibilidad Regiones admitidas 2.0.20241001.0 4.14.352 4 de octubre de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240816.0 4.14.350 21 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240809.0 4.14.349 20 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240719.0 4.14.348 25 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240709.1 4.14.348 23 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Asia-Pacífico (Hyderabad), Oriente Medio (EAU), Europa (España), Europa (Zúrich); Asia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste de Canadá (Calgary) 2.0.20230808.0 4.14.320 24 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv) 2.0.20230727.0 4.14.320 14 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230719.0 4.14.320 2 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230628.0 4.14.318 12 de julio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Zúrich), Europa (Milán), Europa (España), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU) 2.0.20230612.0 4.14.314 23 de junio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Zúrich), Europa (Milán), Europa (España), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU) 2.0.20230504.1 4.14.313 16 de mayo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Zúrich), Europa (Milán), Europa (España), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU) 2.0.20230418.0 4.14.311 3 de mayo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Zúrich), Europa (Milán), Europa (España), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU) 2.0.20230404.1 4.14.311 18 de abril de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU) 2.0.20230404.0 4.14.311 10 de abril de 2023 Este de EE. UU. (Norte de Virginia), Europa (París) 2.0.20230320.0 4.14.309 30 de marzo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU) 2.0.20230207.0 4.14.304 22 de febrero de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU)
Versión 6.9.0
Las siguientes notas de la versión incluyen información sobre la versión 6.9.0 de Amazon EMR. Los cambios son respecto a la versión 6.8.0 de Amazon EMR. Para obtener información sobre el cronograma de lanzamiento, consulte el registro de cambios.
Nuevas características
La versión 6.9.0 de Amazon EMR es compatible con Apache Spark RAPIDS 22.08.0, Apache Hudi 0.12.1, Apache Iceberg 0.14.1, Trino 398 y Tez 0.10.2.
La versión 6.9.0 de Amazon EMR incluye una nueva aplicación de código abierto, Delta Lake 2.1.0.
La integración de Amazon Redshift para Apache Spark se incluye en las versiones 6.9.0 y posteriores de Amazon EMR. La integración nativa, que anteriormente era una herramienta de código abierto, es un conector de Spark que puede utilizar para crear aplicaciones de Apache Spark que leen y escriben datos en Amazon Redshift y Amazon Redshift sin servidor. Para obtener más información, consulte Uso de la integración de Amazon Redshift para Apache Spark con Amazon EMR .
La versión 6.9.0 de Amazon EMR agrega compatibilidad para archivar registros en Amazon S3 durante la reducción vertical del clúster. Anteriormente, solo podía archivar archivos de registro en Amazon S3 durante la terminación del clúster. Esta nueva capacidad garantiza que los archivos de registro generados en el clúster persistan en Amazon S3 incluso después de terminar el nodo. Para más información, consulte Configurar el registro y la depuración de un clúster.
Para admitir consultas de ejecución prolongada, Trino ahora incluye un mecanismo de ejecución tolerante a errores. La ejecución tolerante a errores mitiga los errores de las consultas al volver a intentar las consultas con errores o las tareas que las componen. Para obtener más información, consulte Ejecución tolerante a errores en Trino.
Puede utilizar Apache Flink en Amazon EMR para el procesamiento unificado
BATCH
ySTREAM
de tablas de Apache Hive o metadatos de cualquier origen de tabla de Flink, como Iceberg, Kinesis o Kafka. Puede especificar el Catálogo de datos de AWS Glue como metaalmacén para Flink mediante la AWS Management Console, la AWS CLI y la API de Amazon EMR. Para obtener más información, consulte Configuración de Flink en Amazon EMR.Ahora puede especificar los roles de tiempo de ejecución de AWS Identity and Access Management (IAM) y el control de acceso basado en AWS Lake Formation para las consultas de Apache Spark, Apache Hive y Presto en Amazon EMR en clústeres de EC2 con Amazon SageMaker Studio. Para más información, consulte Configuración de roles en tiempo de ejecución para los pasos de Amazon EMR.
Problemas conocidos
En el caso de la versión 6.9.0 de Amazon EMR, Trino no funciona en clústeres habilitados para Apache Ranger. Si tiene que utilizar Trino con Ranger, contacte con AWS Support
. Si utiliza la integración de Amazon Redshift para Apache Spark y tiene un valor de time, timetz, timestamp o timestamptz con una precisión de microsegundos en formato Parquet, el conector redondea los valores de tiempo al valor de milisegundos más cercano. Como solución alternativa, utilice el parámetro
unload_s3_format
de formato de descarga de texto.Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Las conexiones a los clústeres de Amazon EMR desde Amazon SageMaker Studio pueden fallar de forma intermitente con un código de respuesta 403 Forbidden. Este error se produce cuando la configuración del rol de IAM en el clúster tarda más de 60 segundos. Como solución alternativa, puede instalar una revisión de Amazon EMR para permitir los reintentos y aumentar el tiempo de espera a un mínimo de 300 segundos. Siga los siguientes pasos para aplicar la acción de arranque al lanzar el clúster.
Descargue el script de arranque y los archivos RPM de los siguientes URI de Amazon S3.
s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/replace-rpms.sh s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/emr-secret-agent-1.18.0-SNAPSHOT20221121212949.noarch.rpm
Cargue los archivos del paso anterior a un bucket de Amazon S3 de su propiedad. El bucket debe estar en la misma Región de AWS en la que planea lanzar el clúster.
Incluya la siguiente acción de arranque cuando inicie el clúster de EMR. Sustituya
bootstrap_URI
yRPM_URI
por los URI correspondientes de Amazon S3.--bootstrap-actions "Path=
bootstrap_URI
,Args=[RPM_URI
]"
Con las versiones 5.36.0 y 6.6.0 a 6.9.0 de Amazon EMR, los componentes de servicio
SecretAgent
yRecordServer
pueden sufrir una pérdida de datos de registro debido a una configuración incorrecta del patrón de nombres de archivo en las propiedades de Log4j2. Una configuración incorrecta hace que los componentes generen solo un archivo de registro por día. Cuando se aplica la estrategia de rotación, se sobrescribe el archivo existente en lugar de generar un nuevo archivo de registro como se esperaba. Como solución alternativa, utilice una acción de arranque para generar archivos de registro cada hora y agregue un entero de incremento automático en el nombre del archivo para gestionar la rotación.En el caso de las versiones 6.6.0 a 6.9.0 de Amazon EMR, utilice la siguiente acción de arranque al lanzar un clúster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
En el caso de Amazon EMR 5.36.0, utilice la siguiente acción de arranque al lanzar un clúster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
-
Apache Flink proporciona conectores nativos de FileSystem S3 y Hadoop FileSystem, que permiten a las aplicaciones crear un FileSink y escribir los datos en Amazon S3. Este FileSink presentará errores con una de las dos excepciones siguientes.
java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS
Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryPolicies.retryOtherThanRemoteAndSaslException(Lorg/apache/hadoop/io/retry/RetryPolicy;Ljava/util/Map;)Lorg/apache/hadoop/io/retry/RetryPolicy; at org.apache.hadoop.yarn.client.RMProxy.createRetryPolicy(RMProxy.java:302) ~[hadoop-yarn-common-3.3.3-amzn-0.jar:?]
Como solución alternativa, puede instalar una revisión de Amazon EMR, que soluciona el problema anterior en Flink. Siga los siguientes pasos para aplicar la acción de arranque al iniciar el clúster.
-
Descargue el archivo flink-rpm en su bucket de Amazon S3. La ruta de su RPM es
s3://
.DOC-EXAMPLE-BUCKET
/rpms/flink/ -
Descargue el script de arranque y los archivos RPM de Amazon S3 con los siguientes URI. Sustituya
por la Región de AWS en la que planea lanzar el clúster.regionName
s3://emr-data-access-control-
regionName
/customer-bootstrap-actions/gcsc/replace-rpms.sh Hadoop 3.3.3 ha introducido un cambio en YARN (YARN-9608
) que mantiene los nodos donde se ejecutaron los contenedores en un estado de retirada hasta que se complete la aplicación. Este cambio garantiza que los datos locales, como los datos de mezclas aleatorias, no se pierdan y que no sea necesario volver a ejecutar el trabajo. En Amazon EMR 6.8.0 y 6.9.0, este enfoque también podría provocar una infrautilización de los recursos en los clústeres con o sin el escalado administrado habilitado. Con Amazon EMR 6.10.0, hay una solución alternativa para este problema: puede establecer el valor de
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
comofalse
enyarn-site.xml
. En las versiones 6.11.0 y posteriores de Amazon EMR, así como en las 6.8.1, 6.9.1 y 6.10.1, la configuración se establece enfalse
de manera predeterminada para resolver este problema.
-
Cambios, mejoras y problemas resueltos
En el caso de la versión 6.9.0 y posteriores de Amazon EMR, todos los componentes instalados por Amazon EMR que utilizan bibliotecas Log4j utilizan la versión 2.17.1 o posteriores de Log4j.
-
Cuando utiliza el conector de DynamoDB con Spark en las versiones 6.6.0, 6.7.0 y 6.8.0 de Amazon EMR, todas las lecturas de la tabla devuelven un resultado vacío, aunque la división de entrada haga referencia a datos que no están vacíos. La versión 6.9.0 de Amazon EMR corrige este problema.
Amazon EMR 6.9.0 agrega compatibilidad limitada para el control de acceso basado en Lake Formation con Apache Hudi al leer datos con Spark SQL. La compatibilidad es para consultas SELECT que utilizan Spark SQL y se limita al control de acceso en el nivel de columnas. Para más información, consulte Hudi y Lake Formation.
Cuando utiliza Amazon EMR 6.9.0 para crear un clúster de Hadoop con etiquetas de nodo
habilitadas, la API de métricas de YARN devuelve información agregada en todas las particiones, en lugar de la partición predeterminada. Para más información, consulte YARN-11414 . Con la versión 6.9.0 de Amazon EMR, hemos actualizado Trino a la versión 398, que utiliza Java 17. La versión anterior compatible de Trino para Amazon EMR 6.8.0 era Trino 388 y se ejecutaba en Java 11. Para más información sobre este cambio, consulte las actualizaciones de Trino a Java 17
en el blog de Trino. Esta versión corrige un problema de desajuste de la secuencia de tiempo entre Apache BigTop y Amazon EMR en la secuencia de inicio del clúster de EC2. Este desajuste de la secuencia de tiempo se produce cuando un sistema intenta llevar a cabo dos o más operaciones al mismo tiempo en lugar de hacerlas en la secuencia correcta. Como resultado, algunas configuraciones de clústeres experimentaron tiempos de espera de inicio de instancias y tiempos de inicio de clústeres más lentos.
Al lanzar un clúster con la versión de parche más reciente de Amazon EMR 5.36, 6.6 o 7.0 o sus respectivas versiones posteriores, Amazon EMR utiliza la versión más reciente de Amazon Linux 2023 o Amazon Linux 2 para la AMI de Amazon EMR predeterminada. Para más información, consulte Uso de la AMI de Amazon Linux predeterminada para Amazon EMR.
nota
Esta versión ya no recibe actualizaciones automáticas de la AMI, ya que ha sido sustituida por 1 versión de revisión adicional. La versión de revisión se indica con el número que sigue al segundo punto decimal (
6.8.
). Para comprobar si está utilizando la versión de revisión más reciente, consulte las versiones disponibles en la Guía de versiones o consulte el menú desplegable Versiones de Amazon EMR cuando cree un clúster en la consola o utilice la acción de la API1
ListReleaseLabels
o la CLIlist-release-labels
. Para recibir actualizaciones sobre las nuevas versiones, suscríbase a la fuente RSS de la página Novedades.OsReleaseLabel (versión de Amazon Linux) Versión de kernel de Amazon Linux Fecha de disponibilidad Regiones admitidas 2.0.20241001.0 4.14.352 4 de octubre de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240816.0 4.14.350 21 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240809.0 4.14.349 20 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240719.0 4.14.348 25 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240709.1 4.14.348 23 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia), Asia-Pacífico (Hyderabad), Oriente Medio (EAU), Europa (España), Europa (Zúrich); Asia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste de Canadá (Calgary) 2.0.20230808.0 4.14.320 24 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), Israel (Tel Aviv) 2.0.20230727.0 4.14.320 14 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230719.0 4.14.320 2 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro), Israel (Tel Aviv) 2.0.20230628.0 4.14.318 12 de julio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230612.0 4.14.314 23 de junio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230504.1 4.14.313 16 de mayo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230418.0 4.14.311 3 de mayo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230404.1 4.14.311 18 de abril de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230404.0 4.14.311 10 de abril de 2023 Este de EE. UU. (Norte de Virginia), Europa (París) 2.0.20230320.0 4.14.309 30 de marzo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230307.0 4.14.305 15 de marzo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230207.0 4.14.304 22 de febrero de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20221210.1 4.14.301 12 de enero de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20221103.3 4.14.296 5 de diciembre de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin)
Versión 6.8.0
Las siguientes notas de la versión incluyen información sobre la versión 6.8.0 de Amazon EMR. Los cambios son respecto a la versión 6.7.0.
Nuevas características
-
La característica de pasos de Amazon EMR ahora es compatible con el punto de conexión de Apache Livy y los clientes JDBC/ODBC. Para más información, consulte Configuración de roles en tiempo de ejecución para los pasos de Amazon EMR.
-
La versión 6.8.0 de Amazon EMR incluye la versión 2.4.12 de Apache HBase. Con esta versión de HBase, puede archivar y eliminar sus tablas de HBase. El proceso de archivado de Amazon S3 cambia el nombre de todos los archivos de tabla al directorio de archivado. Esto puede ser un proceso largo y costoso. Ahora puede omitir el proceso de archivado y rechazar y eliminar rápidamente tablas grandes. Para obtener más información, consulte Uso del intérprete de comandos de HBase.
Problemas conocidos
Hadoop 3.3.3 ha introducido un cambio en YARN (YARN-9608
) que mantiene los nodos donde se ejecutaron los contenedores en un estado de retirada hasta que se complete la aplicación. Este cambio garantiza que los datos locales, como los datos de mezclas aleatorias, no se pierdan y que no sea necesario volver a ejecutar el trabajo. En Amazon EMR 6.8.0 y 6.9.0, este enfoque también podría provocar una infrautilización de los recursos en los clústeres con o sin el escalado administrado habilitado. Con Amazon EMR 6.10.0, hay una solución alternativa para este problema: puede establecer el valor de
yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications
comofalse
enyarn-site.xml
. En las versiones 6.11.0 y posteriores de Amazon EMR, así como en las 6.8.1, 6.9.1 y 6.10.1, la configuración se establece enfalse
de manera predeterminada para resolver este problema.
Cambios, mejoras y problemas resueltos
-
Cuando las versiones 6.5.0, 6.6.0 o 6.7.0 de Amazon EMR leían las tablas de Apache Phoenix a través del intérprete de comandos de Apache Spark, Amazon EMR producía un
NoSuchMethodError
. La versión 6.8.0 de Amazon EMR corrige este problema. -
Amazon EMR 6.8.0 viene con Apache Hudi
0.11.1; sin embargo, los clústeres de Amazon EMR 6.8.0 también son compatibles con el código abierto hudi-spark3.3-bundle_2.12
de Hudi 0.12.0. -
La versión 6.8.0 de Amazon EMR incluye la versión 3.3.0 de Apache Spark. Esta versión de Spark utiliza Apache Log4j 2 y el archivo
log4j2.properties
para configurar Log4j en los procesos de Spark. Si utiliza Spark en el clúster o crea clústeres de EMR con parámetros de configuración personalizados y desea actualizar a la versión 6.8.0 de Amazon EMR, debe migrar al nuevo formato de clave y clasificación de configuraciónspark-log4j2
de Apache Log4j 2. Para obtener más información, consulte Migración de Apache Log4j 1.x a Log4j 2.x. Al lanzar un clúster con la versión de parche más reciente de Amazon EMR 5.36, 6.6 o 7.0 o sus respectivas versiones posteriores, Amazon EMR utiliza la versión más reciente de Amazon Linux 2023 o Amazon Linux 2 para la AMI de Amazon EMR predeterminada. Para más información, consulte Uso de la AMI de Amazon Linux predeterminada para Amazon EMR.
nota
Esta versión ya no recibe actualizaciones automáticas de la AMI, ya que ha sido sustituida por 1 versión de revisión adicional. La versión de revisión se indica con el número que sigue al segundo punto decimal (
6.8.
). Para comprobar si está utilizando la versión de revisión más reciente, consulte las versiones disponibles en la Guía de versiones o consulte el menú desplegable Versiones de Amazon EMR cuando cree un clúster en la consola o utilice la acción de la API1
ListReleaseLabels
o la CLIlist-release-labels
. Para recibir actualizaciones sobre las nuevas versiones, suscríbase a la fuente RSS de la página Novedades.OsReleaseLabel (versión de Amazon Linux) Versión de kernel de Amazon Linux Fecha de disponibilidad Regiones admitidas 2.0.20241001.0 4.14.352 4 de octubre de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240816.0 4.14.350 21 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240809.0 4.14.349 20 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240719.0 4.14.348 25 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240709.1 4.14.348 23 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia) Asia-Pacífico (Hyderabad), Medio Oriente (EAU), Europa (España), Europa (Zúrich), Asia-Pacífico (Melbourne), Israel (Tel Aviv) 2.0.20230808.0 4.14.320 24 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro) 2.0.20230727.0 4.14.320 14 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro) 2.0.20230719.0 4.14.320 2 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), Asia-Pacífico (Melbourne), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro) 2.0.20230628.0 4.14.318 12 de julio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230612.0 4.14.314 23 de junio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230504.1 4.14.313 16 de mayo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230418.0 4.14.311 3 de mayo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230404.1 4.14.311 18 de abril de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230404.0 4.14.311 10 de abril de 2023 Este de EE. UU. (Norte de Virginia), Europa (París) 2.0.20230320.0 4.14.309 30 de marzo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230307.0 4.14.305 15 de marzo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230207.0 4.14.304 22 de febrero de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230119.1 4.14.301 3 de febrero de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20221210.1 4.14.301 22 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20221103.3 4.14.296 5 de diciembre de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20221004.0 4.14.294 2 de noviembre de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20220912.1 4.14.291 6 de septiembre de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin)
Problemas conocidos
-
Cuando utiliza el conector de DynamoDB con Spark en las versiones 6.6.0, 6.7.0 y 6.8.0 de Amazon EMR, todas las lecturas de la tabla devuelven un resultado vacío, aunque la división de entrada haga referencia a datos que no están vacíos. Esto se debe a que Spark 3.2.0 establece
spark.hadoopRDD.ignoreEmptySplits
entrue
de manera predeterminada. Como solución alternativa, establezcaspark.hadoopRDD.ignoreEmptySplits
explícitamente enfalse
. La versión 6.9.0 de Amazon EMR corrige este problema. Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Con las versiones 5.36.0 y 6.6.0 a 6.9.0 de Amazon EMR, los componentes de servicio
SecretAgent
yRecordServer
pueden sufrir una pérdida de datos de registro debido a una configuración incorrecta del patrón de nombres de archivo en las propiedades de Log4j2. Una configuración incorrecta hace que los componentes generen solo un archivo de registro por día. Cuando se aplica la estrategia de rotación, se sobrescribe el archivo existente en lugar de generar un nuevo archivo de registro como se esperaba. Como solución alternativa, utilice una acción de arranque para generar archivos de registro cada hora y agregue un entero de incremento automático en el nombre del archivo para gestionar la rotación.En el caso de las versiones 6.6.0 a 6.9.0 de Amazon EMR, utilice la siguiente acción de arranque al lanzar un clúster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
En el caso de Amazon EMR 5.36.0, utilice la siguiente acción de arranque al lanzar un clúster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
Para obtener más información sobre el cronograma de lanzamiento, consulte el registro de cambios.
Versión 6.7.0
Las siguientes notas de la versión incluyen información sobre la versión 6.7.0 de Amazon EMR. Los cambios son respecto a la versión 6.6.0.
Fecha de lanzamiento inicial: 15 de julio de 2022
Nuevas características
Amazon EMR ahora es compatible con Apache Spark 3.2.1, Apache Hive 3.1.3, HUDI 0.11, PrestoDB 0.272 y Trino 0.378.
Admite controles de acceso basados en roles de IAM y Lake Formation con pasos de EMR (Spark, Hive) para Amazon EMR en clústeres de EC2.
Admite las instrucciones de definición de datos de Apache Spark en clústeres habilitados para Apache Ranger. Esto ahora incluye compatibilidad para que las aplicaciones de Trino lean y escriban metadatos de Apache Hive en clústeres habilitados para Apache Ranger. Para más información, consulte Habilitar la gobernanza federada mediante Trino y Apache Ranger en Amazon EMR
. Al lanzar un clúster con la versión de parche más reciente de Amazon EMR 5.36, 6.6 o 7.0 o sus respectivas versiones posteriores, Amazon EMR utiliza la versión más reciente de Amazon Linux 2023 o Amazon Linux 2 para la AMI de Amazon EMR predeterminada. Para más información, consulte Uso de la AMI de Amazon Linux predeterminada para Amazon EMR.
OsReleaseLabel (versión de Amazon Linux) Versión de kernel de Amazon Linux Fecha de disponibilidad Regiones admitidas 2.0.20241001.0 4.14.352 4 de octubre de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240816.0 4.14.350 21 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240809.0 4.14.349 20 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240719.0 4.14.348 25 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240709.1 4.14.348 23 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro), GovCloud de AWS (Oeste de EE. UU.), GovCloud de AWS (Este de EE. UU.), China (Pekín), China (Ningxia) Asia-Pacífico (Hyderabad), Medio Oriente (EAU), Europa (España), Europa (Zúrich), Asia-Pacífico (Melbourne), Israel (Tel Aviv) 2.0.20240223.0 4.14.336 8 de marzo de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240131.0 4.14.336 14 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240124.0 4.14.336 7 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240109.0 4.14.334 24 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231218.0 4.14.330 2 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231206.0 4.14.330 22 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231116.0 4.14.328 11 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231101.0 4.14.327 16 de noviembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231020.1 4.14.326 7 de noviembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231012.1 4.14.326 26 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20230926.0 4.14.322 19 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20230906.0 4.14.322 4 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro) 2.0.20230822.0 4.14.322 30 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro) 2.0.20230808.0 4.14.320 24 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro) 2.0.20230727.0 4.14.320 14 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro) 2.0.20230719.0 4.14.320 2 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro) 2.0.20230628.0 4.14.318 12 de julio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230612.0 4.14.314 23 de junio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230504.1 4.14.313 16 de mayo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230418.0 4.14.311 3 de mayo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230404.1 4.14.311 18 de abril de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230404.0 4.14.311 10 de abril de 2023 Este de EE. UU. (Norte de Virginia), Europa (París) 2.0.20230320.0 4.14.309 30 de marzo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230307.0 4.14.305 15 de marzo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230207.0 4.14.304 22 de febrero de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230119.1 4.14.301 3 de febrero de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20221210.1 4.14.301 22 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20221103.3 4.14.296 5 de diciembre de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20221004.0 4.14.294 2 de noviembre de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20220912.1 4.14.291 7 de octubre de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20220719.0 4.14.287 10 de agosto de 2022 us‑west‑1
,eu‑west‑3
,eu‑north‑1
,ap‑south‑1
,me‑south‑1
2.0.20220606.1 4.14.281 15 de julio de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin)
Problemas conocidos
Cuando las versiones 6.5.0, 6.6.0 o 6.7.0 de Amazon EMR leen las tablas de Apache Phoenix a través del intérprete de comandos de Apache Spark, se produce un error
NoSuchMethodError
porque Amazon EMR utiliza un valor deHbase.compat.version
incorrecto. La versión 6.8.0 de Amazon EMR corrige este problema.-
Cuando utiliza el conector de DynamoDB con Spark en las versiones 6.6.0, 6.7.0 y 6.8.0 de Amazon EMR, todas las lecturas de la tabla devuelven un resultado vacío, aunque la división de entrada haga referencia a datos que no están vacíos. Esto se debe a que Spark 3.2.0 establece
spark.hadoopRDD.ignoreEmptySplits
entrue
de manera predeterminada. Como solución alternativa, establezcaspark.hadoopRDD.ignoreEmptySplits
explícitamente enfalse
. La versión 6.9.0 de Amazon EMR corrige este problema. Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Con las versiones 5.36.0 y 6.6.0 a 6.9.0 de Amazon EMR, los componentes de servicio
SecretAgent
yRecordServer
pueden sufrir una pérdida de datos de registro debido a una configuración incorrecta del patrón de nombres de archivo en las propiedades de Log4j2. Una configuración incorrecta hace que los componentes generen solo un archivo de registro por día. Cuando se aplica la estrategia de rotación, se sobrescribe el archivo existente en lugar de generar un nuevo archivo de registro como se esperaba. Como solución alternativa, utilice una acción de arranque para generar archivos de registro cada hora y agregue un entero de incremento automático en el nombre del archivo para gestionar la rotación.En el caso de las versiones 6.6.0 a 6.9.0 de Amazon EMR, utilice la siguiente acción de arranque al lanzar un clúster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
En el caso de Amazon EMR 5.36.0, utilice la siguiente acción de arranque al lanzar un clúster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
La API
GetClusterSessionCredentials
no es compatible con los clústeres que se ejecutan en Amazon EMR 6.7 o versiones anteriores.
Versión 6.6.0
Las siguientes notas de la versión incluyen información sobre la versión 6.6.0 de Amazon EMR. Los cambios son respecto a la versión 6.5.0.
Fecha de lanzamiento inicial: 9 de mayo de 2022
Última actualización de la documentación: 15 de junio de 2022
Nuevas características
Amazon EMR 6.6 ahora admite Apache Spark 3.2, Apache Spark RAPIDS 22.02, CUDA 11, Apache Hudi 0.10.1, Apache Iceberg 0.13, Trino 0.367 y PrestoDB 0.267.
Al lanzar un clúster con la versión de parche más reciente de Amazon EMR 5.36, 6.6 o 7.0 o sus respectivas versiones posteriores, Amazon EMR utiliza la versión más reciente de Amazon Linux 2023 o Amazon Linux 2 para la AMI de Amazon EMR predeterminada. Para más información, consulte Uso de la AMI de Amazon Linux predeterminada para Amazon EMR.
OsReleaseLabel (versión de Amazon Linux) Versión de kernel de Amazon Linux Fecha de disponibilidad Regiones admitidas 2.0.20241001.0 4.14.352 4 de octubre de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240816.0 4.14.350 21 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240809.0 4.14.349 20 de agosto de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240719.0 4.14.348 25 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240709.1 4.14.348 23 de julio de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240223.0 4.14.336 8 de marzo de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240131.0 4.14.336 14 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240124.0 4.14.336 7 de febrero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20240109.0 4.14.334 24 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231218.0 4.14.330 2 de enero de 2024 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231206.0 4.14.330 22 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231116.0 4.14.328 11 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231101.0 4.14.327 16 de noviembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231020.1 4.14.326 7 de noviembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20231012.1 4.14.326 26 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20230926.0 4.14.322 19 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Canadá (centro), Medio Oriente (Baréin), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), China (Pekín), China (Ningxia) 2.0.20230906.0 4.14.322 4 de octubre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro) 2.0.20230822.0 4.14.322 30 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro) 2.0.20230808.0 4.14.320 24 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro) 2.0.20230727.0 4.14.320 14 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Canadá (centro) 2.0.20230719.0 4.14.320 2 de agosto de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Europa (Estocolmo), Europa (Milán), Europa (España), Europa (Fráncfort), Europa (Zúrich), Europa (Irlanda), Europa (Londres), Europa (París), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Hyderabad), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Yakarta), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin), Medio Oriente (EAU), Canadá (centro) 2.0.20230628.0 4.14.318 12 de julio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230612.0 4.14.314 23 de junio de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230504.1 4.14.313 16 de mayo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230418.0 4.14.311 3 de mayo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230404.1 4.14.311 18 de abril de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230404.0 4.14.311 10 de abril de 2023 Este de EE. UU. (Norte de Virginia), Europa (París) 2.0.20230320.0 4.14.309 30 de marzo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230307.0 4.14.305 15 de marzo de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230207.0 4.14.304 22 de febrero de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20230119.1 4.14.301 3 de febrero de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20221210.1 4.14.301 22 de diciembre de 2023 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20221103.3 4.14.296 5 de diciembre de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20221004.0 4.14.294 2 de noviembre de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20220912.1 4.14.291 7 de octubre de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20220805.0 4.14.287 30 de agosto de 2022 us‑west‑1
2.0.20220719.0 4.14.287 10 de agosto de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20220426.0 4.14.281 10 de junio de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) 2.0.20220406.1 4.14.275 2 de mayo de 2022 Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Canadá (centro), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Fráncfort), Europa (Milán), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Yakarta), Asia-Pacífico (Tokio), Asia-Pacífico (Seúl), Asia-Pacífico (Osaka), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), África (Ciudad del Cabo), América del Sur (São Paulo), Medio Oriente (Baréin) Con Amazon EMR 6.6 y versiones posteriores, las aplicaciones que utilizan Log4j 1.x y Log4j 2.x se actualizan para utilizar Log4j 1.2.17 (o posterior) y Log4j 2.17.1 (o posterior), respectivamente, y no requieren el uso de las acciones de arranque proporcionadas para mitigar los problemas de CVE.
-
[Escalado administrado] Optimización del escalado administrado de datos de mezclas aleatorias de Spark: para las versiones 5.34.0 y posteriores de Amazon EMR, y las versiones 6.4.0 y posteriores de EMR, el escalado administrado ahora es compatible con los datos de mezclas aleatorias de Spark (datos que Spark redistribuye entre las particiones para realizar operaciones específicas). Para más información sobre las operaciones de mezclas aleatorias, consulte Uso del escalado administrado de EMR en Amazon EMR en la Guía de administración de Amazon EMR y Spark Programming Guide
. A partir de Amazon EMR 5.32.0 y 6.5.0, el tamaño dinámico del ejecutor para Apache Spark se habilita de forma predeterminada. Para activar o desactivar esta característica, puede utilizar el parámetro de configuración
spark.yarn.heterogeneousExecutors.enabled
.
Cambios, mejoras y problemas resueltos
Amazon EMR reduce el tiempo de inicio del clúster hasta 80 segundos de promedio para los clústeres que utilizan la opción de AMI predeterminada de EMR y que solo instalan aplicaciones comunes, como Apache Hadoop, Apache Spark y Apache Hive.
Problemas conocidos
Cuando las versiones 6.5.0, 6.6.0 o 6.7.0 de Amazon EMR leen las tablas de Apache Phoenix a través del intérprete de comandos de Apache Spark, se produce un error
NoSuchMethodError
porque Amazon EMR utiliza un valor deHbase.compat.version
incorrecto. La versión 6.8.0 de Amazon EMR corrige este problema.-
Cuando utiliza el conector de DynamoDB con Spark en las versiones 6.6.0, 6.7.0 y 6.8.0 de Amazon EMR, todas las lecturas de la tabla devuelven un resultado vacío, aunque la división de entrada haga referencia a datos que no están vacíos. Esto se debe a que Spark 3.2.0 establece
spark.hadoopRDD.ignoreEmptySplits
entrue
de manera predeterminada. Como solución alternativa, establezcaspark.hadoopRDD.ignoreEmptySplits
explícitamente enfalse
. La versión 6.9.0 de Amazon EMR corrige este problema. En los clústeres de ejecución prolongada de Trino, Amazon EMR 6.6.0 habilita los parámetros de registro de recopilación de elementos no utilizados en el archivo jvm.config de Trino para obtener mejor información de los registros de recopilación de elementos no utilizados. Este cambio agrega muchos registros de recopilación de elementos no utilizados al archivo launcher.log (/var/log/trino/launcher.log). Si ejecuta clústeres de Trino en Amazon EMR 6.6.0, es posible que los nodos se queden sin espacio en disco después de que el clúster haya estado ejecutándose durante un par de días debido a los registros agregados.
La solución alternativa para este problema consiste en ejecutar el siguiente script como una acción de arranque para deshabilitar los parámetros de registro de recopilación de elementos no utilizados en jvm.config al crear o clonar el clúster para Amazon EMR 6.6.0.
#!/bin/bash set -ex PRESTO_PUPPET_DIR='/var/aws/emr/bigtop-deploy/puppet/modules/trino' sudo bash -c "sed -i '/-Xlog/d' ${PRESTO_PUPPET_DIR}/templates/jvm.config"
Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Con las versiones 5.36.0 y 6.6.0 a 6.9.0 de Amazon EMR, los componentes de servicio
SecretAgent
yRecordServer
pueden sufrir una pérdida de datos de registro debido a una configuración incorrecta del patrón de nombres de archivo en las propiedades de Log4j2. Una configuración incorrecta hace que los componentes generen solo un archivo de registro por día. Cuando se aplica la estrategia de rotación, se sobrescribe el archivo existente en lugar de generar un nuevo archivo de registro como se esperaba. Como solución alternativa, utilice una acción de arranque para generar archivos de registro cada hora y agregue un entero de incremento automático en el nombre del archivo para gestionar la rotación.En el caso de las versiones 6.6.0 a 6.9.0 de Amazon EMR, utilice la siguiente acción de arranque al lanzar un clúster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"
En el caso de Amazon EMR 5.36.0, utilice la siguiente acción de arranque al lanzar un clúster.
‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
Versión 5.35.0
Esta es la nota de la versión 5.35.0 de Amazon EMR.
Las siguientes notas de la versión incluyen información sobre la versión 5.35.0 de Amazon EMR. Los cambios son respecto a la versión 5.34.0.
Fecha de lanzamiento inicial: 30 de marzo de 2022
Nuevas características
Las aplicaciones de Amazon EMR, versión 5.35, que utilizan Log4j 1.x y Log4j 2.x se actualizan para utilizar Log4j 1.2.17 (o posterior) y Log4j 2.17.1 (o posterior), respectivamente, y no requieren el uso de acciones de arranque para mitigar los problemas de CVE de las versiones anteriores. Consulte Método para mitigar CVE-2021-44228.
Cambios, mejoras y problemas resueltos
Cambio de tipo | Descripción |
---|---|
Actualizaciones |
|
Cambio de tipo | Descripción |
---|---|
Portabilidad con versiones anteriores de código abierto de Hadoop desde EMR 5.34.0 |
|
Cambios y correcciones de Hadoop |
|
Cambio de tipo | Descripción |
---|---|
Hive se ha actualizado a la versión 2.3.9 |
|
Backports de código abierto de Hive desde EMR 5.34.0 |
|
Actualizaciones y correcciones de Hive |
|
Nuevas características |
|
Cambio de tipo | Descripción |
---|---|
Backports de código abierto de Oozie desde EMR 5.34.0 |
|
Cambio de tipo | Descripción |
---|---|
Actualizaciones |
|
Problemas conocidos
Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Versión 5.34.0
Las siguientes notas de la versión incluyen información sobre la versión 5.34.0 de Amazon EMR. Los cambios son respecto a la versión 5.33.1.
Fecha de lanzamiento inicial: 20 de enero de 2022
Fecha de lanzamiento: 21 de marzo de 2022
Nuevas características
-
[Escalado administrado] Optimización del escalado administrado de datos de mezclas aleatorias de Spark: para las versiones 5.34.0 y posteriores de Amazon EMR, y las versiones 6.4.0 y posteriores de EMR, el escalado administrado ahora es compatible con los datos de mezclas aleatorias de Spark (datos que Spark redistribuye entre las particiones para realizar operaciones específicas). Para más información sobre las operaciones de mezclas aleatorias, consulte Uso del escalado administrado de EMR en Amazon EMR en la Guía de administración de Amazon EMR y Spark Programming Guide
. [Hudi] Mejoras para simplificar la configuración de Hudi. El control de simultaneidad optimista se deshabilita de forma predeterminada.
Cambios, mejoras y problemas resueltos
-
Esta es una versión para solucionar problemas con el escalado de Amazon EMR cuando no logra escalar o reducir verticalmente de forma correcta un clúster o provoca errores en las aplicaciones.
Anteriormente, el reinicio manual del administrador de recursos en un clúster multimaestro provocaba que los daemons en el clúster de Amazon EMR, como ZooKeeper, recargaran todos los nodos perdidos o retirados previamente en el archivo znode de ZooKeeper. Esto provocaba que se superaran los límites predeterminados en ciertas situaciones. Amazon EMR ahora elimina del archivo de ZooKeeper los registros de nodos perdidos o retirados que tengan más de una hora de antigüedad y se han incrementado los límites internos.
Se solucionó un problema por el que las solicitudes de escalado de un clúster grande y muy utilizado fallaban cuando los daemons en el clúster de Amazon EMR ejecutaban actividades de comprobación de estado, como recopilar el estado del nodo de YARN y el estado del nodo de HDFS. Esto se debía a que los daemons en el clúster no podían comunicar los datos del estado de un nodo a los componentes internos de Amazon EMR.
Se han mejorado los daemons de EMR en el clúster para realizar un seguimiento correcto de los estados de los nodos cuando se reutilizan las direcciones IP a fin de mejorar la fiabilidad durante las operaciones de escalado.
SPARK-29683
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos durante la reducción vertical del clúster, ya que Spark daba por sentado que todos los nodos disponibles estaban en la lista de denegados. YARN-9011
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos debido a una condición de carrera durante la retirada de YARN cuando el clúster intentaba escalarse o reducirse verticalmente. Se ha solucionado el problema que provocaba errores en los pasos o trabajos durante el escalado del clúster al garantizar que los estados de los nodos sean siempre coherentes entre los daemons en el clúster de Amazon EMR y YARN o HDFS.
Se ha solucionado un problema por el que las operaciones de clúster, como la reducción vertical y el envío escalonado, fallaban en los clústeres de Amazon EMR habilitados con la autenticación de Kerberos. Esto se debía a que el daemon en el clúster de Amazon EMR no renovó el ticket de Kerberos, que es necesario para comunicarse de forma segura con HDFS o YARN en ejecución en el nodo principal.
Se ha actualizado Zeppelin a la versión 0.10.0.
Corrección de Livy: actualizado a la versión 0.7.1
Mejora del rendimiento de Spark: los ejecutores heterogéneos se deshabilitan cuando se anulan ciertos valores de configuración de Spark en EMR 5.34.0.
Los servidores WebHDFS y HttpFS están deshabilitados de forma predeterminada. Puede volver a habilitar WebHDFS mediante la configuración de Hadoop,
dfs.webhdfs.enabled
. El servidor HttpFS se puede iniciar mediantesudo systemctl start hadoop-httpfs
.
Problemas conocidos
La característica Cuadernos de Amazon EMR que se utiliza con la suplantación de usuarios de Livy no funciona porque HttpFS está deshabilitado de forma predeterminada. En este caso, el cuaderno de EMR no puede conectarse al clúster que tiene habilitada la suplantación de Livy. La solución alternativa consiste en iniciar el servidor HttpFS antes de conectar el cuaderno de EMR al clúster mediante
sudo systemctl start hadoop-httpfs
.Las consultas de Hue no funcionan en Amazon EMR 6.4.0 porque el servidor HttpFS de Apache Hadoop está deshabilitado de forma predeterminada. Para usar Hue en Amazon EMR 6.4.0, inicie manualmente el servidor HttpFS en el nodo principal de Amazon EMR mediante
sudo systemctl start hadoop-httpfs
o utilice un paso de Amazon EMR.La característica Cuadernos de Amazon EMR que se utiliza con la suplantación de usuarios de Livy no funciona porque HttpFS está deshabilitado de forma predeterminada. En este caso, el cuaderno de EMR no puede conectarse al clúster que tiene habilitada la suplantación de Livy. La solución alternativa consiste en iniciar el servidor HttpFS antes de conectar el cuaderno de EMR al clúster mediante
sudo systemctl start hadoop-httpfs
.Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Versión 6.5.0
Las siguientes notas de la versión incluyen información sobre la versión 6.5.0 de Amazon EMR. Los cambios son respecto a la versión 6.4.0.
Fecha de lanzamiento inicial: 20 de enero de 2022
Fecha de lanzamiento: 21 de marzo de 2022
Nuevas características
-
[Escalado administrado] Optimización del escalado administrado de datos de mezclas aleatorias de Spark: para las versiones 5.34.0 y posteriores de Amazon EMR, y las versiones 6.4.0 y posteriores de EMR, el escalado administrado ahora es compatible con los datos de mezclas aleatorias de Spark (datos que Spark redistribuye entre las particiones para realizar operaciones específicas). Para más información sobre las operaciones de mezclas aleatorias, consulte Uso del escalado administrado de EMR en Amazon EMR en la Guía de administración de Amazon EMR y Spark Programming Guide
. A partir de Amazon EMR 5.32.0 y 6.5.0, el tamaño dinámico del ejecutor para Apache Spark se habilita de forma predeterminada. Para activar o desactivar esta característica, puede utilizar el parámetro de configuración
spark.yarn.heterogeneousExecutors.enabled
.Compatibilidad con el formato de tabla abierto Apache Iceberg para conjuntos de datos analíticos muy grandes.
Compatibilidad con ranger-trino-plugin 2.0.1-amzn-1
Compatibilidad con toree 0.5.0
Cambios, mejoras y problemas resueltos
La versión 6.5 de Amazon EMR ahora es compatible con Apache Iceberg 0.12.0 y ofrece mejoras en el tiempo de ejecución con Tiempo de ejecución de Amazon EMR para Apache Spark, Tiempo de ejecución de Amazon EMR para Presto y Tiempo de ejecución de Amazon EMR para Apache Hive.
Apache Iceberg
es un formato de tabla abierto para grandes conjuntos de datos en Amazon S3 y proporciona un rendimiento de consultas rápido en tablas grandes, confirmaciones atómicas, escrituras simultáneas y evolución de tablas compatible con SQL. A partir de Amazon EMR 6.5, puede usar Apache Spark 3.1.2 con el formato de tabla de Iceberg. Apache Hudi 0.9 agrega compatibilidad con DDL y DML de Spark SQL. Esto le permite crear y upsert tablas de Hudi utilizando únicamente instrucciones SQL. Apache Hudi 0.9 también incluye mejoras en el rendimiento de las consultas y del escritor.
El Tiempo de ejecución de Amazon EMR para Apache Hive mejora el rendimiento de Apache Hive en Amazon S3 al eliminar las operaciones de cambio de nombre durante las operaciones de preparación y mejora el rendimiento de los comandos de comprobación de metaalmacén (MSCK) que se utilizan para reparar tablas.
Problemas conocidos
Cuando las versiones 6.5.0, 6.6.0 o 6.7.0 de Amazon EMR leen las tablas de Apache Phoenix a través del intérprete de comandos de Apache Spark, se produce un error
NoSuchMethodError
porque Amazon EMR utiliza un valor deHbase.compat.version
incorrecto. La versión 6.8.0 de Amazon EMR corrige este problema.-
Los clústeres de paquetes de HBase en alta disponibilidad (HA) no se aprovisionan con el tamaño de volumen y el tipo de instancia predeterminados. La solución alternativa para este problema consiste en aumentar el tamaño del volumen raíz.
Para utilizar las acciones de Spark con Apache Oozie, debe agregar la siguiente configuración al archivo
workflow.xml
de Oozie. De lo contrario, varias bibliotecas críticas, como Hadoop y EMRFS, no aparecerán en la ruta de clases de los ejecutores de Spark que lance Oozie.<spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Versión 6.4.0
Las siguientes notas de la versión incluyen información sobre la versión 6.4.0 de Amazon EMR. Los cambios son respecto a la versión 6.3.0.
Fecha de lanzamiento inicial: 20 de septiembre de 2021
Fecha de lanzamiento: 21 de marzo de 2022
Aplicaciones compatibles
-
AWS SDK for Java versión 1.12.31
-
CloudWatch Sink, versión 2.2.0
-
Conector de DynamoDB, versión 4.16.0
-
EMRFS, versión 2.47.0
-
Amazon EMR Goodies, versión 3.2.0
-
Conector de Kinesis para Amazon EMR, versión 3.5.0
-
Servidor de registros de Amazon EMR, versión 2.1.0
-
Scripts de Amazon EMR, versión 2.5.0
-
Flink, versión 1.13.1
-
Versión de Ganglia 3.7.2
-
Cliente de metaalmacén de Hive de AWS Glue, versión 3.3.0
-
Hadoop, versión 3.2.1-amzn-4
-
HBase, versión 2.4.4-amzn-0
-
HBase-operator-tools 1.1.0
-
HCatalog versión 3.1.2-amzn-5
-
Hive, versión 3.1.2-amzn-5
-
Hudi versión 0.8.0-amzn-0
-
Hue versión 4.9.0
-
Java JDK, versión Corretto-8.302.08.1 (compilación 1.8.0_302-b08)
-
JupyterHub versión 1.4.1
-
Livy versión 0.7.1-incubating
-
MXNet versión 1.8.0
-
Oozie versión 5.2.1
-
Phoenix versión 5.1.2
-
Pig, versión 0.17.0
-
Presto, versión 0.254.1-amzn-0
-
Trino, versión 359
-
Apache Ranger KMS (cifrado transparente multimaestro), versión 2.0.0
-
ranger-plugins 2.0.1-amzn-0
-
ranger-s3-plugin 1.2.0
-
SDK de SageMaker Spark, versión 1.4.1
-
Scala, versión 2.12.10 (máquina virtual de servidor OpenJDK de 64 bits, Java 1.8.0_282)
-
Spark, versión 3.1.2-amzn-0
-
spark-rapids 0.4.1
-
Sqoop, versión 1.4.7
-
TensorFlow versión 2.4.1
-
Tez, versión 0.9.2
-
Zeppelin versión 0.9.0
-
ZooKeeper versión 3.5.7
-
Conectores y controladores: conector de DynamoDB 4.16.0
Nuevas características
-
[Escalado administrado] Optimización del escalado administrado de datos de mezclas aleatorias de Spark: para las versiones 5.34.0 y posteriores de Amazon EMR, y las versiones 6.4.0 y posteriores de EMR, el escalado administrado ahora es compatible con los datos de mezclas aleatorias de Spark (datos que Spark redistribuye entre las particiones para realizar operaciones específicas). Para más información sobre las operaciones de mezclas aleatorias, consulte Uso del escalado administrado de EMR en Amazon EMR en la Guía de administración de Amazon EMR y Spark Programming Guide
. -
En los clústeres de Amazon EMR habilitados para Apache Ranger, puede utilizar Apache Spark SQL para insertar datos o actualizar las tablas del metaalmacén de Apache Hive mediante
INSERT INTO
,INSERT OVERWRITE
yALTER TABLE
. Al utilizar ALTER TABLE con Spark SQL, la ubicación de una partición debe ser el directorio secundario de la ubicación de una tabla. Amazon EMR no admite actualmente la inserción de datos en una partición en la que la ubicación de la partición es diferente de la ubicación de la tabla. -
PrestoSQL se ha renombrado como Trino
. -
Hive: la ejecución de consultas SELECT sencillas con la cláusula LIMIT se acelera al detener la ejecución de las consultas en cuanto se obtiene el número de registros mencionado en la cláusula LIMIT. Las consultas SELECT simples son consultas que no tienen GROUP BY u ORDER BY por cláusula o consultas que no tienen una etapa reductora. Por ejemplo,
SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>
.
Control de simultaneidad de Hudi
-
Hudi ahora es compatible con el control de simultaneidad optimista (OCC), que se puede utilizar con operaciones de escritura como UPSERT e INSERT para permitir cambios desde varios escritores a la misma tabla de Hudi. Se trata de un OCC de nivel de archivo, por lo que dos confirmaciones (o escritores) pueden escribir en la misma tabla, siempre que sus cambios no entren en conflicto. Para más información, consulte Control de simultaneidad de Hudi
. -
Los clústeres de Amazon EMR tienen instalado ZooKeeper, que se puede utilizar como proveedor de bloqueos para OCC. Para facilitar el uso de esta característica, los clústeres de Amazon EMR tienen las siguientes propiedades preconfiguradas:
hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<
EMR Zookeeper URL
> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port
> hoodie.write.lock.zookeeper.base_path=/hudiPara habilitar el OCC, debe configurar las siguientes propiedades con sus opciones de trabajo de Hudi o en el nivel de clúster mediante la API de configuraciones de Amazon EMR:
hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=
<Key to uniquely identify the Hudi table>
(Table Name is a good option)
Supervisión de Hudi: integración de Amazon CloudWatch para informar sobre las métricas de Hudi
-
Amazon EMR admite la publicación de métricas de Hudi en Amazon CloudWatch. Se habilita mediante el establecimiento de las siguientes configuraciones obligatorias:
hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
Las siguientes son configuraciones opcionales de Hudi que se pueden cambiar:
Opción Descripción Valor hoodie.metrics.cloudwatch.report.period.seconds
Frecuencia (en segundos) con la que se informa de las métricas a Amazon CloudWatch
El valor predeterminado es 60 s, que está bien para la resolución predeterminada de un minuto que ofrece Amazon CloudWatch
hoodie.metrics.cloudwatch.metric.prefix
Prefijo que se agregará al nombre de cada métrica
El valor predeterminado es vacío (sin prefijo)
hoodie.metrics.cloudwatch.namespace
Espacio de nombres de Amazon CloudWatch en el que se publican las métricas
El valor predeterminado es Hudi
hoodie.metrics.cloudwatch.maxDatumsPerRequest
Número máximo de datos que se deben incluir en una solicitud a Amazon CloudWatch
El valor predeterminado es 20, que es el mismo que el valor predeterminado de Amazon CloudWatch
Soporte y mejoras en las configuraciones de Amazon EMR Hudi
-
Los clientes ahora pueden aprovechar la API de configuraciones de EMR y la característica de reconfiguración para configurar los ajustes de Hudi en el nivel de clúster. Se ha introducido un nuevo soporte de configuración basado en archivos en /etc/hudi/conf/hudi-defaults.conf, similar al de otras aplicaciones como Spark, Hive, etc. EMR configura algunos valores predeterminados para mejorar la experiencia del usuario:
—
hoodie.datasource.hive_sync.jdbcurl
se ha configurado en la URL del servidor de Hive del clúster y ya no es necesario especificarlo. Esto resulta especialmente útil cuando se ejecuta un trabajo en el modo de clúster de Spark, en el que anteriormente había que especificar la IP maestra de Amazon EMR.— Configuraciones específicas de HBase, que son útiles para utilizar el índice de HBase con Hudi.
— Configuración específica para el proveedor de bloqueos de ZooKeeper, tal como se explica en la sección de control de simultaneidad, que facilita el uso del control de simultaneidad optimista (OCC).
-
Se han introducido cambios adicionales para reducir el número de configuraciones que hay que pasar y, en la medida de lo posible, deducir automáticamente:
— La palabra clave
partitionBy
se puede utilizar para especificar la columna de particiones.— Al activar Hive Sync, ya no es obligatorio pasar
HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY
. Estos valores se pueden deducir del nombre de la tabla de Hudi y del campo de partición.— No es obligatorio pasar
KEYGENERATOR_CLASS_OPT_KEY
y se puede deducir de casos más simples deSimpleKeyGenerator
yComplexKeyGenerator
.
Advertencias de Hudi
-
Hudi no admite la ejecución vectorizada en las tablas Hive for Merge on Read (MoR) y Bootstrap. Por ejemplo,
count(*)
presenta un error con la tabla en tiempo real de Hudi cuandohive.vectorized.execution.enabled
se establece en true. Como solución alternativa, puede deshabilitar la lectura vectorizada al establecerhive.vectorized.execution.enabled
enfalse
. -
La compatibilidad con varios escritores no es compatible con la característica de arranque de Hudi.
-
Flink Streamer y Flink SQL son características experimentales de esta versión. Se recomienda el uso de estas características en implementaciones de producción.
Cambios, mejoras y problemas resueltos
Esta es una versión para solucionar problemas con el escalado de Amazon EMR cuando no logra escalar o reducir verticalmente de forma correcta un clúster o provoca errores en las aplicaciones.
Anteriormente, el reinicio manual del administrador de recursos en un clúster multimaestro provocaba que los daemons en el clúster de Amazon EMR, como ZooKeeper, recargaran todos los nodos perdidos o retirados previamente en el archivo znode de ZooKeeper. Esto provocaba que se superaran los límites predeterminados en ciertas situaciones. Amazon EMR ahora elimina del archivo de ZooKeeper los registros de nodos perdidos o retirados que tengan más de una hora de antigüedad y se han incrementado los límites internos.
Se solucionó un problema por el que las solicitudes de escalado de un clúster grande y muy utilizado fallaban cuando los daemons en el clúster de Amazon EMR ejecutaban actividades de comprobación de estado, como recopilar el estado del nodo de YARN y el estado del nodo de HDFS. Esto se debía a que los daemons en el clúster no podían comunicar los datos del estado de un nodo a los componentes internos de Amazon EMR.
Se han mejorado los daemons de EMR en el clúster para realizar un seguimiento correcto de los estados de los nodos cuando se reutilizan las direcciones IP a fin de mejorar la fiabilidad durante las operaciones de escalado.
SPARK-29683
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos durante la reducción vertical del clúster, ya que Spark daba por sentado que todos los nodos disponibles estaban en la lista de denegados. YARN-9011
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos debido a una condición de carrera durante la retirada de YARN cuando el clúster intentaba escalarse o reducirse verticalmente. Se ha solucionado el problema que provocaba errores en los pasos o trabajos durante el escalado del clúster al garantizar que los estados de los nodos sean siempre coherentes entre los daemons en el clúster de Amazon EMR y YARN o HDFS.
Se ha solucionado un problema por el que las operaciones de clúster, como la reducción vertical y el envío escalonado, fallaban en los clústeres de Amazon EMR habilitados con la autenticación de Kerberos. Esto se debía a que el daemon en el clúster de Amazon EMR no renovó el ticket de Kerberos, que es necesario para comunicarse de forma segura con HDFS o YARN en ejecución en el nodo principal.
-
Configuración de un clúster para corregir los problemas de rendimiento del servidor YARN Timeline de Apache en las versiones 1 y 1.5
Las versiones 1 y 1.5 del servidor YARN Timeline de Apache pueden provocar problemas de rendimiento con clústeres de EMR grandes y muy activos, especialmente con
yarn.resourcemanager.system-metrics-publisher.enabled=true
, que es la configuración predeterminada de Amazon EMR. Un servidor YARN Timeline v2 de código abierto resuelve el problema de rendimiento relacionado con la escalabilidad del servidor YARN Timeline.Otras alternativas para este problema incluyen:
La configuración de yarn.resourcemanager.system-metrics-publisher.enabled=false en yarn-site.xml.
La habilitación de la corrección para este problema al crear un clúster, tal y como se describe a continuación.
Las siguientes versiones de Amazon EMR contienen una corrección para este problema de rendimiento del servidor YARN Timeline.
EMR 5.30.2, 5.31.1, 5.32.1, 5.33.1, 5.34.x, 6.0.1, 6.1.1, 6.2.1, 6.3.1, 6.4.x
Para habilitar la corrección en cualquiera de las versiones de Amazon EMR especificadas anteriormente, defina estas propiedades como
true
en un archivo JSON de configuración que se pasa mediante el parámetro de comandoaws emr create-cluster
:--configurations file://./configurations.json
. También puede habilitar la corrección mediante la interfaz de usuario de la consola de reconfiguración.Ejemplo del contenido del archivo configurations.json:
[ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
Los servidores WebHDFS y HttpFS están deshabilitados de forma predeterminada. Puede volver a habilitar WebHDFS mediante la configuración de Hadoop,
dfs.webhdfs.enabled
. El servidor HttpFS se puede iniciar mediantesudo systemctl start hadoop-httpfs
.-
HTTPS ahora está habilitado de forma predeterminada para los repositorios de Amazon Linux. Si utiliza una política de VPCE de Amazon S3 para restringir el acceso a buckets específicos, debe agregar el nuevo ARN
arn:aws:s3:::amazonlinux-2-repos-$region/*
del bucket de Amazon Linux a su política (sustituya$region
por la región en la que se encuentra el punto de conexión). Para más información, consulte este tema en los foros de debate de AWS. Anuncio: Amazon Linux 2 ahora admite la posibilidad de utilizar HTTPS mientras se conecta a repositorios de paquetes. -
Hive: se ha mejorado el rendimiento de las consultas de escritura al permitir el uso de un directorio temporal en HDFS para el último trabajo. Los datos temporales del trabajo final se escriben en HDFS en lugar de Amazon S3 y el rendimiento mejora porque los datos se mueven de HDFS a la ubicación de la tabla final (Amazon S3) en lugar de entre dispositivos Amazon S3.
-
Hive: mejora el tiempo de compilación de consultas hasta 2,5 veces con la eliminación de particiones del metaalmacén de Glue.
-
Cuando Hive pasa las UDF integradas al servidor del metaalmacén de Hive, de manera predeterminada solo un subconjunto de esas UDF integradas se pasa al metaalmacén de Glue, ya que Glue solo admite operadores de expresión limitados. Si configura
hive.glue.partition.pruning.client=true
, toda la eliminación de particiones se realiza en el cliente. Si configurahive.glue.partition.pruning.server=true
, entonces toda la eliminación de particiones se realiza en el lado del servidor.
Problemas conocidos
Las consultas de Hue no funcionan en Amazon EMR 6.4.0 porque el servidor HttpFS de Apache Hadoop está deshabilitado de forma predeterminada. Para usar Hue en Amazon EMR 6.4.0, inicie manualmente el servidor HttpFS en el nodo principal de Amazon EMR mediante
sudo systemctl start hadoop-httpfs
o utilice un paso de Amazon EMR.La característica Cuadernos de Amazon EMR que se utiliza con la suplantación de usuarios de Livy no funciona porque HttpFS está deshabilitado de forma predeterminada. En este caso, el cuaderno de EMR no puede conectarse al clúster que tiene habilitada la suplantación de Livy. La solución alternativa consiste en iniciar el servidor HttpFS antes de conectar el cuaderno de EMR al clúster mediante
sudo systemctl start hadoop-httpfs
.En la versión 6.4.0 de Amazon EMR, Phoenix no admite el componente de conectores de Phoenix.
Para utilizar las acciones de Spark con Apache Oozie, debe agregar la siguiente configuración al archivo
workflow.xml
de Oozie. De lo contrario, varias bibliotecas críticas, como Hadoop y EMRFS, no aparecerán en la ruta de clases de los ejecutores de Spark que lance Oozie.<spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Versión 5.32.0
Las siguientes notas de la versión incluyen información sobre la versión 5.32.0 de Amazon EMR. Los cambios son respecto a la versión 5.31.0.
Fecha de lanzamiento inicial: 8 de enero de 2021
Actualizaciones
Se ha actualizado el conector de Amazon Glue a la versión 1.14.0
Se ha actualizado el SDK de Amazon SageMaker Spark a la versión 1.4.1
Se ha actualizado AWS SDK for Java a la versión 1.11.890
Se ha actualizado el conector de DynamoDB para EMR a la versión 4.16.0
Se ha actualizado EMRFS a la versión 2.45.0
Se han actualizado las métricas de análisis de registros de EMR a la versión 1.18.0
Se ha actualizado el cliente MetricsAndEventsApiGateway de EMR a la versión 1.5.0
Se ha actualizado el servidor de registros de EMR a la versión 1.8.0
Se ha actualizado EMR S3 Dist CP a la versión 2.17.0
Se ha actualizado EMR Secret Agent a la versión 1.7.0
Se ha actualizado Flink a la versión 1.11.2
Se ha actualizado Hadoop a la versión 2.10.1-amzn-0
Se ha actualizado Hive a la versión 2.3.7-amzn-3
Se ha actualizado Hue a la versión 4.8.0
Se ha actualizado MXNet a la versión 1.7.0
Se ha actualizado OpenCV a la versión 4.4.0
Se ha actualizado Presto a la versión 0.240.1-amzn-0
Se ha actualizado Spark a la versión 2.4.7-amzn-0
Se ha actualizado TensorFlow a la versión 2.3.1
Cambios, mejoras y problemas resueltos
-
Esta es una versión para solucionar problemas con el escalado de Amazon EMR cuando no logra escalar o reducir verticalmente de forma correcta un clúster o provoca errores en las aplicaciones.
Se solucionó un problema por el que las solicitudes de escalado de un clúster grande y muy utilizado fallaban cuando los daemons en el clúster de Amazon EMR ejecutaban actividades de comprobación de estado, como recopilar el estado del nodo de YARN y el estado del nodo de HDFS. Esto se debía a que los daemons en el clúster no podían comunicar los datos del estado de un nodo a los componentes internos de Amazon EMR.
Se han mejorado los daemons de EMR en el clúster para realizar un seguimiento correcto de los estados de los nodos cuando se reutilizan las direcciones IP a fin de mejorar la fiabilidad durante las operaciones de escalado.
SPARK-29683
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos durante la reducción vertical del clúster, ya que Spark daba por sentado que todos los nodos disponibles estaban en la lista de denegados. YARN-9011
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos debido a una condición de carrera durante la retirada de YARN cuando el clúster intentaba escalarse o reducirse verticalmente. Se ha solucionado el problema que provocaba errores en los pasos o trabajos durante el escalado del clúster al garantizar que los estados de los nodos sean siempre coherentes entre los daemons en el clúster de Amazon EMR y YARN o HDFS.
Se ha solucionado un problema por el que las operaciones de clúster, como la reducción vertical y el envío escalonado, fallaban en los clústeres de Amazon EMR habilitados con la autenticación de Kerberos. Esto se debía a que el daemon en el clúster de Amazon EMR no renovó el ticket de Kerberos, que es necesario para comunicarse de forma segura con HDFS o YARN en ejecución en el nodo principal.
Las versiones más recientes de Amazon EMR corrigen el problema al reducir el límite de “Máximo de archivos abiertos” en las versiones anteriores de AL2 en Amazon EMR. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración “Máximo de archivos abiertos” más alta.
Versiones de componentes actualizadas.
Para obtener una lista de las versiones de los componentes, consulte Acerca de las versiones de Amazon EMR en esta guía.
Nuevas características
A partir de Amazon EMR 5.32.0 y 6.5.0, el tamaño dinámico del ejecutor para Apache Spark se habilita de forma predeterminada. Para activar o desactivar esta característica, puede utilizar el parámetro de configuración
spark.yarn.heterogeneousExecutors.enabled
.Estado de compatibilidad con el servicio de metadatos de instancias (IMDS) V2: los componentes de Amazon EMR 5.23.1, 5.27.1 y 5.32 o versiones posteriores utilizan IMDSv2 para todas las llamadas al IMDS. Para las llamadas al IMDS en el código de la aplicación, puede utilizar IMDSv1 e IMDSv2, o configurar el IMDS para que utilice solo IMDSv2 para mayor seguridad. En otras versiones de EMR 5.x, la deshabilitación de IMDSv1 provoca un error en el inicio del clúster.
A partir de Amazon EMR 5.32.0, puede iniciar un clúster que se integre de forma nativa con Apache Ranger. Apache Ranger es un marco de código abierto para habilitar, supervisar y administrar la seguridad integral de los datos en toda la plataforma Hadoop. Para obtener más información, consulte Apache Ranger
. Con la integración nativa, puede utilizar su propio Apache Ranger para aplicar un control de acceso a los datos detallado en Amazon EMR. Consulte Integración de Amazon EMR con Apache Ranger en la Guía de versiones de Amazon EMR. La versión 5.32.0 de Amazon EMR es compatible con Amazon EMR en EKS. Para más información sobre cómo empezar a utilizar EMR en EKS, consulte ¿Qué es Amazon EMR en EKS?.
La versión 5.32.0 de Amazon EMR es compatible con Amazon EMR Studio (versión preliminar). Para más información sobre cómo empezar a usar EMR Studio, consulte Amazon EMR Studio (versión preliminar).
Políticas administradas limitadas: para cumplir con las prácticas recomendadas de AWS, Amazon EMR ha introducido la versión 2 de las políticas administradas predeterminadas limitadas a EMR como sustitutas de las políticas que quedarán en desuso. Consulte Políticas administradas por Amazon EMR.
Problemas conocidos
En el caso de los clústeres de subredes privadas de Amazon EMR 6.3.0 y 6.2.0, no puede acceder a la interfaz de usuario web de Ganglia. Aparecerá el error “Acceso denegado (403)”. Otras interfaces de usuario web, como Spark, Hue, JupyterHub, Zeppelin, Livy y Tez, funcionan con normalidad. El acceso a la interfaz de usuario web de Ganglia en los clústeres de subredes públicas también funciona con normalidad. Para resolver este problema, reinicie el servicio httpd en el nodo principal con
sudo systemctl restart httpd
. Este problema se ha corregido en la versión 6.4.0 de Amazon EMR.-
Reducir el límite de “Máximo de archivos abiertos” en las versiones de AL2 anteriores [corregido en versiones más recientes]. Las versiones de Amazon EMR emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 y emr-6.2.0 se basan en versiones anteriores de Amazon Linux 2 (AL2), que tienen una configuración de ulimit inferior para “Máximo de archivos abiertos” cuando los clústeres de Amazon EMR se crean con la AMI predeterminada. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración más alta de “Máximo de archivos abiertos”. Las versiones con el límite inferior de archivos abiertos provocan el error “Demasiados archivos abiertos” al enviar el trabajo de Spark. En las versiones afectadas, la AMI predeterminada de Amazon EMR tiene una configuración de ulimit predeterminada de 4096 para “Máximo de archivos abiertos”, una cantidad inferior al límite de 65 536 archivos de la AMI de Amazon Linux 2 más reciente. La configuración de ulimit inferior para “Máximo de archivos abiertos” provoca un fallo en el trabajo de Spark cuando el controlador y el ejecutor de Spark intentan abrir más de 4096 archivos. Para solucionar el problema, Amazon EMR tiene un script de acciones de arranque (BA) que ajusta la configuración de ulimit al crear el clúster.
Si utiliza una versión anterior de Amazon EMR que no tiene una corrección permanente para este problema, la siguiente solución alternativa le permite establecer explícitamente el ulimit del controlador de instancias en un máximo de 65 536 archivos.
Establecimiento explícito de un ulimit desde la línea de comandos
Edite
/etc/systemd/system/instance-controller.service
para agregar los siguientes parámetros a la sección de servicio.LimitNOFILE=65536
LimitNPROC=65536
Reiniciar InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Establecimiento de un ulimit mediante una acción de arranque (BA)
También puede usar un script de acciones de arranque (BA) para configurar el ulimit del controlador de instancias en 65 536 archivos al crear el clúster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
importante
Los clústeres de Amazon EMR que ejecutan las imágenes de máquina de Amazon (AMI) de Amazon Linux o Amazon Linux 2 utilizan el comportamiento predeterminado de Amazon Linux y no descargan ni instalan automáticamente actualizaciones importantes y críticas del kernel que requieren un reinicio. Este comportamiento es el mismo que el de otras instancias de Amazon EC2 que ejecutan la AMI predeterminada de Amazon Linux. Si aparecen nuevas actualizaciones de software de Amazon Linux que requieren un reinicio (por ejemplo, actualizaciones del kernel, NVIDIA y CUDA) tras el lanzamiento de una versión de Amazon EMR, las instancias de clúster de Amazon EMR que ejecutan la AMI predeterminada no descargan ni instalan automáticamente esas actualizaciones. Para obtener actualizaciones del kernel, puede personalizar la AMI de Amazon EMR para que utilice la AMI de Amazon Linux más reciente.
La región GovCloud no admite actualmente el soporte de consola para crear una configuración de seguridad que especifique la opción de integración de AWS Ranger. La configuración de seguridad se puede llevar a cabo con la CLI. Consulte Creación de la configuración de seguridad de EMR en la Guía de administración de Amazon EMR.
Cuando el cifrado AtRestEncryption o HDFS se habilita en un clúster que utiliza Amazon EMR 5.31.0 o 5.32.0, las consultas de Hive producen la siguiente excepción de tiempo de ejecución.
TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Versión 6.2.0
Las siguientes notas de la versión incluyen información sobre la versión 6.2.0 de Amazon EMR. Los cambios son respecto a la versión 6.1.0.
Fecha de lanzamiento inicial: 9 de diciembre de 2020
Fecha de la última actualización: 4 de octubre de 2021
Aplicaciones compatibles
AWS SDK for Java versión 1.11.828
emr-record-server versión 1.7.0
Flink, versión 1.11.2
Versión de Ganglia 3.7.2
Hadoop, versión 3.2.1-amzn-1
HBase, versión 2.2.6-amzn-0
HBase-operator-tools 1.0.0
HCatalog versión 3.1.2-amzn-0
Hive, versión 3.1.2-amzn-3
Hudi versión 0.6.0-amzn-1
Hue versión 4.8.0
JupyterHub versión 1.1.0
Livy versión 0.7.0
MXNet versión 1.7.0
Oozie versión 5.2.0
Versión de Phoenix 5.0.0
Pig, versión 0.17.0
Presto, versión 0.238.3-amzn-1
PrestoSQL, versión 343
Spark, versión 3.0.1-amzn-0
spark-rapids 0.2.0
TensorFlow versión 2.3.1
Zeppelin, versión 0.9.0-preview1
Versión de Zookeeper 3.4.14
Conectores y controladores: conector de DynamoDB 4.16.0
Nuevas características
HBase: se ha eliminado el cambio de nombre en la fase de confirmación y se ha agregado el seguimiento persistente de HFile. Consulte Seguimiento persistente de HFile en la Guía de versiones de Amazon EMR.
HBase: se ha agregado portabilidad con versiones anteriores para Create a config that forces to cache blocks on compaction
. PrestoDB: mejoras en la eliminación dinámica de particiones. El reordenamiento de uniones basado en reglas funciona con datos no particionados.
Políticas administradas limitadas: para cumplir con las prácticas recomendadas de AWS, Amazon EMR ha introducido la versión 2 de las políticas administradas predeterminadas limitadas a EMR como sustitutas de las políticas que quedarán en desuso. Consulte Políticas administradas por Amazon EMR.
Estado de compatibilidad del servicio de metadatos de instancias (IMDS) V2: en el caso de Amazon EMR 6.2 o posteriores, los componentes de Amazon EMR utilizan IMDSv2 para todas las llamadas al IMDS. Para las llamadas al IMDS en el código de la aplicación, puede utilizar IMDSv1 e IMDSv2, o configurar el IMDS para que utilice solo IMDSv2 para mayor seguridad. Si deshabilita IMDSv1 en versiones anteriores de Amazon EMR 6.x, se produce un error al iniciar el clúster.
Cambios, mejoras y problemas resueltos
-
Esta es una versión para solucionar problemas con el escalado de Amazon EMR cuando no logra escalar o reducir verticalmente de forma correcta un clúster o provoca errores en las aplicaciones.
Se solucionó un problema por el que las solicitudes de escalado de un clúster grande y muy utilizado fallaban cuando los daemons en el clúster de Amazon EMR ejecutaban actividades de comprobación de estado, como recopilar el estado del nodo de YARN y el estado del nodo de HDFS. Esto se debía a que los daemons en el clúster no podían comunicar los datos del estado de un nodo a los componentes internos de Amazon EMR.
Se han mejorado los daemons de EMR en el clúster para realizar un seguimiento correcto de los estados de los nodos cuando se reutilizan las direcciones IP a fin de mejorar la fiabilidad durante las operaciones de escalado.
SPARK-29683
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos durante la reducción vertical del clúster, ya que Spark daba por sentado que todos los nodos disponibles estaban en la lista de denegados. YARN-9011
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos debido a una condición de carrera durante la retirada de YARN cuando el clúster intentaba escalarse o reducirse verticalmente. Se ha solucionado el problema que provocaba errores en los pasos o trabajos durante el escalado del clúster al garantizar que los estados de los nodos sean siempre coherentes entre los daemons en el clúster de Amazon EMR y YARN o HDFS.
Se ha solucionado un problema por el que las operaciones de clúster, como la reducción vertical y el envío escalonado, fallaban en los clústeres de Amazon EMR habilitados con la autenticación de Kerberos. Esto se debía a que el daemon en el clúster de Amazon EMR no renovó el ticket de Kerberos, que es necesario para comunicarse de forma segura con HDFS o YARN en ejecución en el nodo principal.
Las versiones más recientes de Amazon EMR corrigen el problema al reducir el límite de “Máximo de archivos abiertos” en las versiones anteriores de AL2 en Amazon EMR. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración “Máximo de archivos abiertos” más alta.
Spark: mejoras de rendimiento en el tiempo de ejecución de Spark.
Problemas conocidos
Amazon EMR 6.2 tiene permisos incorrectos configurados en el archivo /etc/cron.d/libinstance-controller-java en EMR 6.2.0. Los permisos del archivo son 645 (-rw-r--r-x), cuando deberían ser 644 (-rw-r--r--). Por consiguiente, la versión 6.2 de Amazon EMR no registra los registros del estado de la instancia y el directorio /emr/instance-logs está vacío. Este problema se ha corregido en la versión 6.3.0 de Amazon EMR y posteriores.
Para solucionar este problema, ejecute el siguiente script como acción de arranque al iniciar el clúster.
#!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
En el caso de los clústeres de subredes privadas de Amazon EMR 6.2.0 y 6.3.0, no puede acceder a la interfaz de usuario web de Ganglia. Aparecerá el error “Acceso denegado (403)”. Otras interfaces de usuario web, como Spark, Hue, JupyterHub, Zeppelin, Livy y Tez, funcionan con normalidad. El acceso a la interfaz de usuario web de Ganglia en los clústeres de subredes públicas también funciona con normalidad. Para resolver este problema, reinicie el servicio httpd en el nodo principal con
sudo systemctl restart httpd
. Este problema se ha corregido en la versión 6.4.0 de Amazon EMR.Hay un problema en Amazon EMR 6.2.0 por el que httpd genera errores continuamente, lo que provoca que Ganglia no esté disponible. Aparece el error “No se puede conectar al servidor”. Para corregir un clúster que ya se está ejecutando con este problema, utilice SSH en el nodo principal del clúster y agregue la línea
Listen 80
al archivohttpd.conf
ubicado en/etc/httpd/conf/httpd.conf
. Este problema se ha corregido en la versión 6.3.0 de Amazon EMR.HTTPD presenta errores en los clústeres de EMR 6.2.0 cuando se utiliza una configuración de seguridad. Esto hace que la interfaz de usuario de la aplicación web de Ganglia no esté disponible. Para acceder a la interfaz de usuario de la aplicación web de Ganglia, agregue
Listen 80
al archivo/etc/httpd/conf/httpd.conf
del nodo principal del clúster. Para obtener información acerca de la conexión al clúster, consulte Conectarse al nodo principal mediante SSH.Cuadernos de EMR tampoco puede establecer una conexión con los clústeres de EMR 6.2.0 cuando se utiliza una configuración de seguridad. El cuaderno no podrá enumerar los kernels ni enviar trabajos a Spark. En su lugar, se recomienda que utilice Cuadernos de EMR con otra versión de Amazon EMR.
-
Reducir el límite de “Máximo de archivos abiertos” en las versiones de AL2 anteriores [corregido en versiones más recientes]. Las versiones de Amazon EMR emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 y emr-6.2.0 se basan en versiones anteriores de Amazon Linux 2 (AL2), que tienen una configuración de ulimit inferior para “Máximo de archivos abiertos” cuando los clústeres de Amazon EMR se crean con la AMI predeterminada. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración más alta de “Máximo de archivos abiertos”. Las versiones con el límite inferior de archivos abiertos provocan el error “Demasiados archivos abiertos” al enviar el trabajo de Spark. En las versiones afectadas, la AMI predeterminada de Amazon EMR tiene una configuración de ulimit predeterminada de 4096 para “Máximo de archivos abiertos”, una cantidad inferior al límite de 65 536 archivos de la AMI de Amazon Linux 2 más reciente. La configuración de ulimit inferior para “Máximo de archivos abiertos” provoca un fallo en el trabajo de Spark cuando el controlador y el ejecutor de Spark intentan abrir más de 4096 archivos. Para solucionar el problema, Amazon EMR tiene un script de acciones de arranque (BA) que ajusta la configuración de ulimit al crear el clúster.
Si utiliza una versión anterior de Amazon EMR que no tiene una corrección permanente para este problema, la siguiente solución alternativa le permite establecer explícitamente el ulimit del controlador de instancias en un máximo de 65 536 archivos.
Establecimiento explícito de un ulimit desde la línea de comandos
Edite
/etc/systemd/system/instance-controller.service
para agregar los siguientes parámetros a la sección de servicio.LimitNOFILE=65536
LimitNPROC=65536
Reiniciar InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Establecimiento de un ulimit mediante una acción de arranque (BA)
También puede usar un script de acciones de arranque (BA) para configurar el ulimit del controlador de instancias en 65 536 archivos al crear el clúster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
importante
Amazon EMR 6.1.0 y 6.2.0 incluyen un problema de rendimiento que puede afectar gravemente a todas las operaciones de inserción, upsert y eliminación de Hudi. Si planea utilizar Hudi con Amazon EMR 6.1.0 o 6.2.0, póngase en contacto con la asistencia técnica de AWS para obtener un RPM de Hudi con revisiones.
-
importante
Los clústeres de Amazon EMR que ejecutan las imágenes de máquina de Amazon (AMI) de Amazon Linux o Amazon Linux 2 utilizan el comportamiento predeterminado de Amazon Linux y no descargan ni instalan automáticamente actualizaciones importantes y críticas del kernel que requieren un reinicio. Este comportamiento es el mismo que el de otras instancias de Amazon EC2 que ejecutan la AMI predeterminada de Amazon Linux. Si aparecen nuevas actualizaciones de software de Amazon Linux que requieren un reinicio (por ejemplo, actualizaciones del kernel, NVIDIA y CUDA) tras el lanzamiento de una versión de Amazon EMR, las instancias de clúster de Amazon EMR que ejecutan la AMI predeterminada no descargan ni instalan automáticamente esas actualizaciones. Para obtener actualizaciones del kernel, puede personalizar la AMI de Amazon EMR para que utilice la AMI de Amazon Linux más reciente.
Los artefactos de Maven de Amazon EMR 6.2.0 no están publicados. Se publicarán en una versión futura de Amazon EMR.
El seguimiento persistente de HFile mediante la tabla del sistema de archivos de almacenamiento de HBase no admite la característica de replicación regional de HBase. Para más información sobre la replicación regional de HBase, consulte Timeline-consistent High Available Reads
. Diferencias entre las versiones de agrupación en buckets de Amazon EMR 6.x y EMR 5.x Hive
EMR 5.x utiliza OOS Apache Hive 2, mientras que en EMR 6.x se utiliza OOS Apache Hive 3. Hive2 de código abierto usa la versión 1 de agrupación en buckets, mientras que Hive3 de código abierto usa la versión 2 de agrupación en buckets. Esta diferencia de versión de agrupación en buckets entre Hive 2 (EMR 5.x) y Hive 3 (EMR 6.x) significa que el hash de agrupación en buckets de Hive funciona de manera diferente. Vea el ejemplo siguiente.
La siguiente tabla es un ejemplo creado en EMR 6.x y EMR 5.x, respectivamente.
-- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';
Se insertan los mismos datos en EMR 6.x y EMR 5.x.
INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');
Al comprobar la ubicación de S3, se muestra que el nombre del archivo de agrupación en buckets es diferente, ya que la función de hash es diferente entre EMR 6.x (Hive 3) y EMR 5.x (Hive 2).
[hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0
También puede ver la diferencia de versión mediante la ejecución del siguiente comando en la CLI de Hive en EMR 6.x. Tenga en cuenta que devuelve la versión 2 de la agrupación en buckets.
hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Versión 5.31.0
Las siguientes notas de la versión incluyen información sobre la versión 5.31.0 de Amazon EMR. Los cambios son respecto a la versión 5.30.1.
Fecha de lanzamiento inicial: 9 de octubre de 2020
Fecha de la última actualización: 15 de octubre de 2020
Actualizaciones
Se ha actualizado el conector de Amazon Glue a la versión 1.13.0
Se ha actualizado el SDK de Amazon SageMaker Spark a la versión 1.4.0
Se ha actualizado el conector Amazon Kinesis a la versión 3.5.9
Se ha actualizado AWS SDK for Java a la versión 1.11.852
Se ha actualizado Bigtop-tomcat a la versión 8.5.56
Se ha actualizado EMRFS a la versión 2.43.0
Se ha actualizado el cliente MetricsAndEventsApiGateway de EMR a la versión 1.4.0
Se ha actualizado EMR S3 Dist CP a la versión 2.15.0
Se ha actualizado EMR S3 Select a la versión 1.6.0
Se ha actualizado Flink a la versión 1.11.0
Se ha actualizado Hadoop a la versión 2.10.0
Se ha actualizado Hive a la versión 2.3.7
Se ha actualizado Hudi a la versión 0.6.0
Se ha actualizado Hue a la versión 4.7.1
Se actualizó JupyterHub a la versión 1.1.0
Se ha actualizado MXNet a la versión 1.6.0
Se ha actualizado OpenCV a la versión 4.3.0
Se ha actualizado Presto a la versión 0.238.3
Se ha actualizado TensorFlow a la versión 2.1.0
Cambios, mejoras y problemas resueltos
-
Esta es una versión para solucionar problemas con el escalado de Amazon EMR cuando no logra escalar o reducir verticalmente de forma correcta un clúster o provoca errores en las aplicaciones.
Se solucionó un problema por el que las solicitudes de escalado de un clúster grande y muy utilizado fallaban cuando los daemons en el clúster de Amazon EMR ejecutaban actividades de comprobación de estado, como recopilar el estado del nodo de YARN y el estado del nodo de HDFS. Esto se debía a que los daemons en el clúster no podían comunicar los datos del estado de un nodo a los componentes internos de Amazon EMR.
Se han mejorado los daemons de EMR en el clúster para realizar un seguimiento correcto de los estados de los nodos cuando se reutilizan las direcciones IP a fin de mejorar la fiabilidad durante las operaciones de escalado.
SPARK-29683
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos durante la reducción vertical del clúster, ya que Spark daba por sentado que todos los nodos disponibles estaban en la lista de denegados. YARN-9011
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos debido a una condición de carrera durante la retirada de YARN cuando el clúster intentaba escalarse o reducirse verticalmente. Se ha solucionado el problema que provocaba errores en los pasos o trabajos durante el escalado del clúster al garantizar que los estados de los nodos sean siempre coherentes entre los daemons en el clúster de Amazon EMR y YARN o HDFS.
Se ha solucionado un problema por el que las operaciones de clúster, como la reducción vertical y el envío escalonado, fallaban en los clústeres de Amazon EMR habilitados con la autenticación de Kerberos. Esto se debía a que el daemon en el clúster de Amazon EMR no renovó el ticket de Kerberos, que es necesario para comunicarse de forma segura con HDFS o YARN en ejecución en el nodo principal.
Las versiones más recientes de Amazon EMR corrigen el problema al reducir el límite de “Máximo de archivos abiertos” en las versiones anteriores de AL2 en Amazon EMR. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración “Máximo de archivos abiertos” más alta.
Las estadísticas de columnas de Hive
son compatibles con las versiones 5.31.0 y posteriores de Amazon EMR. Versiones de componentes actualizadas.
Compatibilidad con EMRFS S3EC V2 en Amazon EMR 5.31.0. En las versiones 1.11.837 y posteriores del SDK para Java de S3, se ha introducido la versión 2 del cliente de cifrado (S3EC V2) con varias mejoras de seguridad. Para más información, consulte los siguientes temas:
Publicación en el blog de S3: Updates to the Amazon S3 encryption client
. Guía para desarrolladores de AWS SDK for Java: Migrar clientes de cifrado y descifrado a la V2.
Guía de administración de EMR: Cifrado del cliente de Amazon S3.
La versión 1 del cliente de cifrado todavía está disponible en el SDK por motivos de compatibilidad con versiones anteriores.
Nuevas características
-
Reducir el límite de “Máximo de archivos abiertos” en las versiones de AL2 anteriores [corregido en versiones más recientes]. Las versiones de Amazon EMR emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 y emr-6.2.0 se basan en versiones anteriores de Amazon Linux 2 (AL2), que tienen una configuración de ulimit inferior para “Máximo de archivos abiertos” cuando los clústeres de Amazon EMR se crean con la AMI predeterminada. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración más alta de “Máximo de archivos abiertos”. Las versiones con el límite inferior de archivos abiertos provocan el error “Demasiados archivos abiertos” al enviar el trabajo de Spark. En las versiones afectadas, la AMI predeterminada de Amazon EMR tiene una configuración de ulimit predeterminada de 4096 para “Máximo de archivos abiertos”, una cantidad inferior al límite de 65 536 archivos de la AMI de Amazon Linux 2 más reciente. La configuración de ulimit inferior para “Máximo de archivos abiertos” provoca un fallo en el trabajo de Spark cuando el controlador y el ejecutor de Spark intentan abrir más de 4096 archivos. Para solucionar el problema, Amazon EMR tiene un script de acciones de arranque (BA) que ajusta la configuración de ulimit al crear el clúster.
Si utiliza una versión anterior de Amazon EMR que no tiene una corrección permanente para este problema, la siguiente solución alternativa le permite establecer explícitamente el ulimit del controlador de instancias en un máximo de 65 536 archivos.
Establecimiento explícito de un ulimit desde la línea de comandos
Edite
/etc/systemd/system/instance-controller.service
para agregar los siguientes parámetros a la sección de servicio.LimitNOFILE=65536
LimitNPROC=65536
Reiniciar InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Establecimiento de un ulimit mediante una acción de arranque (BA)
También puede usar un script de acciones de arranque (BA) para configurar el ulimit del controlador de instancias en 65 536 archivos al crear el clúster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
Con Amazon EMR 5.31.0, puede lanzar un clúster que se integre con Lake Formation. Esta integración proporciona filtrado de datos detallado de nivel de columna en bases de datos y tablas en el Catálogo de datos de AWS Glue. También permite un inicio de sesión único federado en cuadernos de EMR o Apache Zeppelin desde un sistema de identidades empresariales. Para más información, consulte Integración de Amazon EMR con AWS Lake Formation en la Guía de administración de Amazon EMR.
Amazon EMR con Lake Formation actualmente está disponible en 16 regiones de AWS: Este de EE. UU. (Ohio y Norte de Virginia), Oeste de EE. UU. (Norte de California y Oregón), Asia-Pacífico (Bombay, Seúl, Singapur, Sídney y Tokio), Canadá (centro), Europa (Fráncfort, Irlanda, Londres, París y Estocolmo), América del Sur (São Paulo).
Problemas conocidos
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Cuando el cifrado AtRestEncryption o HDFS se habilita en un clúster que utiliza Amazon EMR 5.31.0 o 5.32.0, las consultas de Hive producen la siguiente excepción de tiempo de ejecución.
TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Versión 6.1.0
Las siguientes notas de la versión incluyen información sobre la versión 6.1.0 de Amazon EMR. Los cambios son respecto a la versión 6.0.0.
Fecha de lanzamiento inicial: 4 de septiembre de 2020
Fecha de la última actualización: 15 de octubre de 2020
Aplicaciones compatibles
AWS SDK for Java versión 1.11.828
Flink, versión 1.11.0
Versión de Ganglia 3.7.2
Hadoop, versión 3.2.1-amzn-1
HBase, versión 2.2.5
HBase-operator-tools 1.0.0
HCatalog versión 3.1.2-amzn-0
Hive, versión 3.1.2-amzn-1
Hudi versión 0.5.2-incubating
Hue versión 4.7.1
JupyterHub versión 1.1.0
Livy versión 0.7.0
MXNet versión 1.6.0
Oozie versión 5.2.0
Versión de Phoenix 5.0.0
Presto, versión 0.232
PrestoSQL, versión 338
Spark, versión 3.0.0-amzn-0
TensorFlow versión 2.1.0
Zeppelin, versión 0.9.0-preview1
Versión de Zookeeper 3.4.14
Conectores y controladores: DynamoDB Connector 4.14.0
Nuevas características
Los tipos de instancias de ARM se admiten a partir de la versión 5.30.0 de Amazon EMR y la versión 6.1.0 de Amazon EMR.
Los tipos de instancia de uso general m6g se admiten a partir de las versiones 6.1.0 y 5.30.0 de Amazon EMR. Para más información, consulte Tipos de instancias admitidas en la Guía de administración de Amazon EMR.
La característica de grupos de ubicación de EC2 se admite a partir de la versión 5.23.0 de Amazon EMR como opción para varios clústeres de nodos principales. Actualmente, la característica de grupos de ubicación solo admite los tipos de nodos principales y la estrategia
SPREAD
se aplica a esos nodos. La estrategiaSPREAD
coloca un pequeño grupo de instancias en un hardware subyacente independiente para evitar la pérdida de varios nodos principales en caso de que se produzca un error de hardware. Para más información, consulte Integración de EMR con el grupo de ubicación de EC2 en la Guía de administración de Amazon EMR.Escalado administrado: con la versión 6.1.0 de Amazon EMR, puede habilitar el escalado administrado de Amazon EMR para aumentar o disminuir automáticamente el número de instancias o unidades del clúster en función de la carga de trabajo. Amazon EMR evalúa continuamente las métricas del clúster para tomar decisiones de escalado que optimicen los clústeres en cuanto al costo y la velocidad. El escalado administrado también está disponible en la versión 5.30.0 y posteriores de Amazon EMR, excepto 6.0.0. Para más información, consulte Recursos de escalado de clúster en la Guía de administración de Amazon EMR.
La versión 338 de PrestoSQL es compatible con EMR 6.1.0. Para más información, consulte Presto.
PrestoSQL solo es compatible con EMR 6.1.0 y versiones posteriores, no con EMR 6.0.0 ni EMR 5.x.
El nombre de la aplicación,
Presto
, se sigue utilizando para instalar PrestoDB en los clústeres. Para instalar PrestoSQL en los clústeres, utilice el nombre de la aplicaciónPrestoSQL
.Puede instalar PrestoDB o PrestoSQL, pero no puede instalar ambos en un solo clúster. Si se especifican PrestoDB y PrestoSQL al intentar crear un clúster, se produce un error tanto en la validación como en la solicitud de creación del clúster.
PrestoSQL es compatible con clústeres de maestro único o multimaestro. En los clústeres multimaestro, se necesita un metaalmacén de Hive externo para ejecutar PrestoSQL o PrestoDB. Consulte Aplicaciones admitidas en un clúster de EMR con varios nodos principales.
Soporte de autenticación automática de ECR en Apache Hadoop y Apache Spark con Docker: los usuarios de Spark pueden utilizar imágenes de Docker de Docker Hub y Amazon Elastic Container Registry (Amazon ECR) para definir las dependencias del entorno y la biblioteca.
Configuración de Docker y Ejecución de aplicaciones de Spark con Docker mediante Amazon EMR 6.x..
EMR admite transacciones ACID de Apache Hive: Amazon EMR 6.1.0 agrega compatibilidad con las transacciones ACID de Hive para que cumpla con las propiedades ACID de una base de datos. Con esta característica, puede ejecutar operaciones
INSERT, UPDATE, DELETE,
yMERGE
en tablas administradas por Hive con datos de Amazon Simple Storage Service (Amazon S3). Se trata de una característica clave para casos de uso como la ingesta de contenido en streaming, la reformulación de datos, las actualizaciones masivas mediante MERGE y los cambios lentos de dimensiones. Para más información, incluidos ejemplos de configuración y casos de uso, consulte Amazon EMR admite transacciones ACID de Apache Hive.
Cambios, mejoras y problemas resueltos
-
Esta es una versión para solucionar problemas con el escalado de Amazon EMR cuando no logra escalar o reducir verticalmente de forma correcta un clúster o provoca errores en las aplicaciones.
Se solucionó un problema por el que las solicitudes de escalado de un clúster grande y muy utilizado fallaban cuando los daemons en el clúster de Amazon EMR ejecutaban actividades de comprobación de estado, como recopilar el estado del nodo de YARN y el estado del nodo de HDFS. Esto se debía a que los daemons en el clúster no podían comunicar los datos del estado de un nodo a los componentes internos de Amazon EMR.
Se han mejorado los daemons de EMR en el clúster para realizar un seguimiento correcto de los estados de los nodos cuando se reutilizan las direcciones IP a fin de mejorar la fiabilidad durante las operaciones de escalado.
SPARK-29683
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos durante la reducción vertical del clúster, ya que Spark daba por sentado que todos los nodos disponibles estaban en la lista de denegados. YARN-9011
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos debido a una condición de carrera durante la retirada de YARN cuando el clúster intentaba escalarse o reducirse verticalmente. Se ha solucionado el problema que provocaba errores en los pasos o trabajos durante el escalado del clúster al garantizar que los estados de los nodos sean siempre coherentes entre los daemons en el clúster de Amazon EMR y YARN o HDFS.
Se ha solucionado un problema por el que las operaciones de clúster, como la reducción vertical y el envío escalonado, fallaban en los clústeres de Amazon EMR habilitados con la autenticación de Kerberos. Esto se debía a que el daemon en el clúster de Amazon EMR no renovó el ticket de Kerberos, que es necesario para comunicarse de forma segura con HDFS o YARN en ejecución en el nodo principal.
Las versiones más recientes de Amazon EMR corrigen el problema al reducir el límite de “Máximo de archivos abiertos” en las versiones anteriores de AL2 en Amazon EMR. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración “Máximo de archivos abiertos” más alta.
Apache Flink no es compatible con EMR 6.0.0, pero sí con EMR 6.1.0 con Flink 1.11.0. Esta es la primera versión de Flink que es compatible oficialmente con Hadoop 3. Consulte Apache Flink 1.11.0 Release Announcement
. Se ha eliminado Ganglia de los paquetes predeterminados de EMR 6.1.0.
Problemas conocidos
-
Reducir el límite de “Máximo de archivos abiertos” en las versiones de AL2 anteriores [corregido en versiones más recientes]. Las versiones de Amazon EMR emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 y emr-6.2.0 se basan en versiones anteriores de Amazon Linux 2 (AL2), que tienen una configuración de ulimit inferior para “Máximo de archivos abiertos” cuando los clústeres de Amazon EMR se crean con la AMI predeterminada. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración más alta de “Máximo de archivos abiertos”. Las versiones con el límite inferior de archivos abiertos provocan el error “Demasiados archivos abiertos” al enviar el trabajo de Spark. En las versiones afectadas, la AMI predeterminada de Amazon EMR tiene una configuración de ulimit predeterminada de 4096 para “Máximo de archivos abiertos”, una cantidad inferior al límite de 65 536 archivos de la AMI de Amazon Linux 2 más reciente. La configuración de ulimit inferior para “Máximo de archivos abiertos” provoca un fallo en el trabajo de Spark cuando el controlador y el ejecutor de Spark intentan abrir más de 4096 archivos. Para solucionar el problema, Amazon EMR tiene un script de acciones de arranque (BA) que ajusta la configuración de ulimit al crear el clúster.
Si utiliza una versión anterior de Amazon EMR que no tiene una corrección permanente para este problema, la siguiente solución alternativa le permite establecer explícitamente el ulimit del controlador de instancias en un máximo de 65 536 archivos.
Establecimiento explícito de un ulimit desde la línea de comandos
Edite
/etc/systemd/system/instance-controller.service
para agregar los siguientes parámetros a la sección de servicio.LimitNOFILE=65536
LimitNPROC=65536
Reiniciar InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Establecimiento de un ulimit mediante una acción de arranque (BA)
También puede usar un script de acciones de arranque (BA) para configurar el ulimit del controlador de instancias en 65 536 archivos al crear el clúster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
importante
Amazon EMR 6.1.0 y 6.2.0 incluyen un problema de rendimiento que puede afectar gravemente a todas las operaciones de inserción, upsert y eliminación de Hudi. Si planea utilizar Hudi con Amazon EMR 6.1.0 o 6.2.0, póngase en contacto con la asistencia técnica de AWS para obtener un RPM de Hudi con revisiones.
Si establece una configuración personalizada de recopilación de elementos no utilizados con
spark.driver.extraJavaOptions
yspark.executor.extraJavaOptions
, esto provocará un error en el inicio del controlador o ejecutor con EMR 6.1 debido a una configuración de recopilación de elementos no utilizados conflictiva. En su lugar, con la versión 6.1.0 de EMR, debe especificar una configuración personalizada de recopilación de elementos no utilizados de Spark para los controladores y ejecutores con las propiedadesspark.driver.defaultJavaOptions
yspark.executor.defaultJavaOptions
. Obtenga más información en Apache Spark Runtime Environmenty Configuración de la recopilación de elementos no utilizados de Spark en Amazon EMR 6.1.0. -
Al utilizar Pig con Oozie (y dentro de Hue, ya que Hue utiliza las acciones de Oozie para ejecutar scripts de Pig), se genera un error que indica que no se puede cargar una biblioteca lzo nativa. Este mensaje de error es informativo y no impide que Pig se ejecute.
Soporte de simultaneidad de Hudi: actualmente, Hudi no admite escrituras simultáneas en una sola tabla de Hudi. Además, Hudi revierte los cambios que estén realizando los escritores en curso antes de permitir que comience un nuevo escritor. Las escrituras simultáneas pueden interferir con este mecanismo e introducir condiciones de carrera, lo que puede provocar la corrupción de los datos. Debe asegurarse de que, como parte de su flujo de trabajo de procesamiento de datos, solo haya un escritor de Hudi trabajando en una tabla de Hudi a la vez. Hudi admite que varios lectores simultáneos trabajen en la misma tabla de Hudi.
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Hay un problema en Amazon EMR 6.1.0 que afecta a los clústeres que ejecutan Presto. Tras un periodo de tiempo prolongado (días), el clúster puede generar errores como “su: no se puede ejecutar /bin/bash: recurso temporalmente no disponible” o “error de la solicitud del intérprete de comandos en el canal 0”. Este problema se debe a un proceso interno de Amazon EMR (InstanceController) que genera demasiados procesos ligeros (LWP), lo que, finalmente, hace que el usuario de Hadoop supere su límite de nproc. Esto impide que el usuario abra procesos adicionales. La solución para este problema consiste en actualizar a EMR 6.2.0.
Versión 6.0.0
Las siguientes notas de la versión incluyen información sobre la versión 6.0.0 de Amazon EMR.
Fecha de lanzamiento inicial: 10 de marzo de 2020
Aplicaciones compatibles
AWS SDK for Java versión 1.11.711
Versión de Ganglia 3.7.2
Versión de Hadoop 3.2.1
Versión de HBase 2.2.3
Versión de HCatalog 3.1.2
Versión de Hive 3.1.2
Versión de Hudi 0.5.0-incubating
Versión de Hue 4.4.0
Versión de JupyterHub 1.0.0
Versión de Livy 0.6.0
Versión de MXNet 1.5.1
Versión de Oozie 5.1.0
Versión de Phoenix 5.0.0
Versión de Presto 0.230
Versión de Spark 2.4.4
Versión de TensorFlow 1.14.0
Versión de Zeppelin 0.9.0-SNAPSHOT
Versión de Zookeeper 3.4.14
Conectores y controladores: DynamoDB Connector 4.14.0
nota
Flink, Sqoop, Pig y Mahout no están disponibles en la versión 6.0.0 de Amazon EMR.
Nuevas características
Soporte de tiempo de ejecución para YARN Docker: las aplicaciones de YARN, como los trabajos de Spark, ahora pueden ejecutarse en el contexto de un contenedor de Docker. Esto le permite definir fácilmente dependencias en una imagen de Docker sin necesidad de instalar bibliotecas personalizadas en su clúster de Amazon EMR. Para más información, consulte Configurar la integración de Docker y Ejecutar aplicaciones de Spark con Docker mediante Amazon EMR 6.0.0.
-
Soporte LLAP de Hive: Hive ahora admite el modo de ejecución LLAP para mejorar el rendimiento de las consultas. Para obtener más información, consulte Uso de Hive LLAP.
Cambios, mejoras y problemas resueltos
-
Esta es una versión para solucionar problemas con el escalado de Amazon EMR cuando no logra escalar o reducir verticalmente de forma correcta un clúster o provoca errores en las aplicaciones.
Se solucionó un problema por el que las solicitudes de escalado de un clúster grande y muy utilizado fallaban cuando los daemons en el clúster de Amazon EMR ejecutaban actividades de comprobación de estado, como recopilar el estado del nodo de YARN y el estado del nodo de HDFS. Esto se debía a que los daemons en el clúster no podían comunicar los datos del estado de un nodo a los componentes internos de Amazon EMR.
Se han mejorado los daemons de EMR en el clúster para realizar un seguimiento correcto de los estados de los nodos cuando se reutilizan las direcciones IP a fin de mejorar la fiabilidad durante las operaciones de escalado.
SPARK-29683
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos durante la reducción vertical del clúster, ya que Spark daba por sentado que todos los nodos disponibles estaban en la lista de denegados. YARN-9011
. Se ha corregido un error que provocaba que se produjeran errores en los trabajos debido a una condición de carrera durante la retirada de YARN cuando el clúster intentaba escalarse o reducirse verticalmente. Se ha solucionado el problema que provocaba errores en los pasos o trabajos durante el escalado del clúster al garantizar que los estados de los nodos sean siempre coherentes entre los daemons en el clúster de Amazon EMR y YARN o HDFS.
Se ha solucionado un problema por el que las operaciones de clúster, como la reducción vertical y el envío escalonado, fallaban en los clústeres de Amazon EMR habilitados con la autenticación de Kerberos. Esto se debía a que el daemon en el clúster de Amazon EMR no renovó el ticket de Kerberos, que es necesario para comunicarse de forma segura con HDFS o YARN en ejecución en el nodo principal.
Las versiones más recientes de Amazon EMR corrigen el problema al reducir el límite de “Máximo de archivos abiertos” en las versiones anteriores de AL2 en Amazon EMR. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración “Máximo de archivos abiertos” más alta.
Amazon Linux
Amazon Linux 2 es el sistema operativo de la serie de versiones 6.x de EMR.
Para la administración de servicios se utiliza
systemd
en lugar deupstart
que se utilizaba en Amazon Linux 1.
Kit de desarrollo de Java (JDK)
Corretto JDK 8 es el JDK predeterminado para la serie de versiones de EMR 6.x.
Scala
Scala 2.12 se utiliza con Apache Spark y Apache Livy.
Python 3
Python 3 es ahora la versión predeterminada de Python en EMR.
Etiquetas de nodo YARN
A partir de la serie de versiones 6.x de Amazon EMR, la característica de etiquetas de nodo YARN está desactivada de forma predeterminada. De forma predeterminada, los procesos maestros de la aplicación se pueden ejecutar tanto en nodos principales como en nodos de tareas. Puede habilitar la función de etiquetas de nodo YARN configurando las siguientes propiedades:
yarn.node-labels.enabled
yyarn.node-labels.am.default-node-label-expression
. Para más información, consulte Comprensión de los nodos principales, básicos y de tareas.
Problemas conocidos
-
Reducir el límite de “Máximo de archivos abiertos” en las versiones de AL2 anteriores [corregido en versiones más recientes]. Las versiones de Amazon EMR emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 y emr-6.2.0 se basan en versiones anteriores de Amazon Linux 2 (AL2), que tienen una configuración de ulimit inferior para “Máximo de archivos abiertos” cuando los clústeres de Amazon EMR se crean con la AMI predeterminada. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración más alta de “Máximo de archivos abiertos”. Las versiones con el límite inferior de archivos abiertos provocan el error “Demasiados archivos abiertos” al enviar el trabajo de Spark. En las versiones afectadas, la AMI predeterminada de Amazon EMR tiene una configuración de ulimit predeterminada de 4096 para “Máximo de archivos abiertos”, una cantidad inferior al límite de 65 536 archivos de la AMI de Amazon Linux 2 más reciente. La configuración de ulimit inferior para “Máximo de archivos abiertos” provoca un fallo en el trabajo de Spark cuando el controlador y el ejecutor de Spark intentan abrir más de 4096 archivos. Para solucionar el problema, Amazon EMR tiene un script de acciones de arranque (BA) que ajusta la configuración de ulimit al crear el clúster.
Si utiliza una versión anterior de Amazon EMR que no tiene una corrección permanente para este problema, la siguiente solución alternativa le permite establecer explícitamente el ulimit del controlador de instancias en un máximo de 65 536 archivos.
Establecimiento explícito de un ulimit desde la línea de comandos
Edite
/etc/systemd/system/instance-controller.service
para agregar los siguientes parámetros a la sección de servicio.LimitNOFILE=65536
LimitNPROC=65536
Reiniciar InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Establecimiento de un ulimit mediante una acción de arranque (BA)
También puede usar un script de acciones de arranque (BA) para configurar el ulimit del controlador de instancias en 65 536 archivos al crear el clúster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
El shell interactivo de Spark, incluyendo PySpark, SparkR y spark-shell, no admite el uso de Docker con bibliotecas adicionales.
-
Para utilizar Python 3 con la versión 6.0.0 de Amazon EMR, debe agregar
PATH
ayarn.nodemanager.env-whitelist
. -
La funcionalidad Live Long and Process (LLAP) no se admite cuando se utiliza el Catálogo de datos de AWS Glue como metaalmacén de Hive.
-
Al utilizar Amazon EMR 6.0.0 con la integración de Spark y Docker, debe configurar las instancias del clúster con el mismo tipo de instancia y la misma cantidad de volúmenes de EBS para evitar errores al enviar un trabajo de Spark con el tiempo de ejecución de Docker.
-
En Amazon EMR 6.0.0, el problema HBASE-24286
afecta al modo de almacenamiento de HBase en Amazon S3. El maestro de HBase no se puede inicializar cuando se crea el clúster con los datos de S3 existentes. -
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.30.1
Las siguientes notas de la versión incluyen información sobre la versión 5.30.1 de Amazon EMR. Los cambios son respecto a la versión 5.30.0.
Fecha de lanzamiento inicial: 30 de junio de 2020
Fecha de la última actualización: 24 de agosto de 2020
Cambios, mejoras y problemas resueltos
Las versiones más recientes de Amazon EMR corrigen el problema al reducir el límite de “Máximo de archivos abiertos” en las versiones anteriores de AL2 en Amazon EMR. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración “Máximo de archivos abiertos” más alta.
Se ha solucionado el problema que provocaba que el proceso del controlador de instancias generaba un número infinito de procesos.
Se ha solucionado el problema que provocaba que Hue no pudiera ejecutar una consulta de Hive, mostrara el mensaje “database is locked” e impidiera la ejecución de consultas.
Se ha corregido un problema de Spark que permitía ejecutar más tareas simultáneamente en el clúster de EMR.
Se ha corregido un error en el cuaderno de Jupyter que provocaba el “too many files open” en el servidor de Jupyter.
Se ha corregido un problema con las horas de inicio de los clústeres.
Nuevas características
Las interfaces de aplicación persistentes de la IU de Tez y el servidor YARN Timeline están disponibles con las versiones 6.x de Amazon EMR y la versión 5.30.1 y posteriores de EMR. El acceso mediante un enlace al historial de aplicaciones persistente con un solo clic le permite acceder rápidamente al historial de trabajos sin necesidad de configurar un proxy web a través de una conexión SSH. Los registros de los clústeres activos y terminados están disponibles durante los 30 días posteriores a la finalización de la aplicación. Para más información, consulte Ver interfaces de usuario de aplicaciones persistentes en la Guía de administración de Amazon EMR.
Las API de ejecución de cuadernos de EMR están disponibles para ejecutar cuadernos de EMR mediante un script o una línea de comandos. La capacidad de iniciar, detener, enumerar y describir las ejecuciones de cuadernos de EMR sin la Consola de AWS le permite controlar mediante programación un cuaderno de EMR. Al utilizar una celda de cuaderno parametrizada, puede pasar diferentes valores de parámetros a un cuaderno sin tener que crear una copia del cuaderno para cada nuevo conjunto de valores de parámetros. Consulte Acciones de la API de EMR. Para ver un código de ejemplo, consulte Ejemplos de comandos para ejecutar Cuadernos de EMR mediante programación.
Problemas conocidos
-
Reducir el límite de “Máximo de archivos abiertos” en las versiones de AL2 anteriores [corregido en versiones más recientes]. Las versiones de Amazon EMR emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 y emr-6.2.0 se basan en versiones anteriores de Amazon Linux 2 (AL2), que tienen una configuración de ulimit inferior para “Máximo de archivos abiertos” cuando los clústeres de Amazon EMR se crean con la AMI predeterminada. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración más alta de “Máximo de archivos abiertos”. Las versiones con el límite inferior de archivos abiertos provocan el error “Demasiados archivos abiertos” al enviar el trabajo de Spark. En las versiones afectadas, la AMI predeterminada de Amazon EMR tiene una configuración de ulimit predeterminada de 4096 para “Máximo de archivos abiertos”, una cantidad inferior al límite de 65 536 archivos de la AMI de Amazon Linux 2 más reciente. La configuración de ulimit inferior para “Máximo de archivos abiertos” provoca un fallo en el trabajo de Spark cuando el controlador y el ejecutor de Spark intentan abrir más de 4096 archivos. Para solucionar el problema, Amazon EMR tiene un script de acciones de arranque (BA) que ajusta la configuración de ulimit al crear el clúster.
Si utiliza una versión anterior de Amazon EMR que no tiene una corrección permanente para este problema, la siguiente solución alternativa le permite establecer explícitamente el ulimit del controlador de instancias en un máximo de 65 536 archivos.
Establecimiento explícito de un ulimit desde la línea de comandos
Edite
/etc/systemd/system/instance-controller.service
para agregar los siguientes parámetros a la sección de servicio.LimitNOFILE=65536
LimitNPROC=65536
Reiniciar InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Establecimiento de un ulimit mediante una acción de arranque (BA)
También puede usar un script de acciones de arranque (BA) para configurar el ulimit del controlador de instancias en 65 536 archivos al crear el clúster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
EMR Notebooks
La característica que le permite instalar kernels y bibliotecas de Python adicionales en el nodo principal del clúster está deshabilitada de forma predeterminada en la versión 5.30.1 de EMR. Para más información sobre esta característica, consulte Instalación de kernels y bibliotecas de Python en el nodo principal del clúster.
Para habilitar la característica, haga lo siguiente:
Asegúrese de que la política de permisos adjunta al rol de servicio de Cuadernos de EMR permita la siguiente acción:
elasticmapreduce:ListSteps
Para obtener más información, consulte Rol de servicio para cuadernos de EMR.
Utilice la AWS CLI para ejecutar un paso en el clúster que configura Cuadernos de EMR, como se muestra en el siguiente ejemplo. Sustituya
us-east-1
por la región en la que reside el clúster. Para obtener más información, consulte Adición de pasos a un clúster mediante la AWS CLI.aws emr add-steps --cluster-id
MyClusterID
--steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1
.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
-
Escalado administrado
Las operaciones de escalado administrado en los clústeres 5.30.0 y 5.30.1 sin Presto instalado pueden provocar errores en las aplicaciones o provocar que un grupo de instancias o una flota de instancias uniformes permanezcan en estado
ARRESTED
, especialmente cuando una operación de reducción vertical va seguida inmediatamente de una operación de escalado vertical.Como solución alternativa, elija Presto como aplicación para instalar cuando cree un clúster con las versiones 5.30.0 y 5.30.1 de Amazon EMR, incluso si su trabajo no requiere Presto.
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Versión 5.30.0
Las siguientes notas de la versión incluyen información sobre la versión 5.30.0 de Amazon EMR. Los cambios son respecto a la versión 5.29.0.
Fecha de lanzamiento inicial: 13 de mayo de 2020
Fecha de la última actualización: 25 de junio de 2020
Actualizaciones
Se actualizó AWS SDK for Java a la versión 1.11.759
Se actualizó el SDK de Amazon SageMaker Spark a la versión 1.3.0
Se actualizó el servidor de registros de EMR a la versión 1.6.0
Se ha actualizado Flink a la versión 1.10.0
Se actualizó Ganglia a la versión 3.7.2
Se actualizó HBase a la versión 1.4.13
Se actualizó Hudi a la versión 0.5.2-incubating
Se actualizó Hue a la versión 4.6.0
Se actualizó JupyterHub a la versión 1.1.0
Se actualizó Livy a la versión 0.7.0-incubating
Se actualizó Oozie a la versión 5.2.0
Se actualizó Presto a la versión 0.232
Se actualizó Spark a la versión 2.4.5
Conectores y controladores actualizados: Amazon Glue Connector 1.12.0; Amazon Kinesis Connector 3.5.0; EMR DynamoDB Connector 4.14.0
Nuevas características
Cuadernos de EMR: cuando se utiliza con clústeres de EMR creados con la versión 5.30.0, los kernels de cuadernos de EMR se ejecutan en un clúster. Esto mejora el rendimiento del bloc de notas y le permite instalar y personalizar kernels. También puede instalar bibliotecas de Python en el nodo principal del clúster. Para obtener más información, consulte Instalación y uso de kernels y bibliotecas en la Guía de administración de EMR.
Escalado administrado: con la versión 5.30.0 y posteriores de Amazon EMR, puede habilitar el escalado administrado de EMR para aumentar o disminuir automáticamente el número de instancias o unidades del clúster en función de la carga de trabajo. Amazon EMR evalúa continuamente las métricas del clúster para tomar decisiones de escalado que optimicen los clústeres en cuanto al costo y la velocidad. Para más información, consulte Recursos de escalado de clúster en la Guía de administración de Amazon EMR.
Cifrar los archivos de registro almacenados en Amazon S3: con la versión 5.30.0 y posteriores de Amazon EMR, puede cifrar los archivos de registro almacenados en Amazon S3 con una clave de AWS KMS administrada por el cliente. Para más información, consulte Consultar archivos de registros almacenados en Amazon S3 en la Guía de administración de Amazon EMR.
Compatibilidad con Amazon Linux 2: en la versión 5.30.0 y posteriores de EMR, EMR utiliza el sistema operativo Amazon Linux 2. Las nuevas AMI (imágenes de máquina de Amazon) personalizadas deben basarse en la AMI de Amazon Linux 2. Para obtener más información, consulte Uso de una AMI personalizada.
Escalado automático estable de Presto: los clústeres de EMR que utilizan la versión 5.30.0 se pueden configurar con un periodo de espera de escalado automático que da tiempo a las tareas de Presto para terminar de ejecutarse antes de que su nodo se retire. Para obtener más información, consulte Uso del escalado automático de Presto con la retirada estable.
Creación de instancias de flota con una nueva opción de estrategia de asignación: hay una nueva opción de estrategia de asignación disponible en la versión 5.12.1 y posteriores de EMR. Ofrece un aprovisionamiento de clústeres más rápido, una asignación de spot más precisa y menos interrupciones de las instancias de spot. Se requieren actualizaciones de los roles de servicio de EMR no predeterminados. Consulte Configurar flotas de instancias.
Comandos sudo systemctl stop y sudo systemctl start: en la versión 5.30.0 y posteriores de EMR, que utilizan el sistema operativo Amazon Linux 2, EMR utiliza los comandos
sudo systemctl stop
ysudo systemctl start
para reiniciar los servicios. Para más información, consulte ¿Cómo reinicio un servicio en Amazon EMR?.
Cambios, mejoras y problemas resueltos
La versión 5.30.0 de EMR no instala Ganglia de forma predeterminada. Puede seleccionar explícitamente Ganglia para instalar cuando cree un clúster.
Optimizaciones de rendimiento de Spark.
Optimizaciones de rendimiento de Presto.
Python 3 es la opción predeterminada para la versión 5.30.0 y posteriores de Amazon EMR.
El grupo de seguridad administrado predeterminado para el acceso al servicio en subredes privadas se ha actualizado con nuevas reglas. Si utiliza un grupo de seguridad personalizado para el acceso al servicio, debe incluir las mismas reglas que el grupo de seguridad administrado predeterminado. Para más información, consulte Grupo de seguridad administrado por Amazon EMR para el acceso al servicio (Subredes privadas). Si utiliza un rol de servicio personalizado para Amazon EMR, debe conceder permiso a
ec2:describeSecurityGroups
para que EMR pueda validar si los grupos de seguridad se crean correctamente. Si utilizaEMR_DefaultRole
, este permiso ya está incluido en la política administrada predeterminada.
Problemas conocidos
-
Reducir el límite de “Máximo de archivos abiertos” en las versiones de AL2 anteriores [corregido en versiones más recientes]. Las versiones de Amazon EMR emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 y emr-6.2.0 se basan en versiones anteriores de Amazon Linux 2 (AL2), que tienen una configuración de ulimit inferior para “Máximo de archivos abiertos” cuando los clústeres de Amazon EMR se crean con la AMI predeterminada. Las versiones 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 y posteriores de Amazon EMR ahora incluyen una corrección permanente con una configuración más alta de “Máximo de archivos abiertos”. Las versiones con el límite inferior de archivos abiertos provocan el error “Demasiados archivos abiertos” al enviar el trabajo de Spark. En las versiones afectadas, la AMI predeterminada de Amazon EMR tiene una configuración de ulimit predeterminada de 4096 para “Máximo de archivos abiertos”, una cantidad inferior al límite de 65 536 archivos de la AMI de Amazon Linux 2 más reciente. La configuración de ulimit inferior para “Máximo de archivos abiertos” provoca un fallo en el trabajo de Spark cuando el controlador y el ejecutor de Spark intentan abrir más de 4096 archivos. Para solucionar el problema, Amazon EMR tiene un script de acciones de arranque (BA) que ajusta la configuración de ulimit al crear el clúster.
Si utiliza una versión anterior de Amazon EMR que no tiene una corrección permanente para este problema, la siguiente solución alternativa le permite establecer explícitamente el ulimit del controlador de instancias en un máximo de 65 536 archivos.
Establecimiento explícito de un ulimit desde la línea de comandos
Edite
/etc/systemd/system/instance-controller.service
para agregar los siguientes parámetros a la sección de servicio.LimitNOFILE=65536
LimitNPROC=65536
Reiniciar InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
Establecimiento de un ulimit mediante una acción de arranque (BA)
También puede usar un script de acciones de arranque (BA) para configurar el ulimit del controlador de instancias en 65 536 archivos al crear el clúster.
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
-
Escalado administrado
Las operaciones de escalado administrado en los clústeres 5.30.0 y 5.30.1 sin Presto instalado pueden provocar errores en las aplicaciones o provocar que un grupo de instancias o una flota de instancias uniformes permanezcan en estado
ARRESTED
, especialmente cuando una operación de reducción vertical va seguida inmediatamente de una operación de escalado vertical.Como solución alternativa, elija Presto como aplicación para instalar cuando cree un clúster con las versiones 5.30.0 y 5.30.1 de Amazon EMR, incluso si su trabajo no requiere Presto.
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
El motor de base de datos predeterminado para Hue 4.6.0 es SQLite, lo que provoca problemas al intentar utilizar Hue con una base de datos externa. Para solucionar este problema, defina
engine
en su clasificación de configuraciónhue-ini
comomysql
. Este problema se ha corregido en la versión 5.30.1 de Amazon EMR.Cuando utiliza Spark con el formato de ubicación de particiones de Hive para leer datos en Amazon S3 y ejecuta Spark en las versiones 5.30.0 a 5.36.0 y 6.2.0 a 6.9.0 de Amazon EMR, es posible que se produzca un problema que impida que el clúster lea los datos correctamente. Esto puede ocurrir si las particiones tienen todas las características siguientes:
-
Se analizan dos o más particiones de la misma tabla.
-
Al menos una ruta de directorio de particiones es un prefijo de al menos otra ruta de directorio de particiones; por ejemplo,
s3://bucket/table/p=a
es un prefijo des3://bucket/table/p=a b
. -
El primer carácter que sigue al prefijo del otro directorio de particiones tiene un valor UTF-8 inferior al carácter
/
(U+002F). Por ejemplo, el carácter de espacio (U+0020) que aparece entre a y b ens3://bucket/table/p=a b
entra en esta categoría. Tenga en cuenta que hay otros 14 caracteres que no son de control:!"#$%&‘()*+,-
. Para más información, consulte UTF-8 encoding table and Unicode characters.
Como solución alternativa a este problema, defina la configuración
spark.sql.sources.fastS3PartitionDiscovery.enabled
comofalse
en la clasificaciónspark-defaults
.-
Versión 5.29.0
Las siguientes notas de la versión incluyen información sobre la versión 5.29.0 de Amazon EMR. Los cambios son respecto a la versión 5.28.1.
Fecha de lanzamiento inicial: 17 de enero de 2020
Actualizaciones
Se ha actualizado AWS SDK for Java a la versión 1.11.682
Actualización de Hive a la versión 2.3.6
Se ha actualizado Flink a la versión 1.9.1
Se ha actualizado EMRFS a la versión 2.38.0
Se ha actualizado el conector EMR DynamoDB a la versión 4.13.0
Cambios, mejoras y problemas resueltos
Spark
Optimizaciones de rendimiento de Spark.
EMRFS
La guía de administración actualiza la configuración predeterminada de emrfs-site.xml para una visualización coherente.
Problemas conocidos
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.28.1
Las siguientes notas de la versión incluyen información sobre la versión 5.28.1 de Amazon EMR. Los cambios son respecto a la versión 5.28.0.
Fecha de lanzamiento inicial: 10 de enero de 2020
Cambios, mejoras y problemas resueltos
Spark
Se han corregido problemas de compatibilidad con Spark.
Métricas de CloudWatch
Se ha corregido la publicación de métricas de Amazon CloudWatch en un clúster de EMR con varios nodos principales.
Mensaje de registro deshabilitado
Se ha deshabilitado el mensaje de registro falso: “... usando una versión anterior (<4.5.8) del cliente http de Apache”.
Problemas conocidos
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.28.0
Las siguientes notas de la versión incluyen información sobre la versión 5.28.0 de Amazon EMR. Los cambios son respecto a la versión 5.27.0.
Fecha de lanzamiento inicial: 12 de noviembre de 2019
Actualizaciones
Actualización de Flink a la versión 1.9.0
Actualización de Hive a la versión 2.3.6
Actualización de MXNet a la versión 1.5.1
Actualización de Phoenix a la versión 4.14.3
Actualización de Presto a la versión 0.227
Actualización de Zeppelin a la versión 0.8.2
Nuevas características
Apache Hudi
ahora está disponible para que Amazon EMR lo instale al crear un clúster. Para obtener más información, consulte Hudi. (25 de noviembre de 2019) Ahora puede ejecutar varios pasos en paralelo para mejorar la utilización del clúster y ahorrar costos. También puede cancelar los pasos pendientes y los pasos que estén en ejecución. Para obtener más información, consulte Trabajo con pasos utilizando la AWS CLI y la consola.
(3 de diciembre de 2019) Ahora puede crear y ejecutar clústeres de EMR en AWS Outposts. AWS Outposts habilita servicios, infraestructura y modelos operativos nativos de AWS en las instalaciones. En los entornos de AWS Outposts, puede utilizar las mismas API, herramientas e infraestructura de AWS que utiliza en la nube de AWS. Para más información, consulte Clústeres de EMR en AWS Outposts.
(11 de marzo de 2020) A partir de la versión 5.28.0 de Amazon EMR, podrá crear y ejecutar clústeres de Amazon EMR en una subred de Zonas locales de AWS como una extensión lógica de una región de AWS compatible con zonas locales. Una zona local permite que las características de Amazon EMR y un subconjunto de servicios de AWS, como los servicios informáticos y de almacenamiento, se encuentren más cerca de los usuarios, lo que proporciona un acceso de latencia muy baja a las aplicaciones que se ejecutan localmente. Para obtener una lista de las zonas locales disponibles, consulte Zonas locales de AWS
. Para obtener información acerca del acceso a zonas locales de AWS disponibles, consulte Regiones, zonas de disponibilidad y zonas locales. Actualmente, Zonas locales no es compatible con Cuadernos de Amazon EMR y no admite conexiones directas a Amazon EMR mediante el punto de conexión de VPC de la interfaz (AWS PrivateLink).
Cambios, mejoras y problemas resueltos
Compatibilidad mejorada de aplicaciones para clústeres de alta disponibilidad
Para más información, consulte Aplicaciones admitidas en un clúster de EMR con varios nodos principales en la Guía de administración de Amazon EMR.
Spark
Optimizaciones de rendimiento
Hive
Optimizaciones de rendimiento
Presto
Optimizaciones de rendimiento
Problemas conocidos
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.27.0
Las siguientes notas de la versión incluyen información sobre la versión 5.27.0 de Amazon EMR. Los cambios son respecto a la versión 5.26.0.
Fecha de lanzamiento inicial: 23 de septiembre de 2019
Actualizaciones
AWS SDK for Java 1.11.615
Flink 1.8.1
JupyterHub 1.0.0
Spark 2.4.4
TensorFlow 1.14.0
-
Conectores y controladores:
Conector de DynamoDB 4.12.0
Nuevas características
(24 de octubre de 2019) Las siguientes características nuevas de Cuadernos de EMR están disponibles en todas las versiones de Amazon EMR.
Puede asociar repositorios de Git con EMR Notebooks para guardar los cuadernos en un entorno con control de versiones. Puede compartir código con sus compañeros y reutilizar los cuadernos de Jupyter existentes a través de repositorios de Git remotos. Para más información, consulte Agregar repositorios de Git con Cuadernos de Amazon EMR en la Guía de administración de Amazon EMR.
La utilidad nbdime
ahora está disponible en Cuadernos de EMR para simplificar la comparación y la combinación de cuadernos. Cuadernos de EMR ahora es compatible con JupyterLab. JupyterLab es un entorno de desarrollo interactivo basado en la web totalmente compatible con los cuadernos de Jupyter. Ahora puede elegir abrir su cuaderno en JupyterLab o en el editor de cuadernos de Jupyter.
(30 de octubre de 2019) Con las versiones 5.25.0 y posteriores de Amazon EMR, puede conectarse a la interfaz de usuario del servidor del historial de Spark desde la página Resumen del clúster o desde la pestaña Historial de aplicaciones de la consola. En lugar de configurar un proxy web a través de una conexión SSH, puede acceder rápidamente a la interfaz de usuario del servidor de historial de Spark para ver las métricas de las aplicaciones y acceder a los archivos de registro relevantes de los clústeres activos y terminados. Para más información, consulte Acceso fuera del clúster a las interfaces de usuario de aplicaciones persistentes en la Guía de administración de Amazon EMR.
Cambios, mejoras y problemas resueltos
-
Clúster de Amazon EMR con varios nodos principales
-
Puede instalar y ejecutar Flink en un clúster de Amazon EMR con varios nodos principales. Para más información, consulte Aplicaciones y características compatibles.
-
Puede configurar el cifrado transparente de HDFS en un clúster de Amazon EMR con varios nodos principales. Para más información, consulte Cifrado transparente de HDFS en clústeres de EMR con varios nodos principales.
-
Ahora puede modificar la configuración de las aplicaciones que se ejecutan en un clúster de Amazon EMR con varios nodos principales. Para obtener más información, consulte Suministrar una configuración para un grupo de instancias en un clúster en ejecución.
-
-
Conector de DynamoDB para Amazon EMR
-
El conector de DynamoDB para Amazon EMR ahora admite los siguientes tipos de datos de DynamoDB: boolean, list, map, item y null. Para más información, consulte Configurar una tabla de Hive para ejecutar comandos de Hive.
-
Problemas conocidos
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.26.0
Las siguientes notas de la versión incluyen información sobre la versión 5.26.0 de Amazon EMR. Los cambios son respecto a la versión 5.25.0.
Fecha de lanzamiento inicial: 8 de agosto de 2019
Fecha de la última actualización: 19 de agosto de 2019
Actualizaciones
AWS SDK for Java 1.11.595
HBase 1.4.10
Phoenix 4.14.2
-
Conectores y controladores:
Conector de DynamoDB 4.11.0
MariaDB Connector 2.4.2
Controlador JDBC de Amazon Redshift, versión 1.2.32.1056
Nuevas características
(Beta) Con Amazon EMR 5.26.0, puede lanzar un clúster que se integre con Lake Formation. Esta integración proporciona acceso detallado de nivel de columna a bases de datos y tablas en el Catálogo de datos de AWS Glue. También permite un inicio de sesión único federado en cuadernos de EMR o Apache Zeppelin desde un sistema de identidades empresariales. Para más información, consulte Integración de Amazon EMR con AWS Lake Formation (versión beta).
(19 de agosto de 2019) El bloqueo de acceso público de Amazon EMR ya está disponible en todas las versiones de Amazon EMR que admiten grupos de seguridad. El bloqueo de acceso público es una configuración que abarca toda la cuenta y que se aplica a cada región de AWS. El bloqueo de acceso público evita que un clúster se ejecute cuando un grupo de seguridad asociado con el clúster disponga de una regla que permita el tráfico entrante desde IPv4 0.0.0.0/0 o IPv6 ::/0 (acceso público) en un puerto, a no ser que el puerto se especifique como excepción. El puerto 22 es una excepción de forma predeterminada. Para más información, consulte Uso del bloqueo de acceso público de Amazon EMR en la Guía de administración de Amazon EMR.
Cambios, mejoras y problemas resueltos
-
EMR Notebooks
-
Con la versión 5.26.0 y posteriores de EMR, Cuadernos de EMR admite bibliotecas de Python limitadas a cuadernos, además de las bibliotecas de Python predeterminadas. Puede instalar bibliotecas limitadas a cuadernos desde el editor de cuadernos sin tener que volver a crear un clúster ni volver a asociar un cuaderno a un clúster. Las bibliotecas con ámbito de cuaderno se instalan en un entorno virtual de Python, por lo que solo se aplican a la sesión de cuaderno actual. Esto le permite aislar las dependencias de los cuadernos. Para más información, consulte Uso de bibliotecas adaptadas a los cuadernos en la Guía de administración de Amazon EMR.
-
-
EMRFS
-
Puede habilitar una característica de verificación de ETag (beta) al configurar
fs.s3.consistent.metadata.etag.verification.enabled
comotrue
. Con esta característica, EMRFS utiliza las ETags de Amazon S3 para verificar que los objetos leídos tienen la última versión disponible. Esta característica resulta útil para casos de uso de lectura después de la actualización en los que los archivos de Amazon S3 se sobrescriben conservando el mismo nombre. Esta capacidad de comprobación de ETag no funciona actualmente con S3 Select. Para más información, consulte Configuración de la vista consistente.
-
Spark
Las siguientes optimizaciones ahora se habilitan de forma predeterminada: la eliminación dinámica de particiones, DISTINCT antes de INTERSECT, las mejoras en la inferencia estadística del plan de SQL para JOIN seguida de consultas DISTINCT, el aplanamiento de las subconsultas escalares, el reordenamiento optimizado de las uniones y la unión mediante filtros de Bloom. Para más información, consulte Optimización del rendimiento de Spark.
Se ha mejorado la generación de código en todas las etapas para Sort Merge Join.
Se ha mejorado la reutilización de fragmentos de consultas y subconsultas.
Mejoras en la preasignación de los ejecutores en el inicio de Spark.
Las uniones con filtro de Bloom ya no se aplican cuando el lado más pequeño de la unión incluye una sugerencia de transmisión.
-
Tez
-
Se ha resuelto un problema con Tez. La interfaz de usuario de Tez ahora funciona en un clúster de Amazon EMR con varios nodos principales.
-
Problemas conocidos
-
Las capacidades mejoradas de generación de código en todas las etapas de Sort Merge Join pueden aumentar la presión de la memoria cuando están habilitadas. Esta optimización mejora el rendimiento, pero puede provocar reintentos de trabajo o errores si
spark.yarn.executor.memoryOverheadFactor
no se ajusta para proporcionar suficiente memoria. Para deshabilitar esta característica, establezcaspark.sql.sortMergeJoinExec.extendedCodegen.enabled
como “Falso”. -
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.25.0
Las siguientes notas de la versión incluyen información sobre la versión 5.25.0 de Amazon EMR. Los cambios son respecto a la versión 5.24.1.
Fecha de lanzamiento inicial: 17 de julio de 2019
Fecha de la última actualización: 30 de octubre de 2019
Amazon EMR 5.25.0
Actualizaciones
AWS SDK for Java 1.11.566
Hive 2.3.5
Presto 0.220
Spark 2.4.3
TensorFlow 1.13.1
Tez 0.9.2
ZooKeeper 3.4.14
Nuevas características
(30 de octubre de 2019) A partir de la versión 5.25.0 de Amazon EMR, podrá conectarse a la IU del servidor del historial de Spark desde la página Resumen del clúster o desde la pestaña Historial de aplicaciones de la consola. En lugar de configurar un proxy web a través de una conexión SSH, puede acceder rápidamente a la interfaz de usuario del servidor de historial de Spark para ver las métricas de las aplicaciones y acceder a los archivos de registro relevantes de los clústeres activos y terminados. Para más información, consulte Acceso fuera del clúster a las interfaces de usuario de aplicaciones persistentes en la Guía de administración de Amazon EMR.
Cambios, mejoras y problemas resueltos
-
Spark
Se ha mejorado el rendimiento de algunas uniones mediante el uso de filtros de Bloom para hacer un filtrado previo de las entradas. La optimización está deshabilitada de forma predeterminada y se puede habilitar configurando el parámetro
spark.sql.bloomFilterJoin.enabled
de configuración de Spark entrue
.Se ha mejorado el rendimiento de la agrupación de columnas por tipo de cadena.
-
Se ha mejorado la configuración predeterminada de memoria y núcleos del ejecutor de Spark de los tipos de instancias R4 para clústeres sin HBase instalado.
Se ha resuelto un problema anterior relacionado con la característica de eliminación dinámica de particiones, por el que la tabla eliminada tenía que estar en el lado izquierdo de la unión.
Se ha mejorado la optimización de DISTINCT antes de INTERSECT para aplicarla a casos adicionales relacionados con alias.
-
Se ha mejorado la inferencia estadística del plan de SQL para JOIN seguida de consultas DISTINCT. Esta mejora se ha desactivado de forma predeterminada y se puede habilitar configurando el parámetro de configuración de Spark
spark.sql.statsImprovements.enabled
comotrue
. La característica Distinct antes de Intersect requiere esta optimización y se habilitará automáticamente cuandospark.sql.optimizer.distinctBeforeIntersect.enabled
se establezca entrue
. Se ha optimizado el orden de unión con base en el tamaño de la tabla y de los filtros. La optimización se ha desactivado de forma predeterminada y se puede habilitar configurando el parámetro de configuración de Spark
spark.sql.optimizer.sizeBasedJoinReorder.enabled
entrue
.
Para más información, consulte Optimización del rendimiento de Spark.
-
EMRFS
-
La configuración de EMRFS,
fs.s3.buckets.create.enabled
, ahora está deshabilitada de forma predeterminada. Tras realizar pruebas, se ha descubierto que al deshabilitar esta configuración se mejora el rendimiento y se evita la creación involuntaria de buckets de S3. Si su aplicación se basa en esta funcionalidad, puede habilitarla estableciendo la propiedadfs.s3.buckets.create.enabled
entrue
en la clasificación de configuraciónemrfs-site
. Para obtener información, consulte Suministro de una configuración durante la creación de un clúster.
-
Mejoras en el cifrado de disco local y en el cifrado de S3 en las configuraciones de seguridad (5 de agosto de 2019)
Se ha separado la configuración del cifrado de Amazon S3 de la configuración del cifrado de disco local en la configuración de seguridad.
Se ha agregado una opción para habilitar el cifrado de EBS en la versión 5.24.0 y posteriores. Al seleccionar esta opción, se cifra el volumen del dispositivo raíz además de los volúmenes de almacenamiento. Las versiones anteriores requerían el uso de una AMI personalizada para cifrar el volumen del dispositivo raíz.
Para más información, consulte Opciones de cifrado en la Guía de administración de Amazon EMR.
Problemas conocidos
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.24.1
Las siguientes notas de la versión incluyen información sobre la versión 5.24.1 de Amazon EMR. Los cambios son respecto a la versión 5.24.0.
Fecha de lanzamiento inicial: 26 de junio de 2019
Cambios, mejoras y problemas resueltos
Se ha actualizado la AMI de Amazon Linux predeterminada para Amazon EMR a fin de incluir importantes actualizaciones de seguridad del kernel de Linux, incluido el problema de denegación de servicio TCP SACK (AWS-2019-005
).
Problemas conocidos
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.24.0
Las siguientes notas de la versión incluyen información sobre la versión 5.24.0 de Amazon EMR. Los cambios son respecto a la versión 5.23.0.
Fecha de lanzamiento inicial: 11 de junio de 2019
Fecha de la última actualización: 5 de agosto de 2019
Actualizaciones
Flink 1.8.0
Hue
JupyterHub 0.9.6
Livy 0.6.0
MXNet 1.4.0
Presto 0.219
Spark 2.4.2
AWS SDK for Java 1.11.546
-
Conectores y controladores:
Conector de DynamoDB 4.9.0
MariaDB Connector 2.4.1
Controlador JDBC de Amazon Redshift, versión 1.2.27.1051
Cambios, mejoras y problemas resueltos
Spark
Se ha agregado una optimización para eliminar las particiones de forma dinámica. La optimización se deshabilita de forma predeterminada. Para habilitarla, defina el parámetro de configuración de Spark
spark.sql.dynamicPartitionPruning.enabled
entrue
.Se ha mejorado el rendimiento de las consultas
INTERSECT
. Esta optimización se deshabilita de forma predeterminada. Para habilitarla, defina el parámetro de configuración de Sparkspark.sql.optimizer.distinctBeforeIntersect.enabled
entrue
.Se ha agregado una optimización para aplanar las subconsultas escalares con agregados que utilicen la misma relación. La optimización se deshabilita de forma predeterminada. Para habilitarla, defina el parámetro de configuración de Spark
spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled
entrue
.Se ha mejorado la generación de código en todas las etapas.
Para más información, consulte Optimización del rendimiento de Spark.
Mejoras en el cifrado de disco local y en el cifrado de S3 en las configuraciones de seguridad (5 de agosto de 2019)
Se ha separado la configuración del cifrado de Amazon S3 de la configuración del cifrado de disco local en la configuración de seguridad.
Se ha agregado una opción para habilitar el cifrado de EBS. Al seleccionar esta opción, se cifra el volumen del dispositivo raíz además de los volúmenes de almacenamiento. Las versiones anteriores requerían el uso de una AMI personalizada para cifrar el volumen del dispositivo raíz.
Para más información, consulte Opciones de cifrado en la Guía de administración de Amazon EMR.
Problemas conocidos
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.23.0
Las siguientes notas de la versión incluyen información sobre la versión 5.23.0 de Amazon EMR. Los cambios son respecto a la versión 5.22.0.
Fecha de lanzamiento inicial: 1 de abril de 2019
Fecha de la última actualización: 30 de abril de 2019
Actualizaciones
AWS SDK for Java 1.11.519
Nuevas características
(30 de abril de 2019) Con la versión 5.23.0 y posteriores de Amazon EMR, puede lanzar un clúster con tres nodos principales para admitir una alta disponibilidad de aplicaciones como YARN Resource Manager, HDFS NameNode, Spark, Hive y Ganglia. El nodo principal ya no es un posible punto único de error con esta característica. Si se produce un error en uno de los nodos principales, se produce un error automáticamente en Amazon EMR a través de un nodo principal en espera y se sustituye el nodo principal con error por uno nuevo con las mismas acciones de arranque y configuración. Para más información, consulte Planificación y configuración de nodos principales.
Problemas conocidos
-
Interfaz de usuario de Tez (corregida en la versión 5.26.0 de Amazon EMR)
La IU de Tez no funciona en un clúster de EMR con varios nodos principales.
-
Hue (corregido en la versión 5.24.0 de Amazon EMR)
-
Hue en ejecución en Amazon EMR no es compatible con Solr. A partir de la versión 5.20.0 de Amazon EMR, un problema de configuración incorrecta hace que Solr se habilite y aparezca un mensaje de error inofensivo similar al siguiente:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Para evitar que aparezca el mensaje de error de Solr:
Conéctese a la línea de comandos del nodo principal utilizando SSH.
Use un editor de texto para abrir el archivo
hue.ini
. Por ejemplo:sudo vim /etc/hue/conf/hue.ini
Busque el término
appblacklist
y modifique la línea de la siguiente manera:appblacklist = search
Guarde los cambios y reinicie Hue como se muestra en el siguiente ejemplo:
sudo stop hue; sudo start hue
-
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.22.0
Las siguientes notas de la versión incluyen información sobre la versión 5.22.0 de Amazon EMR. Los cambios son respecto a la versión 5.21.0.
importante
A partir de la versión 5.22.0 de Amazon EMR, este servicio utiliza AWS Signature Version 4 exclusivamente para autenticar las solicitudes a Amazon S3. Las versiones anteriores de Amazon EMR utilizan AWS Signature Version 2 en algunos casos, a menos que las notas de la versión indiquen que se utiliza exclusivamente Signature Version 4. Para más información, consulte Autenticación de solicitudes (AWS Signature Version 4) y Autenticación de solicitudes (AWS Signature Version 2) en la Guía para desarrolladores de Amazon Simple Storage Service.
Fecha de lanzamiento inicial: 20 de marzo de 2019
Actualizaciones
Flink 1.7.1
HBase 1.4.9
Oozie 5.1.0
Phoenix 4.14.1
Zeppelin 0.8.1
-
Conectores y controladores:
Conector de DynamoDB 4.8.0
MariaDB Connector 2.2.6
Controlador JDBC de Amazon Redshift, versión 1.2.20.1043
Nuevas características
Se modificó la configuración de EBS predeterminada para los tipos de instancias de EC2 con almacenamiento exclusivo para EBS. Al crear un clúster utilizando la versión 5.22.0 y posteriores de Amazon EMR, la cantidad predeterminada de almacenamiento de EBS aumenta en función del tamaño de la instancia. Además, podemos dividir un mayor almacenamiento en varios volúmenes, lo que ofrece un mayor desempeño de IOPS. Si desea utilizar una configuración de almacenamiento para instancias de EBS diferente, puede especificarlo al crear un clúster de EMR o añadir nodos a un clúster existente. Para más información sobre la cantidad de almacenamiento y la cantidad de volúmenes asignados de forma predeterminada a cada tipo de instancia, consulte Almacenamiento predeterminado de EBS para instancias en la Guía de administración de Amazon EMR.
Cambios, mejoras y problemas resueltos
Spark
Se ha introducido una nueva propiedad de configuración para Spark en YARN,
spark.yarn.executor.memoryOverheadFactor
. El valor de esta propiedad es un factor de escala que establece el valor de la sobrecarga de memoria en un porcentaje de la memoria del ejecutor, con un mínimo de 384 MB. Si la sobrecarga de memoria se establece de forma explícita mediantespark.yarn.executor.memoryOverhead
, esta propiedad no tendrá ningún efecto. El valor predeterminado es0.1875
, que representa el 18,75 %. Este valor predeterminado para Amazon EMR deja más espacio en los contenedores de YARN para la sobrecarga de memoria del ejecutor que el 10 % predeterminado que ha establecido Spark internamente. El valor predeterminado de Amazon EMR del 18,75 % mostró empíricamente menos errores relacionados con la memoria en los puntos de referencia de TPC-DS.Se ha agregado portabilidad con versiones anteriores para SPARK-26316
a fin de mejorar el rendimiento.
En las versiones 5.19.0, 5.20.0 y 5.21.0 de Amazon EMR, las etiquetas de los nodos de YARN se almacenan en un directorio de HDFS. En algunas situaciones, esto provoca demoras en el inicio del nodo principal y, a continuación, provoca que el clúster agote el tiempo de espera y se produzca un error en el lanzamiento. A partir de la versión 5.22.0 de Amazon EMR, este problema se ha resuelto. Las etiquetas de los nodos de YARN se almacenan en el disco local de cada nodo del clúster, lo que evita las dependencias de HDFS.
Problemas conocidos
-
Hue (corregido en la versión 5.24.0 de Amazon EMR)
-
Hue en ejecución en Amazon EMR no es compatible con Solr. A partir de la versión 5.20.0 de Amazon EMR, un problema de configuración incorrecta hace que Solr se habilite y aparezca un mensaje de error inofensivo similar al siguiente:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Para evitar que aparezca el mensaje de error de Solr:
Conéctese a la línea de comandos del nodo principal utilizando SSH.
Use un editor de texto para abrir el archivo
hue.ini
. Por ejemplo:sudo vim /etc/hue/conf/hue.ini
Busque el término
appblacklist
y modifique la línea de la siguiente manera:appblacklist = search
Guarde los cambios y reinicie Hue como se muestra en el siguiente ejemplo:
sudo stop hue; sudo start hue
-
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.21.1
Las siguientes notas de la versión incluyen información sobre la versión 5.21.1 de Amazon EMR. Los cambios son respecto a la versión 5.21.0.
Fecha de lanzamiento inicial: 18 de julio de 2019
Cambios, mejoras y problemas resueltos
Se ha actualizado la AMI de Amazon Linux predeterminada para Amazon EMR a fin de incluir importantes actualizaciones de seguridad del kernel de Linux, incluido el problema de denegación de servicio TCP SACK (AWS-2019-005
).
Problemas conocidos
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.21.0
Las siguientes notas de la versión incluyen información sobre la versión 5.21.0 de Amazon EMR. Los cambios son respecto a la versión 5.20.0.
Fecha de lanzamiento inicial: 18 de febrero de 2019
Fecha de la última actualización: 3 de abril de 2019
Actualizaciones
Flink 1.7.0
Presto 0.215
AWS SDK for Java 1.11.479
Nuevas características
(3 de abril de 2019) Con la versión 5.21.0 y posteriores de Amazon EMR, puede anular las configuraciones de clúster y especificar las clasificaciones de configuración adicionales para cada grupo de instancias en un clúster en ejecución. Para ello, utilice la consola de Amazon EMR, la AWS Command Line Interface (AWS CLI) o el AWS SDK. Para obtener más información, consulte Suministrar una configuración para un grupo de instancias en un clúster en ejecución.
Cambios, mejoras y problemas resueltos
-
Zeppelin
-
Se ha adaptado ZEPPELIN-3878
.
-
Problemas conocidos
-
Hue (corregido en la versión 5.24.0 de Amazon EMR)
-
Hue en ejecución en Amazon EMR no es compatible con Solr. A partir de la versión 5.20.0 de Amazon EMR, un problema de configuración incorrecta hace que Solr se habilite y aparezca un mensaje de error inofensivo similar al siguiente:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Para evitar que aparezca el mensaje de error de Solr:
Conéctese a la línea de comandos del nodo principal utilizando SSH.
Use un editor de texto para abrir el archivo
hue.ini
. Por ejemplo:sudo vim /etc/hue/conf/hue.ini
Busque el término
appblacklist
y modifique la línea de la siguiente manera:appblacklist = search
Guarde los cambios y reinicie Hue como se muestra en el siguiente ejemplo:
sudo stop hue; sudo start hue
-
-
Tez
-
Este problema se ha solucionado en la versión 5.22.0 de Amazon EMR.
Cuando se conecta a la interfaz de usuario de Tez en http://
MasterDNS
:8080/tez-ui mediante una conexión SSH con el nodo principal del clúster, aparece el error “Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled” o bien las tareas muestran inesperadamente N/A.Esto se debe a que la interfaz de usuario de Tez realiza solicitudes al servidor YARN Timeline con
localhost
en vez de con el nombre de host del nodo principal. Como solución alternativa, hay un script disponible para ejecutar como acción o paso de arranque. El script actualiza el nombre del host en el archivoconfigs.env
de Tez. Para más información y obtener la ubicación del script, consulte Bootstrap Instructions.
-
En las versiones 5.19.0, 5.20.0 y 5.21.0 de Amazon EMR, las etiquetas de los nodos de YARN se almacenan en un directorio de HDFS. En algunas situaciones, esto provoca demoras en el inicio del nodo principal y, a continuación, provoca que el clúster agote el tiempo de espera y se produzca un error en el lanzamiento. A partir de la versión 5.22.0 de Amazon EMR, este problema se ha resuelto. Las etiquetas de los nodos de YARN se almacenan en el disco local de cada nodo del clúster, lo que evita las dependencias de HDFS.
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.20.0
Las siguientes notas de la versión incluyen información sobre la versión 5.20.0 de Amazon EMR. Los cambios son respecto a la versión 5.19.0.
Fecha de lanzamiento inicial: 18 de diciembre de 2018
Fecha de la última actualización: 22 de enero de 2019
Actualizaciones
Flink 1.6.2
HBase 1.4.8
Hive 2.3.4
Hue 4.3.0
MXNet 1.3.1
Presto 0.214
Spark 2.4.0
TensorFlow 1.12.0
Tez 0.9.1
AWS SDK for Java 1.11.461
Nuevas características
(22 de enero de 2019) Se ha mejorado Kerberos en Amazon EMR para admitir la autenticación de las entidades principales desde un KDC externo. Esto centraliza la administración de entidades principales porque varios clústeres pueden compartir un único KDC externo. Además, el KDC externo puede tener una relación de confianza entre ámbitos con un dominio de Active Directory. Esto permite que todos los clústeres autentiquen entidades principales desde Active Directory. Para más información, consulte Uso de la autenticación de Kerberos en la Guía de administración de Amazon EMR.
Cambios, mejoras y problemas resueltos
-
AMI de Amazon Linux predeterminada para Amazon EMR
-
Se ha actualizado el paquete de Python3 de Python 3.4 a 3.6.
-
-
El confirmador optimizado para S3 de EMRFS
-
El confirmador optimizado para S3 de EMRFS ahora está habilitado de forma predeterminada, lo que mejora el rendimiento de escritura. Para obtener más información, consulte Uso del confirmador optimizado para S3 de EMRFS.
-
-
Hive
-
Se ha adaptado HIVE-16686
.
-
-
Glue con Spark y Hive
En la versión 5.20.0 o posteriores de EMR, la eliminación de particiones en paralelo está habilitada automáticamente para Spark y Hive cuando se utiliza el Catálogo de datos de AWS Glue como metaalmacén. Este cambio reduce significativamente el tiempo de planificación de consultas al ejecutar varias solicitudes en paralelo para recuperar particiones. El número total de segmentos que se pueden ejecutar simultáneamente oscila entre 1 y 10. El valor predeterminado es 5, que es la configuración recomendada. Para cambiarlo, especifique la propiedad
aws.glue.partition.num.segments
en la clasificación de la configuraciónhive-site
. Si se produce una limitación, puede desactivar la característica cambiando el valor a 1. Para más información, consulte Estructura Segment de AWS Glue.
Problemas conocidos
-
Hue (corregido en la versión 5.24.0 de Amazon EMR)
-
Hue en ejecución en Amazon EMR no es compatible con Solr. A partir de la versión 5.20.0 de Amazon EMR, un problema de configuración incorrecta hace que Solr se habilite y aparezca un mensaje de error inofensivo similar al siguiente:
Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
Para evitar que aparezca el mensaje de error de Solr:
Conéctese a la línea de comandos del nodo principal utilizando SSH.
Use un editor de texto para abrir el archivo
hue.ini
. Por ejemplo:sudo vim /etc/hue/conf/hue.ini
Busque el término
appblacklist
y modifique la línea de la siguiente manera:appblacklist = search
Guarde los cambios y reinicie Hue como se muestra en el siguiente ejemplo:
sudo stop hue; sudo start hue
-
-
Tez
-
Este problema se ha solucionado en la versión 5.22.0 de Amazon EMR.
Cuando se conecta a la interfaz de usuario de Tez en http://
MasterDNS
:8080/tez-ui mediante una conexión SSH con el nodo principal del clúster, aparece el error “Adapter operation failed - Timeline server (ATS) is out of reach. Either it is down, or CORS is not enabled” o bien las tareas muestran inesperadamente N/A.Esto se debe a que la interfaz de usuario de Tez realiza solicitudes al servidor YARN Timeline con
localhost
en vez de con el nombre de host del nodo principal. Como solución alternativa, hay un script disponible para ejecutar como acción o paso de arranque. El script actualiza el nombre del host en el archivoconfigs.env
de Tez. Para más información y obtener la ubicación del script, consulte Bootstrap Instructions.
-
En las versiones 5.19.0, 5.20.0 y 5.21.0 de Amazon EMR, las etiquetas de los nodos de YARN se almacenan en un directorio de HDFS. En algunas situaciones, esto provoca demoras en el inicio del nodo principal y, a continuación, provoca que el clúster agote el tiempo de espera y se produzca un error en el lanzamiento. A partir de la versión 5.22.0 de Amazon EMR, este problema se ha resuelto. Las etiquetas de los nodos de YARN se almacenan en el disco local de cada nodo del clúster, lo que evita las dependencias de HDFS.
-
Problema conocido en clústeres con varios nodos principales y autenticación de Kerberos
Si ejecuta clústeres con varios nodos principales y autenticación de Kerberos en las versiones 5.20.0 y posteriores de Amazon EMR, es posible que tenga problemas con las operaciones del clúster, como la reducción vertical o el envío escalonado, después de que el clúster se haya estado ejecutando durante algún tiempo. El periodo de tiempo depende del periodo de validez del ticket de Kerberos que se haya definido. El problema de la reducción vertical afecta tanto a las solicitudes de reducción vertical automática como a las solicitudes de reducción vertical explícita que haya enviado. Las operaciones adicionales del clúster también pueden verse afectadas.
Solución:
-
SSH como usuario de
hadoop
con el nodo principal líder del clúster de EMR con varios nodos principales. -
Ejecute el siguiente comando para renovar el ticket de Kerberos para el usuario de
hadoop
.kinit -kt <keytab_file> <principal>
Normalmente, el archivo keytab se encuentra en
/etc/hadoop.keytab
y la entidad principal tiene la forma dehadoop/<hostname>@<REALM>
.
nota
Esta solución alternativa estará en vigor durante el periodo de validez del ticket de Kerberos. Esta duración es de 10 horas de forma predeterminada, pero se puede configurar con los ajustes de Kerberos. Debe volver a ejecutar el comando anterior una vez que venza el ticket de Kerberos.
-
Versión 5.19.0
Las siguientes notas de la versión incluyen información sobre la versión 5.19.0 de Amazon EMR. Los cambios son respecto a la versión 5.18.0.
Fecha de lanzamiento inicial: 7 de noviembre de 2018
Fecha de la última actualización: 19 de noviembre de 2018
Actualizaciones
Hadoop 2.8.5
Flink 1.6.1
JupyterHub 0.9.4
MXNet 1.3.0
Presto 0.212
TensorFlow 1.11.0
ZooKeeper 3.4.13
AWS SDK for Java 1.11.433
Nuevas características
(19 de noviembre de 2018) Cuadernos de EMR es un entorno administrado basado en cuadernos de Jupyter. Admite los kernels mágicos de Spark y estos son compatibles con PySpark, Spark SQL, Spark R y Scala. Cuadernos de EMR se puede utilizar con clústeres creados con la versión 5.18.0 y posteriores de Amazon EMR. Para más información, consulte Uso de Cuadernos de EMR en la Guía de administración de Amazon EMR.
El confirmador optimizado para S3 de EMRFS está disponible al escribir archivos Parquet con Spark y EMRFS. Este confirmador mejora el rendimiento de escritura. Para obtener más información, consulte Uso del confirmador optimizado para S3 de EMRFS.
Cambios, mejoras y problemas resueltos
-
YARN
-
Se ha modificado la lógica que limita el proceso maestro de la aplicación a ejecutarse en los nodos principales. Esta funcionalidad ahora utiliza la característica y las propiedades de las etiquetas de nodos de YARN en las clasificaciones de configuración
yarn-site
ycapacity-scheduler
. Para obtener información, consulte https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-instances-guidelines.html#emr-plan-spot-YARN.
-
-
AMI de Amazon Linux predeterminada para Amazon EMR
-
ruby18
,php56
ygcc48
ya no se instalan de forma predeterminada. Se pueden instalar si se desea utilizandoyum
. -
La gema aws-sdk ruby ya no se instala de forma predeterminada. Si lo desea, se puede instalar utilizando
gem install aws-sdk
. También se pueden instalar componentes específicos. Por ejemplo,gem install aws-sdk-s3
.
-
Problemas conocidos
-
Cuadernos de EMR: en algunas circunstancias, con varios editores de cuadernos abiertos, puede parecer que el editor de cuadernos no puede conectarse al clúster. Si esto ocurre, borre las cookies del navegador y, a continuación, vuelva a abrir los editores de cuadernos.
-
Escalado automático y métrica ContainerPending de CloudWatch: (corregido en la versión 5.20.0) Amazon EMR puede emitir un valor negativo para
ContainerPending
. SiContainerPending
se utiliza en una regla de escalado automático, el escalado automático no se comportará como se esperaba. Evite usarContainerPending
con el escalado automático. En las versiones 5.19.0, 5.20.0 y 5.21.0 de Amazon EMR, las etiquetas de los nodos de YARN se almacenan en un directorio de HDFS. En algunas situaciones, esto provoca demoras en el inicio del nodo principal y, a continuación, provoca que el clúster agote el tiempo de espera y se produzca un error en el lanzamiento. A partir de la versión 5.22.0 de Amazon EMR, este problema se ha resuelto. Las etiquetas de los nodos de YARN se almacenan en el disco local de cada nodo del clúster, lo que evita las dependencias de HDFS.
Versión 5.18.0
Las siguientes notas de la versión incluyen información sobre la versión 5.18.0 de Amazon EMR. Los cambios son respecto a la versión 5.17.0.
Fecha de lanzamiento inicial: 24 de octubre de 2018
Actualizaciones
Flink 1.6.0
HBase 1.4.7
Presto 0.210
Spark 2.3.2
Zeppelin 0.8.0
Nuevas características
A partir de Amazon EMR 5.18.0, puede utilizar el repositorio de artefactos de Amazon EMR para compilar el código de trabajos con las versiones exactas de las bibliotecas y dependencias que están disponibles con determinadas versiones de Amazon EMR. Para obtener más información, consulte Comprobación de dependencias mediante el repositorio de artefactos de Amazon EMR.
Cambios, mejoras y problemas resueltos
Hive
Se ha agregado soporte para S3 Select. Para obtener más información, consulte Uso de S3 Select con Hive para mejorar el rendimiento.
Presto
Se ha agregado soporte para S3 Select
Pushdown. Para obtener más información, consulte Uso de S3 Select Pushdown con Presto para mejorar el rendimiento.
Spark
Se ha cambiado la configuración predeterminada de log4j para Spark y ahora permite distribuir los registros de contenedores cada hora para los trabajos de streaming de Spark. Esto ayuda a evitar que se eliminen los registros de los trabajos de streaming de Spark de ejecución prolongada.
Versión 5.17.1
Las siguientes notas de la versión incluyen información sobre la versión 5.17.1 de Amazon EMR. Los cambios son respecto a la versión 5.17.0.
Fecha de lanzamiento inicial: 18 de julio de 2019
Cambios, mejoras y problemas resueltos
Se ha actualizado la AMI de Amazon Linux predeterminada para Amazon EMR a fin de incluir importantes actualizaciones de seguridad del kernel de Linux, incluido el problema de denegación de servicio TCP SACK (AWS-2019-005
).
Versión 5.17.0
Las siguientes notas de la versión incluyen información sobre la versión 5.17.0 de Amazon EMR. Los cambios son respecto a la versión 5.16.0.
Fecha de lanzamiento inicial: 30 de agosto de 2018
Actualizaciones
Flink 1.5.2
HBase 1.4.6
Presto 0.206
Nuevas características
Se ha agregado compatibilidad con TensorFlow. Para obtener más información, consulte TensorFlow.
Cambios, mejoras y problemas resueltos
JupyterHub
Se ha agregado compatibilidad con la persistencia de cuadernos en Amazon S3. Para obtener más información, consulte Configuración de la persistencia de los cuadernos en Amazon S3.
Spark
Se ha agregado soporte para S3 Select
. Para obtener más información, consulte Uso de S3 Select con Spark para mejorar el rendimiento de las consultas.
Se han resuelto los problemas con las métricas de CloudWatch y la característica de escalado automático en las versiones 5.14.0, 5.15.0 o 5.16.0 de Amazon EMR.
Problemas conocidos
-
Al crear un clúster que utiliza Kerberos con Livy instalado, Livy produce un error que indica que la autenticación simple no está habilitada. El problema se resuelve al reiniciar el servidor de Livy. Como solución alternativa, agregue un paso durante la creación del clúster que ejecuta
sudo restart livy-server
en el nodo principal. Si utiliza una AMI personalizada de Amazon Linux basada en una AMI de Amazon Linux con una fecha de creación del 11 de agosto de 2018, el servidor de Oozie no podrá iniciarse. Si utiliza Oozie, cree una AMI personalizada basada en un ID de AMI de Amazon Linux con una fecha de creación diferente. Puede utilizar el siguiente comando de la AWS CLI para obtener una lista de los ID de imagen de todas las AMI de HVM de Amazon Linux con la versión 2018.03, junto con la fecha de lanzamiento, de modo que pueda elegir una AMI de Amazon Linux adecuada como base. Sustituya MyRegion por el identificador de su región, como us-west-2.
aws ec2 --region
MyRegion
describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1
Versión 5.16.0
Las siguientes notas de la versión incluyen información sobre la versión 5.16.0 de Amazon EMR. Los cambios son respecto a la versión 5.15.0.
Fecha de lanzamiento inicial: 19 de julio de 2018
Actualizaciones
Hadoop 2.8.4
Flink 1.5.0
Livy 0.5.0
MXNet 1.2.0
Phoenix 4.14.0
Presto 0.203
Spark 2.3.1
AWS SDK for Java 1.11.336
CUDA 9.2
Controlador JDBC de Amazon Redshift, versión 1.2 15.1025
Cambios, mejoras y problemas resueltos
HBase
Se ha adaptado HBASE-20723
Presto
Cambios de configuración para admitir la autenticación LDAP. Para obtener más información, consulte Uso de la autenticación LDAP para Presto en Amazon EMR.
Spark
La versión 2.3.1 de Apache Spark, disponible a partir de la versión 5.16.0 de Amazon EMR, aborda CVE-2018-8024
y CVE-2018-1334 . Se recomienda migrar las versiones anteriores de Spark a la versión 2.3.1 o posteriores de Spark.
Problemas conocidos
-
Esta versión de lanzamiento no es compatible con los tipos de instancias c1.medium ni m1.small. Los clústeres que utilizan cualquiera de estos tipos de instancias no se inician. Como solución alternativa, especifique un tipo de instancia diferente o utilice una versión de lanzamiento diferente.
-
Al crear un clúster que utiliza Kerberos con Livy instalado, Livy produce un error que indica que la autenticación simple no está habilitada. El problema se resuelve al reiniciar el servidor de Livy. Como solución alternativa, agregue un paso durante la creación del clúster que ejecuta
sudo restart livy-server
en el nodo principal. -
Una vez que se reinicie el nodo principal o se reinicie el controlador de instancias, no se recopilarán las métricas de CloudWatch y la característica de escalado automático no estará disponible en las versiones 5.14.0, 5.15.0 o 5.16.0 de Amazon EMR. Este problema se ha corregido en la versión 5.17.0 de Amazon EMR.
Versión 5.15.0
Las siguientes notas de la versión incluyen información sobre la versión 5.15.0 de Amazon EMR. Los cambios son respecto a la versión 5.14.0.
Fecha de lanzamiento inicial: 21 de junio de 2018
Actualizaciones
Se ha actualizado HBase a la versión 1.4.4
Se ha actualizado Hive a la versión 2.3.3
Se ha actualizado Hue a la versión 4.2.0
Se ha actualizado Oozie a la versión 5.0.0
Se ha actualizado ZooKeeper a la versión 3.4.12
Se ha actualizado el SDK de AWS a la versión 1.11.333
Cambios, mejoras y problemas resueltos
Hive
Se ha adaptado HIVE-18069
Hue
Se ha actualizado Hue para autenticarse correctamente con Livy cuando Kerberos está habilitado. Ahora se admite Livy cuando se usa Kerberos con Amazon EMR.
JupyterHub
Se ha actualizado JupyterHub para que Amazon EMR instale las bibliotecas cliente de LDAP de forma predeterminada.
Se ha corregido un error en el script que genera los certificados autofirmados.
Problemas conocidos
-
Esta versión de lanzamiento no es compatible con los tipos de instancias c1.medium ni m1.small. Los clústeres que utilizan cualquiera de estos tipos de instancias no se inician. Como solución alternativa, especifique un tipo de instancia diferente o utilice una versión de lanzamiento diferente.
-
Una vez que se reinicie el nodo principal o se reinicie el controlador de instancias, no se recopilarán las métricas de CloudWatch y la característica de escalado automático no estará disponible en las versiones 5.14.0, 5.15.0 o 5.16.0 de Amazon EMR. Este problema se ha corregido en la versión 5.17.0 de Amazon EMR.
Versión 5.14.1
Las siguientes notas de la versión incluyen información sobre la versión 5.14.1 de Amazon EMR. Los cambios son respecto a la versión 5.14.0.
Fecha de lanzamiento inicial: 17 de octubre de 2018
Se ha actualizado la AMI predeterminada de Amazon EMR para abordar posibles vulnerabilidades de seguridad.
Versión 5.14.0
Las siguientes notas de la versión incluyen información sobre la versión 5.14.0 de Amazon EMR. Los cambios son respecto a la versión 5.13.0.
Fecha de lanzamiento inicial: 4 de junio de 2018
Actualizaciones
Se ha actualizado Flink a la versión 1.4.2
Se ha actualizado Apache MXNet a la versión 1.1.0
Se ha actualizado Apache Sqoop a la versión 1.4.7
Nuevas características
Se ha agregado compatibilidad con JupyterHub. Para obtener más información, consulte JupyterHub.
Cambios, mejoras y problemas resueltos
EMRFS
La cadena userAgent de las solicitudes para Amazon S3 se ha actualizado para incluir la información de usuario y de grupo de la entidad principal que la invoca. Se puede utilizar con los registros de AWS CloudTrail para un seguimiento más completo de las solicitudes.
HBase
Se ha incluido HBASE-20447
, que soluciona un problema que podía provocar problemas de caché, especialmente cuando las regiones estaban divididas.
-
MXNet
Se han agregado bibliotecas OpenCV.
Spark
-
Cuando Spark escribe archivos Parquet en una ubicación de Amazon S3 mediante EMRFS, el algoritmo FileOutputCommitter se ha actualizado para usar la versión 2 en lugar de la versión 1. Esto reduce el número de cambios de nombre, lo que mejora el rendimiento de la aplicación. Este cambio no afecta a:
-
Aplicaciones distintas de Spark.
-
Aplicaciones que escriben en otros sistemas de archivos, como HDFS (que aún utilizan la versión 1 de FileOutputCommitter).
-
Aplicaciones que utilizan otros formatos de salida, como texto o csv, que ya utilizan la escritura directa de EMRFS.
-
-
Problemas conocidos
-
JupyterHub
-
No se admite el uso de clasificaciones de configuración para configurar JupyterHub y cuadernos individuales de Jupyter al crear un clúster. Edite manualmente los archivos jupyterhub_config.py y jupyter_notebook_config.py para cada usuario. Para obtener más información, consulte Configuración de JupyterHub.
-
JupyterHub no se inicia en los clústeres dentro de una subred privada y se produce un error con el mensaje
Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt'
. Esto es provocado por un error en el script que genera los certificados autofirmados. Utilice la siguiente solución alternativa para generar certificados autofirmados. Todos los comandos se ejecutan mientras está conectado al nodo principal.Copie el script de generación de certificados del contenedor al nodo principal:
sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
Utilice un editor de texto para cambiar la línea 23 y cambiar el nombre de host público por un nombre de host local, como se muestra a continuación:
local
hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local
-hostname)Ejecute el script para generar certificados autofirmados:
sudo bash ./gen_self_signed_cert.sh
Mueva los archivos de certificados que genera el script al directorio
/etc/jupyter/conf/
:sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/
Puede llevar a cabo una operación
tail
en el archivojupyter.log
para verificar que JupyterHub se ha reiniciado y devuelve el código de respuesta 200. Por ejemplo:tail -f /var/log/jupyter/jupyter.log
Este debe devolver una respuesta similar a la siguiente:
# [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
-
-
Una vez que se reinicie el nodo principal o se reinicie el controlador de instancias, no se recopilarán las métricas de CloudWatch y la característica de escalado automático no estará disponible en las versiones 5.14.0, 5.15.0 o 5.16.0 de Amazon EMR. Este problema se ha corregido en la versión 5.17.0 de Amazon EMR.
Versión 5.13.0
Las siguientes notas de la versión incluyen información sobre la versión 5.13.0 de Amazon EMR. Los cambios son respecto a la versión 5.12.0.
Actualizaciones
-
Se ha actualizado Spark a la versión 2.3.0
-
Se ha actualizado HBase a la versión 1.4.2
-
Se ha actualizado Presto a la versión 0.194
-
Se ha actualizado AWS SDK for Java a la versión 1.11.297
Cambios, mejoras y problemas resueltos
Hive
-
Se ha adaptado HIVE-15436
. Se han mejorado las API de Hive para que solo devuelvan vistas.
-
Problemas conocidos
-
MXNet no tiene actualmente bibliotecas OpenCV.
Versión 5.12.2
Las siguientes notas de la versión incluyen información sobre la versión 5.12.2 de Amazon EMR. Los cambios son respecto a la versión 5.12.1.
Fecha de lanzamiento inicial: 29 de agosto de 2018
Cambios, mejoras y problemas resueltos
Esta versión aborda una posible vulnerabilidad de seguridad.
Versión 5.12.1
Las siguientes notas de la versión incluyen información sobre la versión 5.12.1 de Amazon EMR. Los cambios son respecto a la versión 5.12.0.
Fecha de lanzamiento inicial: 29 de marzo de 2018
Cambios, mejoras y problemas resueltos
Se ha actualizado el kernel de Amazon Linux de la AMI predeterminada de Amazon Linux para Amazon EMR a fin de abordar posibles vulnerabilidades.
Versión 5.12.0
Las siguientes notas de la versión incluyen información sobre la versión 5.12.0 de Amazon EMR. Los cambios son respecto a la versión 5.11.1.
Actualizaciones
AWS SDK para Java, versión 1.11.238 ⇒ 1.11.267. Para más información, consulte SDK de AWS para el registro de cambios de Java
en GitHub. Hadoop 2.7.3 ⇒ 2.8.3. Para más información, consulte Versiones de Apache Hadoop
. Flink 1.3.2 ⇒ 1.4.0. Para más información, consulte Apache Flink 1.4.0 Release Announcement
. HBase 1.3.1 ⇒ 1.4.0. Para más información, consulte Anuncio de lanzamiento de HBase
. Hue 4.0.1 ⇒ 4.1.0. Para más información, consulte las notas de la versión
. MXNet 0.12.0 ⇒ 1.0.0. Para más información, consulte MXNet Change Log
en GitHub. Presto 0.187 ⇒ 0.188. Para más información, consulte las notas de la versión
.
Cambios, mejoras y problemas resueltos
Hadoop
La propiedad
yarn.resourcemanager.decommissioning.timeout
se ha cambiado ayarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs
. Puede utilizar esta propiedad para personalizar la reducción vertical del clúster. Para más información, consulte Reducción vertical de clúster en la Guía de administración de Amazon EMR.La CLI de Hadoop ha agregado la opción
-d
al comandocp
(copia), que especifica la copia directa. Puede utilizarlo para evitar la creación de un archivo.COPYING
intermediario, lo que agiliza la copia de datos entre Amazon S3. Para más información, consulte HADOOP-12384.
Pig
Se ha agregado la clasificación de configuración
pig-env
, que simplifica la configuración de las propiedades del entorno de Pig. Para obtener más información, consulte Configuración de aplicaciones.
Presto
Se ha agregado la clasificación de configuración
presto-connector-redshift
, que se puede utilizar para configurar valores en el archivo de configuraciónredshift.properties
de Presto. Para más información, consulte Redshift Connectoren la documentación de Presto y Configuración de aplicaciones. Se ha agregado compatibilidad con Presto para EMRFS y es la configuración predeterminada. Las versiones anteriores de Amazon EMR utilizaban PrestoS3FileSystem, que era la única opción. Para obtener más información, consulte Configuración de EMRFS y PrestoS3FileSystem.
nota
Si consulta los datos subyacentes en Amazon S3 con la versión 5.12.0 de Amazon EMR, pueden producirse errores en Presto. Esto se debe a que Presto no recoge los valores de clasificación de configuración de
emrfs-site.xml
. Como solución alternativa, cree un subdirectorio deemrfs
enusr/lib/presto/plugin/hive-hadoop2/
y cree un enlace simbólico enusr/lib/presto/plugin/hive-hadoop2/emrfs
al archivo/usr/share/aws/emr/emrfs/conf/emrfs-site.xml
existente. A continuación, reinicie el proceso presto-server (sudo presto-server stop
seguido desudo presto-server start
).
Spark
Se ha agregado portabilidad con versiones anteriores para SPARK-22036: BigDecimal multiplication sometimes returns null
.
Problemas conocidos
MXNet no incluye las bibliotecas OpenCV.
SparkR no está disponible para los clústeres creados con una AMI personalizada porque R no está instalado de forma predeterminada en los nodos del clúster.
Versión 5.11.3
Las siguientes notas de la versión incluyen información sobre la versión 5.11.3 de Amazon EMR. Los cambios son respecto a la versión 5.11.2.
Fecha de lanzamiento inicial: 18 de julio de 2019
Cambios, mejoras y problemas resueltos
Se ha actualizado la AMI de Amazon Linux predeterminada para Amazon EMR a fin de incluir importantes actualizaciones de seguridad del kernel de Linux, incluido el problema de denegación de servicio TCP SACK (AWS-2019-005
).
Versión 5.11.2
Las siguientes notas de la versión incluyen información sobre la versión 5.11.2 de Amazon EMR. Los cambios son respecto a la versión 5.11.1.
Fecha de lanzamiento inicial: 29 de agosto de 2018
Cambios, mejoras y problemas resueltos
Esta versión aborda una posible vulnerabilidad de seguridad.
Versión 5.11.1
Las siguientes notas de la versión incluyen información sobre la versión 5.11.1 de Amazon EMR. Los cambios son respecto a la versión 5.11.0 de Amazon EMR.
Fecha de lanzamiento inicial: 22 de enero de 2018
Cambios, mejoras y problemas resueltos
Se ha actualizado el kernel de Amazon Linux de la AMI predeterminada de Amazon Linux para Amazon EMR a fin de abordar las vulnerabilidades asociadas a la ejecución especulativa (CVE-2017-5715, CVE-2017-5753 y CVE-2017-5754). Para obtener más información, consulte https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Problemas conocidos
-
MXNet no incluye las bibliotecas OpenCV.
-
Hive 2.3.2 establece
hive.compute.query.using.stats=true
de forma predeterminada. Esto desemboca en consultas que obtienen datos de las estadísticas existentes en lugar de directamente de los datos, lo que puede dar lugar a confusión. Por ejemplo, si tiene una tabla conhive.compute.query.using.stats=true
y carga nuevos archivos en la tablaLOCATION
, la ejecución de una consultaSELECT COUNT(*)
en la tabla devuelve el recuento de las estadísticas, en lugar de seleccionar las filas añadidas.Para resolver este problema, utilice el comando
ANALYZE TABLE
para recopilar nuevas estadísticas o establezcahive.compute.query.using.stats=false
. Para obtener más información, consulte Statistics in Hiveen la documentación de Apache Hive.
Versión 5.11.0
Las siguientes notas de la versión incluyen información sobre la versión 5.11.0 de Amazon EMR. Los cambios son respecto a la versión 5.10.0 de Amazon EMR.
Actualizaciones
Las siguientes aplicaciones y componentes se han actualizado en esta versión para incluir las siguientes versiones.
-
Hive 2.3.2
-
Spark 2.2.1
-
SDK para Java 1.11.238
Nuevas características
-
Spark
-
Se ha añadido el ajuste
spark.decommissioning.timeout.threshold
, que mejora el comportamiento de retirada de Spark cuando se utilizan instancias de spot. Para obtener más información, consulte Configuración del comportamiento de retirada de nodos. -
Se ha añadido el componente
aws-sagemaker-spark-sdk
a Spark, que instala Amazon SageMaker Spark y las dependencias asociadas para la integración de Spark con Amazon SageMaker. Puede utilizar Amazon SageMaker Spark para construir canalizaciones de machine learning (ML) de Spark mediante etapas de Amazon SageMaker. Para más información, consulte SageMaker Spark Readme en GitHub y Uso de Apache Spark con Amazon SageMaker en la Guía para desarrolladores de Amazon SageMaker.
-
Problemas conocidos
-
MXNet no incluye las bibliotecas OpenCV.
-
Hive 2.3.2 establece
hive.compute.query.using.stats=true
de forma predeterminada. Esto desemboca en consultas que obtienen datos de las estadísticas existentes en lugar de directamente de los datos, lo que puede dar lugar a confusión. Por ejemplo, si tiene una tabla conhive.compute.query.using.stats=true
y carga nuevos archivos en la tablaLOCATION
, la ejecución de una consultaSELECT COUNT(*)
en la tabla devuelve el recuento de las estadísticas, en lugar de seleccionar las filas añadidas.Para resolver este problema, utilice el comando
ANALYZE TABLE
para recopilar nuevas estadísticas o establezcahive.compute.query.using.stats=false
. Para obtener más información, consulte Statistics in Hiveen la documentación de Apache Hive.
Versión 5.10.0
Las siguientes notas de la versión incluyen información sobre la versión 5.10.0 de Amazon EMR. Los cambios son respecto a la versión 5.9.0 de Amazon EMR.
Actualizaciones
Las siguientes aplicaciones y componentes se han actualizado en esta versión para incluir las siguientes versiones.
-
AWS SDK for Java 1.11.221
-
Hive 2.3.1
-
Presto 0.187
Nuevas características
-
Se ha agregado compatibilidad para autenticación Kerberos. Para más información, consulte Uso de la autenticación de Kerberos en la Guía de administración de Amazon EMR
-
Se ha agregado compatibilidad con los roles de IAM de las solicitudes de EMRFS para Amazon S3. Para más información, consulte Configurar roles de IAM de solicitudes de EMRFS para Amazon S3 en la Guía de administración de Amazon EMR.
-
Se ha agregado un soporte para los tipos de instancias P2 y P3 basados en GPU. Para más información, consulte Instancias P2 de Amazon EC2
e Instancias P3 de Amazon EC2 . El controlador NVIDIA 384,81 y el controlador CUDA 9.0.176 están instalados en estos tipos de instancias de forma predeterminada. -
Se agregó compatibilidad con Apache MXNet.
Cambios, mejoras y problemas resueltos
-
Presto
-
Se ha agregado compatibilidad para utilizar el Catálogo de datos de AWS Glue como metaalmacén predeterminado de Hive. Para obtener más información, consulte Uso de Presto con el Catálogo de datos de AWS Glue.
-
Se ha agregado compatibilidad para las funciones geoespaciales
. -
Se ha agregado compatibilidad con las uniones de derrame en el disco
. -
Se ha agregado compatibilidad con el conector de Redshift
.
-
-
Spark
-
Se ha adaptado SPARK-20640
, lo que hace que el tiempo de espera de rpc y los reintentos de los valores de registro de reorganización sean configurables mediante las propiedades spark.shuffle.registration.timeout
yspark.shuffle.registration.maxAttempts
. -
Se ha adaptado SPARK-21549
, lo que corrige un error que se produce al escribir OutputFormat personalizados en ubicaciones que no pertenezcan a HDFS.
-
-
Se ha adaptado Hadoop-13270
-
Se han eliminado las bibliotecas Numpy, Scipy y Matplotlib de la AMI base de Amazon EMR. Si la aplicación requiere estas bibliotecas, están disponibles en el repositorio de aplicaciones, por lo que puede utilizar una acción de arranque para instalarlas en todos los nodos mediante
yum install
. -
La AMI base de Amazon EMR ya no incluye paquetes RPM de aplicaciones, por lo que los paquetes RPM ya no están presentes en los nodos del clúster. Las AMI personalizadas y la AMI base de Amazon EMR ahora hacen referencia al repositorio de paquetes RPM de Amazon S3.
-
Debido a la introducción de la facturación por segundo en Amazon EC2, el valor predeterminado para Comportamiento de escalado descendente ahora es Terminar al completar la tarea en lugar de Terminar a la hora de la instancia. Para más información, consulte Reducción de escala del clúster.
Problemas conocidos
-
MXNet no incluye las bibliotecas OpenCV.
-
Hive 2.3.1 establece
hive.compute.query.using.stats=true
de forma predeterminada. Esto desemboca en consultas que obtienen datos de las estadísticas existentes en lugar de directamente de los datos, lo que puede dar lugar a confusión. Por ejemplo, si tiene una tabla conhive.compute.query.using.stats=true
y carga nuevos archivos en la tablaLOCATION
, la ejecución de una consultaSELECT COUNT(*)
en la tabla devuelve el recuento de las estadísticas, en lugar de seleccionar las filas añadidas.Para resolver este problema, utilice el comando
ANALYZE TABLE
para recopilar nuevas estadísticas o establezcahive.compute.query.using.stats=false
. Para obtener más información, consulte Statistics in Hiveen la documentación de Apache Hive.
Versión 5.9.0
Las siguientes notas de la versión incluyen información sobre la versión 5.9.0 de Amazon EMR. Los cambios son respecto a la versión 5.8.0 de Amazon EMR.
Fecha de lanzamiento: 5 de octubre de 2017
Última actualización de características: 12 de octubre de 2017
Actualizaciones
Las siguientes aplicaciones y componentes se han actualizado en esta versión para incluir las siguientes versiones.
-
AWS SDK for Java versión 1.11.183
-
Flink 1.3.2
-
Hue 4.0.1
-
Pig 0.17.0
-
Presto 0.184
Nuevas características
-
Se ha añadido compatibilidad con Livy (versión 0.4.0-incubating). Para obtener más información, consulte Apache Livy.
-
Se ha añadido compatibilidad con Hue Notebook para Spark.
-
Se ha agregado compatibilidad con instancias de Amazon EC2 de la serie i3 (12 de octubre de 2017).
Cambios, mejoras y problemas resueltos
-
Spark
-
Se ha añadido un nuevo conjunto de características que ayudan a asegurarse de que Spark gestiona de un modo más correcto la terminación de los nodos debido a una solicitud de cambio de tamaño manual o a una política de escalado automático. Para obtener más información, consulte Configuración del comportamiento de retirada de nodos.
-
SSL se utiliza en lugar de 3DES para el cifrado en tránsito del servicio de transferencia de bloques, lo que mejora el rendimiento cuando se utilizan tipos de instancias de Amazon EC2 con AES-NI.
-
Se ha adaptado SPARK-21494
.
-
-
Zeppelin
-
Se ha adaptado ZEPPELIN-2377
.
-
-
HBase
-
Se ha añadido el parche HBASE-18533
, que permite usar valores adicionales para la configuración de BucketCache de HBase utilizando la clasificación de configuración hbase-site
.
-
-
Hue
-
Se ha agregado compatibilidad con el Catálogo de datos de AWS Glue para el editor de consultas Hive en Hue.
-
Los superusuarios de Hue pueden acceder, de forma predeterminada, a todos los archivos para los que tienen autorización de acceso los roles de IAM de Amazon EMR. Los usuarios recién creados no obtienen automáticamente permisos de acceso al navegador de archivos de Amazon S3, por lo que es necesario activar los permisos
filebrowser.s3_access
para su grupo.
-
-
Se ha solucionado un problema que impedía el acceso a los datos subyacentes de JSON creados con el Catálogo de datos de AWS Glue.
Problemas conocidos
-
El lanzamiento del clúster produce un error cuando se instalan todas las aplicaciones y no se cambia el tamaño del volumen raíz de Amazon EBS predeterminado. Para solucionar este problema, use el comando
aws emr create-cluster
de la AWS CLI y especifique un parámetro--ebs-root-volume-size
mayor. -
Hive 2.3.0 establece
hive.compute.query.using.stats=true
de forma predeterminada. Esto desemboca en consultas que obtienen datos de las estadísticas existentes en lugar de directamente de los datos, lo que puede dar lugar a confusión. Por ejemplo, si tiene una tabla conhive.compute.query.using.stats=true
y carga nuevos archivos en la tablaLOCATION
, la ejecución de una consultaSELECT COUNT(*)
en la tabla devuelve el recuento de las estadísticas, en lugar de seleccionar las filas añadidas.Para resolver este problema, utilice el comando
ANALYZE TABLE
para recopilar nuevas estadísticas o establezcahive.compute.query.using.stats=false
. Para obtener más información, consulte Statistics in Hiveen la documentación de Apache Hive.
Versión 5.8.2
Las siguientes notas de la versión incluyen información sobre la versión 5.8.2 de Amazon EMR. Los cambios son respecto a la versión 5.8.1.
Fecha de lanzamiento inicial: 29 de marzo de 2018
Cambios, mejoras y problemas resueltos
Se ha actualizado el kernel de Amazon Linux de la AMI predeterminada de Amazon Linux para Amazon EMR a fin de abordar posibles vulnerabilidades.
Versión 5.8.1
Las siguientes notas de la versión incluyen información sobre la versión 5.8.1 de Amazon EMR. Los cambios son respecto a la versión 5.8.0 de Amazon EMR.
Fecha de lanzamiento inicial: 22 de enero de 2018
Cambios, mejoras y problemas resueltos
Se ha actualizado el kernel de Amazon Linux de la AMI predeterminada de Amazon Linux para Amazon EMR a fin de abordar las vulnerabilidades asociadas a la ejecución especulativa (CVE-2017-5715, CVE-2017-5753 y CVE-2017-5754). Para obtener más información, consulte https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Versión 5.8.0
Las siguientes notas de la versión incluyen información sobre la versión 5.8.0 de Amazon EMR. Los cambios son respecto a la versión 5.7.0 de Amazon EMR.
Fecha de lanzamiento inicial: 10 de agosto de 2017
Última actualización de características: 25 de septiembre de 2017
Actualizaciones
Las siguientes aplicaciones y componentes se han actualizado en esta versión para incluir las siguientes versiones:
-
AWS SDK 1.11.160
-
Flink 1.3.1
-
Hive 2.3.0. Para más información, consulte Notas de la versión
en el sitio de Apache Hive. -
Spark 2.2.0. Para más información, consulte Notas de la versión
en el sitio de Apache Spark.
Nuevas características
-
Se ha agregado la posibilidad de visualizar el historial de aplicaciones (25 de septiembre de 2017). Para más información, consulte Visualización del historial de aplicaciones en la Guía de administración de Amazon EMR.
Cambios, mejoras y problemas resueltos
-
Integración con el Catálogo de datos de AWS Glue
-
Se ha agregado la capacidad de Hive y Spark SQL para utilizar el Catálogo de datos de AWS Glue como almacén de metadatos de Hive. Para obtener más información, consulte Se ha agregado compatibilidad para utilizar el Catálogo de datos de AWS Glue como metaalmacén predeterminado de Hive y Uso del Catálogo de datos de AWS Glue como metaalmacén para Spark SQL.
-
-
Se ha añadido el Application history (Historial de aplicaciones) a los detalles del clúster, lo que le permite ver datos históricos de las aplicaciones de YARN y detalles adicionales de las aplicaciones de Spark. Para obtener más información, consulte Ver el historial de aplicaciones en la Guía de administración de Amazon EMR.
-
Oozie
-
Se ha adaptado OOZIE-2748
.
-
-
Hue
-
Se ha adaptado HUE-5859
-
-
HBase
-
Se ha añadido un parche para exponer la hora de inicio del servidor principal de HBase a través de Java Management Extensions (JMX) utilizando
getMasterInitializedTime
. -
Se ha añadido un parche que mejora la hora de inicio del clúster.
-
Problemas conocidos
-
El lanzamiento del clúster produce un error cuando se instalan todas las aplicaciones y no se cambia el tamaño del volumen raíz de Amazon EBS predeterminado. Para solucionar este problema, use el comando
aws emr create-cluster
de la AWS CLI y especifique un parámetro--ebs-root-volume-size
mayor. -
Hive 2.3.0 establece
hive.compute.query.using.stats=true
de forma predeterminada. Esto desemboca en consultas que obtienen datos de las estadísticas existentes en lugar de directamente de los datos, lo que puede dar lugar a confusión. Por ejemplo, si tiene una tabla conhive.compute.query.using.stats=true
y carga nuevos archivos en la tablaLOCATION
, la ejecución de una consultaSELECT COUNT(*)
en la tabla devuelve el recuento de las estadísticas, en lugar de seleccionar las filas añadidas.Para resolver este problema, utilice el comando
ANALYZE TABLE
para recopilar nuevas estadísticas o establezcahive.compute.query.using.stats=false
. Para obtener más información, consulte Statistics in Hiveen la documentación de Apache Hive. -
Spark: cuando se utiliza Spark, hay un problema de fuga de un controlador de archivos con el daemon apppusher que puede aparecer con un trabajo de Spark de ejecución prolongada después de varias horas o días. Para solucionar el problema, conéctese al nodo principal y escriba
sudo /etc/init.d/apppusher stop
. Esto detiene el daemon apppusher, que Amazon EMR reiniciará automáticamente. -
Historial de aplicaciones
-
Los datos históricos de los ejecutores de Spark inactivos no están disponibles.
-
El historial de aplicaciones no está disponible para clústeres que utilizan una configuración de seguridad para habilitar el cifrado en tránsito.
-
Versión 5.7.0
Las siguientes notas de la versión incluyen información sobre la versión 5.7.0 de Amazon EMR. Los cambios son respecto a la versión 5.6.0 de Amazon EMR.
Fecha de lanzamiento: 13 de julio de 2017
Actualizaciones
-
Flink 1.3.0
-
Phoenix 4.11.0
-
Zeppelin 0.7.2
Nuevas características
-
Se ha añadido la posibilidad de especificar una AMI de Amazon Linux personalizada al crear un clúster. Para más información, consulte Uso de una AMI personalizada.
Cambios, mejoras y problemas resueltos
-
HBase
-
Se ha añadido la posibilidad de configurar clústeres de réplicas de lectura de HBase. Consulte Uso de un clúster de réplicas de lectura.
-
Varias correcciones de errores y mejoras
-
-
Presto: se ha agregado la capacidad de configurar
node.properties
. -
YARN: se ha agregado la capacidad de configurar
container-log4j.properties
-
Sqoop: se ha adaptado SQOOP-2880
, que introduce un argumento que le permite definir el directorio temporal Sqoop.
Versión 5.6.0
Las siguientes notas de la versión incluyen información sobre la versión 5.6.0 de Amazon EMR. Los cambios son respecto a la versión 5.5.0 de Amazon EMR.
Fecha de lanzamiento: 5 de junio de 2017
Actualizaciones
-
Flink 1.2.1
-
HBase 1.3.1
-
Mahout 0.13.0. Esta es la primera versión de Mahout que admite Spark 2.x en la versión 5.0 y posteriores de Amazon EMR.
-
Spark 2.1.1
Cambios, mejoras y problemas resueltos
-
Presto
-
Se ha añadido la posibilidad de habilitar la comunicación segura SSL/TLS entre nodos de Presto habilitando el cifrado en tránsito a través de una configuración de seguridad. Para más información, consulte Cifrado de datos en tránsito.
-
Se ha adaptado Presto 7661
, que añade la opción VERBOSE
a la instrucciónEXPLAIN ANALYZE
para notificar estadísticas de bajo nivel más detalladas sobre un plan de consulta.
-
Versión 5.5.3
Las siguientes notas de la versión incluyen información sobre la versión 5.5.3 de Amazon EMR. Los cambios son respecto a la versión 5.5.2.
Fecha de lanzamiento inicial: 29 de agosto de 2018
Cambios, mejoras y problemas resueltos
Esta versión aborda una posible vulnerabilidad de seguridad.
Versión 5.5.2
Las siguientes notas de la versión incluyen información sobre la versión 5.5.2 de Amazon EMR. Los cambios son respecto a la versión 5.5.1.
Fecha de lanzamiento inicial: 29 de marzo de 2018
Cambios, mejoras y problemas resueltos
Se ha actualizado el kernel de Amazon Linux de la AMI predeterminada de Amazon Linux para Amazon EMR a fin de abordar posibles vulnerabilidades.
Versión 5.5.1
Las siguientes notas de la versión incluyen información sobre la versión 5.5.1 de Amazon EMR. Los cambios son respecto a la versión 5.5.0 de Amazon EMR.
Fecha de lanzamiento inicial: 22 de enero de 2018
Cambios, mejoras y problemas resueltos
Se ha actualizado el kernel de Amazon Linux de la AMI predeterminada de Amazon Linux para Amazon EMR a fin de abordar las vulnerabilidades asociadas a la ejecución especulativa (CVE-2017-5715, CVE-2017-5753 y CVE-2017-5754). Para obtener más información, consulte https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Versión 5.5.0
Las siguientes notas de la versión incluyen información sobre la versión 5.5.0 de Amazon EMR. Los cambios son respecto a la versión 5.4.0 de Amazon EMR.
Fecha de lanzamiento: 26 de abril de 2017
Actualizaciones
-
Hue 3.12
-
Presto 0.170
-
Zeppelin 0.7.1
-
ZooKeeper 3.4.10
Cambios, mejoras y problemas resueltos
-
Spark
-
Se ha adaptado el parche de Spark (SPARK-20115) Fix DAGScheduler to recompute all the lost shuffle blocks when external shuffle service is unavailable
a la versión 2.1.0 de Spark, que se incluye en esta versión.
-
-
Flink
-
Flink ahora se compila con Scala 2.11. Si utiliza las bibliotecas y la API de Scala, le recomendamos que utilice Scala 2.11 en sus proyectos.
-
Se ha resuelto un problema donde los valores predeterminados de
HADOOP_CONF_DIR
yYARN_CONF_DIR
no se definían correctamente, por tanto no funcionabastart-scala-shell.sh
. También se ha añadido la capacidad de definir estos valores utilizandoenv.hadoop.conf.dir
yenv.yarn.conf.dir
en/etc/flink/conf/flink-conf.yaml
o la clasificación de configuraciónflink-conf
. -
Se ha introducido un nuevo comando específico de EMR,
flink-scala-shell
como encapsulador parastart-scala-shell.sh
. Recomendamos utilizar este comando en lugar destart-scala-shell
. El nuevo comando simplifica la ejecución. Por ejemplo,flink-scala-shell -n 2
inicia un shell Scala de Flink con un paralelismo de tareas de 2. -
Se ha introducido un nuevo comando específico de EMR,
flink-yarn-session
como encapsulador parayarn-session.sh
. Recomendamos utilizar este comando en lugar deyarn-session
. El nuevo comando simplifica la ejecución. Por ejemplo,flink-yarn-session -d -n 2
inicia una sesión de Flink de ejecución prolongada en un estado desasociado con dos administradores de tareas. -
Se ha corregido (FLINK-6125) Commons httpclient is not shaded anymore in Flink 1.2
.
-
-
Presto
-
Se ha agregado compatibilidad para autenticación LDAP. El uso de LDAP con Presto en Amazon EMR requiere habilitar el acceso HTTPS para el coordinador de Presto (
http-server.https.enabled=true
enconfig.properties
). Para conocer los detalles de configuración, consulte LDAP Authenticationen la documentación de Presto. -
Se agregó compatibilidad con
SHOW GRANTS
.
-
-
AMI base de Linux de Amazon EMR
-
Las versiones de Amazon EMR ahora se basan en Amazon Linux 2017.03. Para más información, consulte las notas de la versión de Amazon Linux AMI 2017.03
. -
Se ha eliminado Python 2.6 de la imagen de Linux de base en Amazon EMR. Python 2.7 y 3.4 se instalan de forma predeterminada. Puede instalar Python 2.6 manualmente si es necesario.
-
Versión 5.4.0
Las siguientes notas de la versión incluyen información sobre la versión 5.4.0 de Amazon EMR. Los cambios son respecto a la versión 5.3.0 de Amazon EMR.
Fecha de lanzamiento: 8 de marzo de 2017
Actualizaciones
Las siguientes actualizaciones están disponibles en esta versión:
-
Actualizado a Flink 1.2.0
-
Actualizado a Hbase 1.3.0
-
Actualizado a Phoenix 4.9.0
nota
Si actualiza desde una versión anterior de Amazon EMR a una versión 5.4.0 o posterior de Amazon EMR y utiliza la indexación secundaria, actualice los índices locales como se describe en la documentación de Apache Phoenix
. Amazon EMR elimina las configuraciones requeridas de la clasificación de hbase-site
, pero los índices se tienen que volver a rellenar. Se admite la actualización de índices en línea y fuera de línea. Las actualizaciones en línea son la opción predeterminada, lo que significa que los índices se rellenan al inicializar desde los clientes de Phoenix versión 4.8.0 o superior. Para especificar actualizaciones fuera de línea, defina la configuraciónphoenix.client.localIndexUpgrade
en false en la clasificaciónphoenix-site
y, a continuación, SSH en el nodo principal para ejecutarpsql [zookeeper] -1
. -
Actualizado a Presto 0.166
-
Actualizado a Zeppelin 0.7.0
Cambios y mejoras
Se han hechos los siguientes cambios en versiones de Amazon EMR para la etiqueta de versión emr-5.4.0:
-
Se ha añadido compatibilidad para instancias r4. Consulte Tipos de instancias de Amazon EC2
.
Versión 5.3.1
Las siguientes notas de la versión incluyen información sobre la versión 5.3.1 de Amazon EMR. Los cambios son respecto a la versión 5.3.0 de Amazon EMR.
Fecha de lanzamiento: 7 de febrero de 2017
Cambios menores para agregar portabilidad con versiones anteriores de las revisiones de Zeppelin y actualizar la AMI predeterminada de Amazon EMR.
Versión 5.3.0
Las siguientes notas de la versión incluyen información sobre la versión 5.3.0 de Amazon EMR. Los cambios son respecto a la versión 5.2.1 de Amazon EMR.
Fecha de lanzamiento: 26 de enero de 2017
Actualizaciones
Las siguientes actualizaciones están disponibles en esta versión:
-
Actualizado a Hive 2.1.1
-
Actualizado a Hue 3.11.0
-
Actualizado a Spark 2.1.0
-
Actualizado a Oozie 4.3.0
-
Actualizado a Flink 1.1.4
Cambios y mejoras
Se han hechos los siguientes cambios en versiones de Amazon EMR para la etiqueta de versión emr-5.3.0:
-
Se ha añadido un parche a Hue que le permite utilizar el ajuste
interpreters_shown_on_wheel
para configurar qué intérpretes se muestran primero en la rueda de selección de bloc de notas, independientemente de su orden en el archivohue.ini
. -
Se ha añadido la clasificación de configuración
hive-parquet-logging
, que se puede utilizar para configurar valores en el archivoparquet-logging.properties
de Hive.
Versión 5.2.2
Las siguientes notas de la versión incluyen información sobre la versión 5.2.2 de Amazon EMR. Los cambios son respecto a la versión 5.2.1 de Amazon EMR.
Fecha de lanzamiento: 2 de mayo de 2017
Problemas conocidos resueltos de las versiones anteriores
-
Se ha adaptado SPARK-194459
, que resuelve un problema en que la lectura desde una tabla de ORC con columnas char/varchar puede generar un error.
Versión 5.2.1
Las siguientes notas de la versión incluyen información sobre la versión 5.2.1 de Amazon EMR. Los cambios son respecto a la versión 5.2.0 de Amazon EMR.
Fecha de lanzamiento: 29 de diciembre de 2016
Actualizaciones
Las siguientes actualizaciones están disponibles en esta versión:
-
Se ha actualizado Presto a la versión 0.157.1. Para más información, consulte las Presto Release Notes
en la documentación de Presto. -
Se ha actualizado ZooKeeper a la versión 3.4.9. Para más información, consulte las ZooKeeper Release Notes
en la documentación de Apache ZooKeeper.
Cambios y mejoras
Se han hechos los siguientes cambios en versiones de Amazon EMR para la etiqueta de versión emr-5.2.1:
-
Se ha agregado compatibilidad con el tipo de instancia m4.16xlarge de Amazon EC2 en la versión 4.8.3 y posteriores de Amazon EMR, excluyendo las versiones 5.0.0, 5.0.3 y 5.2.0.
-
Las versiones de Amazon EMR ahora se basan en Amazon Linux 2016.09. Para obtener más información, consulte https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
. -
La ubicación de las rutas de configuración de Flink y YARN ahora se define de forma predeterminada en
/etc/default/flink
y no es necesario definir las variables de entornoFLINK_CONF_DIR
yHADOOP_CONF_DIR
al ejecutar los scripts de controladorflink
oyarn-session.sh
para lanzar los trabajos de Flink. -
Se ha añadido soporte para la clase FlinkKinesisConsumer.
Problemas conocidos resueltos de las versiones anteriores
-
Corregido un error en Hadoop en el que el hilo ReplicationMonitor podría bloquearse durante mucho tiempo debido a una carrera entre replicación y eliminación del mismo archivo en un clúster grande.
-
Se ha corregido un error donde ControlledJob#toString devolvía un error con una excepción de puntero nulo (NPE) cuando el estado del trabajo no se actualizaba correctamente.
Versión 5.2.0
Las siguientes notas de la versión incluyen información sobre la versión 5.2.0 de Amazon EMR. Los cambios son respecto a la versión 5.1.0 de Amazon EMR.
Fecha de lanzamiento: 21 de noviembre de 2016
Cambios y mejoras
Los siguientes cambios y mejoras están disponibles en esta versión:
-
Se ha agregado el modo de almacenamiento de Amazon S3 para HBase.
-
Le permite especificar una ubicación de Amazon S3 para el directorio raíz de HBase. Para más información, consulte HBase en Amazon S3.
Actualizaciones
Las siguientes actualizaciones están disponibles en esta versión:
-
Actualizado a Spark 2.0.2
Problemas conocidos resueltos de las versiones anteriores
-
Corregido un error con /mnt limitado a 2 TB en tipos de instancias solo para EBS.
-
Se ha corregido un error con registros instance-controller y logpusher que generan sus archivos .out correspondientes en lugar de los archivos .log configurados para log4j normales, que rotan cada hora. Los archivos .out no rotan, por lo que esto finalmente rellenaría la partición /emr. Este problema solo afecta a los tipos de instancia de máquina virtual de hardware (HVM).
Versión 5.1.0
Las siguientes notas de la versión incluyen información sobre la versión 5.1.0 de Amazon EMR. Los cambios son respecto a la versión 5.0.0 de Amazon EMR.
Fecha de lanzamiento: 3 de noviembre de 2016
Cambios y mejoras
Los siguientes cambios y mejoras están disponibles en esta versión:
-
Se ha añadido soporte para Flink 1.1.3.
-
Presto se ha añadido como una opción en la sección de bloc de notas de Hue.
Actualizaciones
Las siguientes actualizaciones están disponibles en esta versión:
-
Actualizado a HBase 1.2.3
-
Actualizado a Zeppelin 0.6.2
Problemas conocidos resueltos de las versiones anteriores
-
Se ha corregido un problema con las consultas de Tez en Amazon S3 con archivos de ORC que no tienen un rendimiento tan bueno como en las versiones de Amazon EMR anteriores a la 4.x.
Versión 5.0.3
Las siguientes notas de la versión incluyen información sobre la versión 5.0.3 de Amazon EMR. Los cambios son respecto a la versión 5.0.0 de Amazon EMR.
Fecha de lanzamiento: 24 de octubre de 2016
Actualizaciones
Las siguientes actualizaciones están disponibles en esta versión:
-
Actualizado a Hadoop 2.7.3
-
Actualizado a Presto 0.152.3, que incluye soporte para la interfaz web de Presto. Puede acceder a la interfaz web de Presto en el coordinador de Presto utilizando el puerto 8889. Para más información acerca de la interfaz web de Presto, consulte Interfaz web
en la documentación de Presto. -
Actualizado a Spark 2.0.1
-
Las versiones de Amazon EMR ahora se basan en Amazon Linux 2016.09. Para obtener más información, consulte https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
.
Versión 5.0.0
Fecha de lanzamiento: 27 de julio de 2016
Actualizaciones
Las siguientes actualizaciones están disponibles en esta versión:
-
Actualizado a Hive 2.1
-
Actualizado a Presto 0.150
-
Actualizado a Spark 2.0
-
Actualizado a Hue 3.10.0
-
Actualizado a Pig 0.16.0
-
Actualizado a Tez 0.8.4
-
Actualizado a Zeppelin 0.6.1
Cambios y mejoras
Se han hechos los siguientes cambios en versiones de Amazon EMR para la etiqueta de versión emr-5.0.0 o superior:
-
Amazon EMR es compatible con las últimas versiones de código abierto de Hive (versión 2.1) y Pig (versión 0.16.0). Si ha utilizado Hive o Pig en Amazon EMR en el pasado, esto podría afectar a algunos casos de uso. Para obtener más información, consulte Hive y Pig.
-
El motor de ejecución predeterminado para Hive y Pig es ahora Tez. Para cambiarlo, debería editar los valores adecuados en las clasificaciones de configuración
hive-site
ypig-properties
, respectivamente. -
Se ha añadido una característica de depuración de paso mejorada, que le permite ver la causa raíz de los errores de paso en caso de que el servicio pueda determinar la causa. Para más información, consulte Depuración escalonada mejorada en la Guía de administración de Amazon EMR.
-
Las aplicaciones que anteriormente terminaban por "-Sandbox" ya no tienen ese sufijo. Esto podría interrumpir la automatización, por ejemplo, si utiliza scripts para lanzar clústeres con estas aplicaciones. En la siguiente tabla se muestran los nombres de aplicación la versión 4.7.2 de Amazon EMR en comparación con su versión 5.0.0.
Cambios de nombre de aplicación Amazon EMR 4.7.2 Amazon EMR 5.0.0 Oozie-Sandbox Oozie Presto-Sandbox Presto Sqoop-Sandbox Sqoop Zeppelin-Sandbox Zeppelin ZooKeeper-Sandbox ZooKeeper -
Spark ya está compilado para Scala 2.11.
-
Java 8 es ahora el JVM predeterminado. Todas las aplicaciones se ejecutan utilizando el tiempo de ejecución de Java 8. No hay cambios en el destino de código de bytes de ninguna aplicación. La mayoría de las aplicaciones siguen estableciendo como destino Java 7.
-
Zeppelin ahora incluye características de autenticación. Para obtener más información, consulte Zeppelin.
-
Se ha añadido soporte para configuraciones de seguridad, que le permiten crear y aplicar opciones de cifrado con más facilidad. Para más información, consulte Cifrado de datos.
Versión 4.9.5
Las siguientes notas de la versión incluyen información sobre la versión 4.9.5 de Amazon EMR. Los cambios son respecto a la versión 4.9.4.
Fecha de lanzamiento inicial: 29 de agosto de 2018
Cambios, mejoras y problemas resueltos
HBase
Esta versión aborda una posible vulnerabilidad de seguridad.
Versión 4.9.4
Las siguientes notas de la versión incluyen información sobre la versión 4.9.4 de Amazon EMR. Los cambios son respecto a la versión 4.9.3.
Fecha de lanzamiento inicial: 29 de marzo de 2018
Cambios, mejoras y problemas resueltos
Se ha actualizado el kernel de Amazon Linux de la AMI predeterminada de Amazon Linux para Amazon EMR a fin de abordar posibles vulnerabilidades.
Versión 4.9.3
Las siguientes notas de la versión incluyen información sobre la versión 4.9.3 de Amazon EMR. Los cambios son respecto a la versión 4.9.2 de Amazon EMR.
Fecha de lanzamiento inicial: 22 de enero de 2018
Cambios, mejoras y problemas resueltos
Se ha actualizado el kernel de Amazon Linux de la AMI predeterminada de Amazon Linux para Amazon EMR a fin de abordar las vulnerabilidades asociadas a la ejecución especulativa (CVE-2017-5715, CVE-2017-5753 y CVE-2017-5754). Para obtener más información, consulte https://aws.amazon.com/security/security-bulletins/AWS-2018-013/
.
Versión 4.9.2
Las siguientes notas de la versión incluyen información sobre la versión 4.9.2 de Amazon EMR. Los cambios son respecto a la versión 4.9.1 de Amazon EMR.
Fecha de lanzamiento: 13 de julio de 2017
Se han realizado pequeños cambios, correcciones de errores y mejoras en esta versión.
Versión 4.9.1
Las siguientes notas de la versión incluyen información sobre la versión 4.9.1 de Amazon EMR. Los cambios son respecto a la versión 4.8.4 de Amazon EMR.
Fecha de lanzamiento: 10 de abril de 2017
Problemas conocidos resueltos de las versiones anteriores
-
Se han adaptado HIVE-9976
y HIVE-10106 -
Se ha corregido un problema en YARN donde un gran número de nodos (superior a 2 000) y contenedores (superiores a 5 000) provocan un error de falta de memoria, por ejemplo:
"Exception in thread 'main' java.lang.OutOfMemoryError"
.
Cambios y mejoras
Se han hechos los siguientes cambios en versiones de Amazon EMR para la etiqueta de versión emr-4.9.1:
-
Las versiones de Amazon EMR ahora se basan en Amazon Linux 2017.03. Para obtener más información, consulte https://aws.amazon.com/amazon-linux-ami/2017.03-release-notes/
. -
Se ha eliminado Python 2.6 de la imagen de Linux de base en Amazon EMR. Puede instalar Python 2.6 manualmente si es necesario.
Versión 4.8.4
Las siguientes notas de la versión incluyen información sobre la versión 4.8.4 de Amazon EMR. Los cambios son respecto a la versión 4.8.3 de Amazon EMR.
Fecha de lanzamiento: 7 de febrero de 2017
Se han realizado pequeños cambios, correcciones de errores y mejoras en esta versión.
Versión 4.8.3
Las siguientes notas de la versión incluyen información sobre la versión 4.8.3 de Amazon EMR. Los cambios son respecto a la versión 4.8.2 de Amazon EMR.
Fecha de lanzamiento: 29 de diciembre de 2016
Actualizaciones
Las siguientes actualizaciones están disponibles en esta versión:
-
Se ha actualizado Presto a la versión 0.157.1. Para más información, consulte las Presto Release Notes
en la documentación de Presto. -
Actualizado a Spark 1.6.3. Para más información, consulte las Spark Release Notes
en la documentación de Apache Spark. -
Se ha actualizado ZooKeeper a la versión 3.4.9. Para más información, consulte las ZooKeeper Release Notes
en la documentación de Apache ZooKeeper.
Cambios y mejoras
Se han hechos los siguientes cambios en versiones de Amazon EMR para la etiqueta de versión emr-4.8.3:
-
Se ha agregado compatibilidad con el tipo de instancia m4.16xlarge de Amazon EC2 en la versión 4.8.3 y posteriores de Amazon EMR, excluyendo las versiones 5.0.0, 5.0.3 y 5.2.0.
-
Las versiones de Amazon EMR ahora se basan en Amazon Linux 2016.09. Para obtener más información, consulte https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
.
Problemas conocidos resueltos de las versiones anteriores
-
Corregido un error en Hadoop en el que el hilo ReplicationMonitor podría bloquearse durante mucho tiempo debido a una carrera entre replicación y eliminación del mismo archivo en un clúster grande.
-
Se ha corregido un error donde ControlledJob#toString devolvía un error con una excepción de puntero nulo (NPE) cuando el estado del trabajo no se actualizaba correctamente.
Versión 4.8.2
Las siguientes notas de la versión incluyen información sobre la versión 4.8.2 de Amazon EMR. Los cambios son respecto a la versión 4.8.0 de Amazon EMR.
Fecha de lanzamiento: 24 de octubre de 2016
Actualizaciones
Las siguientes actualizaciones están disponibles en esta versión:
-
Actualizado a Hadoop 2.7.3
-
Actualizado a Presto 0.152.3, que incluye soporte para la interfaz web de Presto. Puede acceder a la interfaz web de Presto en el coordinador de Presto utilizando el puerto 8889. Para más información acerca de la interfaz web de Presto, consulte Interfaz web
en la documentación de Presto. -
Las versiones de Amazon EMR ahora se basan en Amazon Linux 2016.09. Para obtener más información, consulte https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/
.
Versión 4.8.0
Fecha de lanzamiento: 7 de septiembre de 2016
Actualizaciones
Las siguientes actualizaciones están disponibles en esta versión:
-
Actualizado a HBase 1.2.2
-
Actualizado a Presto-Sandbox 0.151
-
Actualizado a Tez 0.8.4
-
Actualizado a Zeppelin-Sandbox 0.6.1
Cambios y mejoras
Se han hechos los siguientes cambios en versiones de Amazon EMR para la etiqueta de versión emr-4.8.0:
-
Se ha corregido un problema en YARN donde ApplicationMaster podría intentar limpiar contenedores que ya no existen porque sus instancias se han terminado.
-
Se ha corregido la URL de hive-server2 para acciones de Hive2 en los ejemplos de Oozie.
-
Se ha añadido soporte para catálogos de Presto adicionales.
-
Se han adaptado los parches: HIVE-8948
, HIVE-12679 , HIVE-13405 , PHOENIX-3116 , HADOOP-12689 -
Se ha añadido soporte para configuraciones de seguridad, que le permiten crear y aplicar opciones de cifrado con más facilidad. Para más información, consulte Cifrado de datos.
Versión 4.7.2
Las siguientes notas de la versión incluyen información sobre la versión 4.7.2 de Amazon EMR.
Fecha de lanzamiento: 15 de julio de 2016
Características
Las siguientes características están disponibles en esta versión:
-
Actualizado a Mahout 0.12.2
-
Actualizado a Presto 0.148
-
Actualizado a Spark 1.6.2
-
Ahora puede crear un AWSCredentialsProvider para utilizar con EMRFS mediante un URI como parámetro. Para obtener más información, consulte Crear un AWSCredentialsProvider para EMRFS.
-
EMRFS ahora permite a los usuarios configurar un punto de conexión de DynamoDB personalizado para sus metadatos de vista coherente utilizando la propiedad
fs.s3.consistent.dynamodb.endpoint
enemrfs-site.xml
. -
Se ha añadido un script en
/usr/bin
denominadospark-example
, que envuelve/usr/lib/spark/spark/bin/run-example
para que pueda ejecutar los ejemplos directamente. Por ejemplo, para ejecutar el ejemplo de SparkPi que viene con la distribución de Spark, puede ejecutarspark-example SparkPi 100
desde la línea de comando o utilizarcommand-runner.jar
como paso en la API.
Problemas conocidos resueltos de las versiones anteriores
-
Se ha corregido un problema donde Oozie no tenía
spark-assembly.jar
en la ubicación correcta cuando Spark también está instalado, lo que se traducía en un error al lanzar aplicaciones de Spark con Oozie. -
Se ha solucionado un problema con registros basado en Spark Log4j en contenedores de YARN.
Versión 4.7.1
Fecha de lanzamiento: 10 de junio de 2016
Problemas conocidos resueltos de las versiones anteriores
-
Se ha corregido un error que ampliaba el tiempo de startup de clústeres lanzadas en una VPC con subredes privadas. El error únicamente afectaba a clústeres lanzados con la versión 4.7.0 de Amazon EMR.
-
Se ha corregido un error que gestionaba incorrectamente el listado de archivos en Amazon EMR para los clústeres iniciados con la versión 4.7.0 de Amazon EMR.
Versión 4.7.0
importante
Amazon EMR 4.7.0 está obsoleto. Utilice Amazon EMR 4.7.1 o una versión posterior en su lugar.
Fecha de lanzamiento: 2 de junio de 2016
Características
Las siguientes características están disponibles en esta versión:
-
Se ha añadido Apache Phoenix 4.7.0
-
Se ha añadido Apache Tez 0.8.3
-
Actualizado a HBase 1.2.1
-
Actualizado a Mahout 0.12.0
-
Actualizado a Presto 0.147
-
AWS SDK for Java actualizado a 1.10.75
-
La marca final se ha eliminado de la propiedad
mapreduce.cluster.local.dir
enmapred-site.xml
para permitir a los usuarios ejecutar Pig en modo local.
Los controladores JDBC de Amazon Redshift están disponibles en el clúster
Los controladores JDBC de Amazon Redshift ahora se incluyen en /usr/share/aws/redshift/jdbc
. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar
es el controlador de Amazon Redshift compatible con JDBC 4.1 y /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar
es el controlador de Amazon Redshift compatible con JDBC 4.0. Para más información, consulte Configurar una conexión JDBC en la Guía de administración de Amazon Redshift.
Java 8
Excepto para Presto, OpenJDK 1.7 es el JDK predeterminado para todas las aplicaciones. No obstante, tanto OpenJDK 1.7 como 1.8 están instalados. Para más información sobre cómo definir JAVA_HOME
para las aplicaciones, consulte Configuración de aplicaciones para utilizar Java 8.
Problemas conocidos resueltos de las versiones anteriores
-
Se ha corregido un problema de kernel que afectaba notablemente a los volúmenes de HDD de rendimiento optimizado (st1) de EBS para Amazon EMR en emr-4.6.0.
-
Se ha corregido un problema donde un clúster fallaría si alguna de la zona de cifrado de HDFS se especifica sin elegir Hadoop como aplicación.
-
Se ha cambiado la política de escritura de HDFS predeterminada
RoundRobin
aAvailableSpaceVolumeChoosingPolicy
. Algunos volúmenes no se utilizaban correctamente con la configuración RoundRobin, lo que se traducía en nodos secundarios fallidos y HDFS poco fiable. -
Se ha corregido un problema con la CLI de EMRFS que provocaría una excepción al crear la tabla de metadatos de DynamoDB predeterminada para vistas coherentes.
-
Se ha corregido un problema de bloqueo en EMRFS que ocurría potencialmente durante las operaciones de copia y cambio de nombre de multipartes.
-
Se ha corregido un error con EMRFS que provocaba que el valor predeterminado de tamaño de CopyPart fuera de 5 MB. El valor predeterminado se ha fijado correctamente ahora en 128 MB.
-
Se ha corregido un problema con la configuración de upstart de Zeppelin que potencialmente impedía parar el servicio.
-
Se ha corregido un problema con Spark y Zeppelin, que impedía que utilizara el esquema de URI de
s3a://
porque/usr/lib/hadoop/hadoop-aws.jar
no se cargó correctamente en la classpath respectiva. -
Se ha adaptado HUE-2484
. -
Se ha adaptado una confirmación
desde Hue 3.9.0 (no existe JIRA) para corregir un problema con la muestra de navegador de HBase. -
Se ha adaptado HIVE-9073
.
Versión 4.6.0
Fecha de lanzamiento: 21 de abril de 2016
Características
Las siguientes características están disponibles en esta versión:
-
Se ha añadido HBase 1.2.0
-
Se ha añadido Zookeeper-Sandbox 3.4.8
-
Actualizado a Presto-Sandbox 0.143
-
Las versiones de Amazon EMR ahora se basan en Amazon Linux 2016.03.0. Para obtener más información, consulte https://aws.amazon.com/amazon-linux-ami/2016.03-release-notes/
.
Problema que afecta a los tipos de volúmenes de HDD de rendimiento optimizado (st1) de EBS
Un problema en el kernel de Linux versiones 4.2 y superiores afecta notablemente al rendimiento en volúmenes de EBS HDD con velocidad optimizada (st1) para EMR. Esta versión (emr-4.6.0) utiliza el kernel versión 4.4.5 y, por tanto, se ve afectada. Por lo tanto, le recomendamos no utilizar emr-4.6.0 si desea utilizar los volúmenes de EBS st1. Puede utilizar emr-4.5.0 o versiones anteriores de Amazon EMR sin que afecten a st1. Además, proporcionamos la corrección en futuras versiones.
Valores predeterminados de Python
Python 3.4 se instala ahora de forma predeterminada, pero Python 2.7 sigue siendo el valor predeterminado del sistema. Puede configurar Python 3.4 como valor predeterminado del sistema utilizando una acción de arranque; puede utilizar la API de configuración para definir la exportación de PYSPARK_PYTHON en /usr/bin/python3.4
en la clasificación de spark-env
para afectar a la versión de Python que utiliza PySpark.
Java 8
Excepto para Presto, OpenJDK 1.7 es el JDK predeterminado para todas las aplicaciones. No obstante, tanto OpenJDK 1.7 como 1.8 están instalados. Para más información sobre cómo definir JAVA_HOME
para las aplicaciones, consulte Configuración de aplicaciones para utilizar Java 8.
Problemas conocidos resueltos de las versiones anteriores
-
Se ha corregido un problema donde el aprovisionamiento de aplicaciones en ocasiones fallaría aleatoriamente debido a una contraseña generada.
-
Anteriormente,
mysqld
estaba instalado en todos los nodos. Ahora, solo está instalado en la instancia principal y únicamente si la aplicación elegida incluyemysql-server
como componente. En la actualidad, las siguientes aplicaciones incluyen el componentemysql-server
: HCatalog, Hive, Hue, Presto-Sandbox y Sqoop-Sandbox. -
Se ha cambiado
yarn.scheduler.maximum-allocation-vcores
a 80 desde el valor predeterminado de 32, que corrige un problema introducido en emr-4.4.0 que se produce sobre todo con Spark al utilizar la opciónmaximizeResourceAllocation
en un clúster cuyo tipo de instancia secundaria es uno de los pocos tipos de instancia grandes que tienen los vcores de YARN definidos en un valor superior a 32; es decir, c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge o m4.10xlarge se han visto afectados por este problema. -
s3-dist-cp ahora utiliza EMRFS para todas las nominaciones de Amazon S3 y ya no hay fases en un directorio temporal de HDFS.
-
Se ha corregido un problema con la gestión de excepciones para las cargas multiparte de cifrado del lado del cliente.
-
Se ha agregado una opción para permitir a los usuarios cambiar la clase de almacenamiento de Amazon S3. De forma predeterminada, este valor es
STANDARD
. El valor de clasificación de configuraciónemrfs-site
esfs.s3.storageClass
y los valores posibles sonSTANDARD
,STANDARD_IA
yREDUCED_REDUNDANCY
. Para más información sobre las clases de almacenamiento, consulte Clases de almacenamiento en la Guía del usuario de Amazon Simple Storage Service.
Versión 4.5.0
Fecha de lanzamiento: 4 de abril de 2016
Características
Las siguientes características están disponibles en esta versión:
-
Actualizado a Spark 1.6.1
-
Actualizado a Hadoop 2.7.2
-
Actualizado a Presto 0.140
-
Se ha agregado compatibilidad con AWS KMS para el cifrado del lado del servidor de Amazon S3.
Problemas conocidos resueltos de las versiones anteriores
-
Se ha corregido un problema donde los servidores de MySQL y Apache no se iniciaban después de reiniciar un nodo.
-
Se ha corregido un problema donde IMPORT no funcionaba correctamente con tablas no particionadas almacenadas en Amazon S3
-
Se ha corregido un problema en Presto donde requiere que el directorio intermedio sea
/mnt/tmp
en lugar de/tmp
al escribir en tablas de Hive.
Versión 4.4.0
Fecha de lanzamiento: 14 de marzo de 2016
Características
Las siguientes características están disponibles en esta versión:
-
Se ha añadido HCatalog 1.0.0
-
Se ha añadido Sqoop-Sandbox 1.4.6
-
Actualizado a Presto 0.136
-
Actualizado a Zeppelin 0.5.6
-
Actualizado a Mahout 0.11.1
-
dynamicResourceAllocation
habilitado de forma predeterminada. -
Se ha añadido una tabla de todas las clasificaciones de configuración para esta versión. Para más información, consulte la tabla de clasificaciones de configuración de Configuración de aplicaciones.
Problemas conocidos resueltos de las versiones anteriores
-
Se ha corregido un error donde la configuración
maximizeResourceAllocation
no reservaría memoria suficiente para daemons ApplicationMaster de YARN. -
Se ha corregido un problema encontrado con una DNS personalizada. Si alguna entrada en
resolve.conf
precede a las entradas personalizadas proporcionada, entonces las entradas personalizadas no se pueden resolver. Este comportamiento se veía afectado por clústeres en una VPC donde el servidor de nombres de VPC predeterminado se inserta como entrada superior enresolve.conf
. -
Se ha corregido un problema donde la versión predeterminada de Python se traslada a la versión 2.7 y boto no se ha instalado para dicha versión.
-
Se ha corregido un error donde los contenedores de YARN y las aplicaciones de Spark generarían un archivo único de base de datos round robin (rrd) de Ganglia, que daría lugar a que se llenara el primer disco asociado a la instancia. Debido a esta solución, las métricas en el nivel de contenedor de YARN se han deshabilitado y las métricas en el nivel de aplicación de Spark se han deshabilitado.
-
Se ha corregido un problema en el insertador de registros que eliminaría todas las carpetas con registro vacío. El resultado era que la CLI de Hive no podía realizar el registro porque el insertador de registros eliminaba la carpeta
user
vacía en/var/log/hive
. -
Se ha corregido un problema que afectaba a las importaciones de Hive, que afectaba a las particiones y daba lugar a un error durante la importación.
-
Se ha corregido un problema donde EMRFS y s3-dist-cp no gestionaban de forma adecuada los nombres de bucket que contenían puntos.
-
Se ha cambiado un comportamiento en EMRFS, de forma que los buckets con control de versiones habilitado en el archivo de marcador
_$folder$
no se creaba de forma continua, lo que podría contribuir a mejorar el rendimiento de los buckets con control de versiones habilitado. -
Se ha cambiado el comportamiento en EMRFS de forma que no utiliza archivos de instrucciones, excepto en aquellos casos en los que el cifrado del lado del cliente está habilitado. Si desea eliminar archivos de instrucciones al utilizar el cifrado del lado cliente, puede establecer la propiedad de emrfs-site.xml,
fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled
, en true. -
Se ha cambiado la agregación de registros de YARN para conservar los registros en el destino agregación durante dos días. El destino predeterminado es el almacenamiento de HDFS de su clúster. Si desea cambiar esta duración, cambie el valor de
yarn.log-aggregation.retain-seconds
utilizando la clasificación de configuraciónyarn-site
al crear el clúster. Como siempre, puede guardar los registros de las aplicaciones en Amazon S3 utilizando el parámetrolog-uri
al crear el clúster.
Parches aplicados
En esta versión se han incluido los siguientes parches de proyectos de código abierto:
Versión 4.3.0
Fecha de lanzamiento: 19 de enero de 2016
Características
Las siguientes características están disponibles en esta versión:
-
Actualizado a Hadoop 2.7.1
-
Actualizado a Spark 1.6.0
-
Actualizado Ganglia a 3.7.2
-
Actualizado Presto a 0.130
Amazon EMR ha hecho algunos cambios en spark.dynamicAllocation.enabled
cuando se define en true; su valor predeterminado es false. Cuando se define en true, esto afecta a los valores predeterminados del ajuste maximizeResourceAllocation
:
-
Si
spark.dynamicAllocation.enabled
se ha definido en true,spark.executor.instances
no ha sido definido pormaximizeResourceAllocation
. -
El ajuste
spark.driver.memory
se configura ahora en función de los tipos de instancia en el clúster de forma similar a cómo se definespark.executors.memory
. Sin embargo, dado que la aplicación del controlador Spark puede ejecutarse en la instancia principal o en una de las instancias secundarias (por ejemplo, en un cliente de YARN y modos de clústeres, respectivamente), el ajustespark.driver.memory
se basa en el tipo de instancia del tipo de instancia más pequeño de estos dos grupos de instancias. -
El ajuste
spark.default.parallelism
se define ahora como el doble del número de núcleos de CPU disponibles para contenedores de YARN. En las versiones anteriores, era la mitad de dicho valor. -
Los cálculos de la sobrecarga de memoria reservada para procesos de Spark YARN se ha ajustado para ser más precisa, lo que se traduce en un pequeño aumento en la cantidad total de memoria disponible para Spark (es decir,
spark.executor.memory
).
Problemas conocidos resueltos de las versiones anteriores
-
La agregación de registros de YARN ahora está habilitada de forma predeterminada.
-
Se ha corregido un problema por el que los registros no se enviaban a un bucket de registros de Amazon S3 del clúster cuando la agregación de registros de YARN estaba habilitada.
-
Los tamaños de contenedor de YARN ahora tienen un nuevo mínimo de 32 en todos los tipos de nodos.
-
Se ha corregido un problema con Ganglia que provocaba E/S de disco excesiva en el nodo principal en clústeres grandes.
-
Se ha corregido un problema que impedía que los registros de las aplicaciones se enviaran a Amazon S3 cuando se cierra un clúster.
-
Se ha corregido un problema en la CLI de EMRFS que provocaba que determinados comandos devolvieran error.
-
Se ha corregido un problema con Zeppelin que impedía cargar dependencias en el SparkContext subyacente.
-
Se ha corregido un problema que se producía al intentar un ajuste de tamaño para añadir instancias.
-
Se ha corregido un problema en Hive donde CREATE TABLE AS SELECT realiza llamadas de lista excesivas a Amazon S3.
-
Se ha corregido un problema donde clústeres grandes no aprovisionarían correctamente cuando estaban instalados Hue, Oozie y Ganglia.
-
Se ha corregido un problema en s3-dist-cp que devolvería un código de salida cero incluso si ha devuelto un error.
Parches aplicados
En esta versión se han incluido los siguientes parches de proyectos de código abierto:
Versión 4.2.0
Fecha de lanzamiento: 18 de noviembre de 2015
Características
Las siguientes características están disponibles en esta versión:
-
Se ha añadido compatibilidad con Ganglia
-
Actualizado a Spark 1.5.2
-
Actualizado a Presto 0.125
-
Actualizado Oozie a 4.2.0
-
Actualizado Zeppelin a 0.5.5
-
AWS SDK for Java actualizado a 1.10.27
Problemas conocidos resueltos de las versiones anteriores
-
Se ha corregido un problema con la CLI de EMRFS, donde no se utilizaba el nombre de la tabla de metadatos predeterminado.
-
Se ha corregido un problema que se presentaba al utilizar tablas respaldadas por ORC en Amazon S3.
-
Se ha corregido un problema encontrado con un error de coincidencia de versión de Python en la configuración de Spark.
-
Se ha corregido un error cuando falla la notificación del estado de un nodo de YARN debido a problemas de DNS para clústeres en una VPC.
-
Se ha corregido un error que se encuentra cuando YARN retira nodos, lo que da lugar a aplicaciones que no responden o a la incapacidad de programar nuevas aplicaciones.
-
Se ha corregido un error que se encuentra cuando los clústeres terminan con el estado TIMED_OUT_STARTING.
-
Se ha corregido un error que se encuentra al incluir la dependencia de EMRFS Scala en otras versiones. Se ha eliminado la dependencia de Scala.