EMRArquivo de notas de lançamento da Amazon - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

EMRArquivo de notas de lançamento da Amazon

As notas de lançamento de todos os EMR lançamentos da Amazon estão disponíveis abaixo. Para obter informações de versão abrangentes para cada versão, consulte Versões de lançamento do Amazon EMR 6.x, Versões de lançamento do Amazon EMR 5.x e Versões de lançamento do Amazon EMR 4.x.

Para receber atualizações quando um novo EMR lançamento da Amazon estiver disponível, assine o RSSfeed para ver as notas de EMR lançamento da Amazon.

Versão 6.14.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.14.0 da Amazon. As alterações são referentes à versão 6.13.0. Para obter informações sobre o cronograma da versão, consulte o Log de alterações 6.14.0.

Novos atributos
  • Amazon EMR 6.14.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-2, Flink 1.17.1, Iceberg 1.3.1, and Trino 422.

  • A escalabilidade EMR gerenciada da Amazon agora está disponível na região ap-southeast-3 Ásia-Pacífico (Jacarta) para clusters que você cria com o Amazon EMR 6.14.0 ou superior.

Alterações, melhorias e problemas resolvidos
  • A versão 6.14.0 otimiza o gerenciamento de registros com a Amazon em execução EMR na Amazon. EC2 Como resultado, é possível ver uma pequena redução nos custos de armazenamento dos logs do cluster.

  • A versão 6.14.0 melhora o fluxo de trabalho de escalabilidade para considerar diferentes instâncias principais que têm uma variação substancial no tamanho de seus volumes da Amazon. EBS Essa melhoria se aplica somente aos nós centrais; as operações de redução dos nós de tarefas não são afetadas.

  • A versão 6.14.0 melhora a forma como a Amazon EMR interage com aplicativos de código aberto, como. Apache Hadoop YARN ResourceManager and HDFS NameNode Essa melhoria reduz o risco de atrasos operacionais com o escalonamento do cluster e atenua as falhas de inicialização que ocorrem devido a problemas de conectividade com os aplicações de código aberto.

  • A versão 6.14.0 otimiza a instalação da aplicação na inicialização do cluster. Isso melhora os tempos de inicialização do cluster para determinadas combinações de EMR aplicativos da Amazon.

  • A versão 6.14.0 corrige um problema em que as operações de redução de escala do cluster podem parar quando um cluster executado em um domínio personalizado é reiniciado VPC no núcleo ou no nó da tarefa.

  • Quando você inicia um cluster com a versão de patch mais recente do Amazon EMR 5.36 ou superior, 6.6 ou superior ou 7.0 ou superior, a Amazon EMR usa a versão mais recente do Amazon Linux 2023 ou Amazon Linux 2 para a Amazon padrão. EMR AMI Para obter mais informações, consulte Usando o Amazon Linux padrão AMI para a Amazon EMR.

    OsReleaseLabel (Versão Amazon Linux) Versão do kernel do Amazon Linux Data disponível Regiões compatíveis
    2.0.20240709.1 4.14.348 23 de julho de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), (Leste dos EUA), AWS GovCloud China (Pequim), China AWS GovCloud (Ningxia), Ásia Pacífico (Hyderabad), Oriente Médio (), Europa (EspanhaUAE), Europa (Zurique), Ásia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste do Canadá (Calgary)
    2.0.20240223.0 4.14.336 8 de março de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240131.0 4.14.336 14 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240124.0 4.14.336 7 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240109.0 4.14.334 24 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20231218.0 4.14.330 2 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231206.0 4.14.330 22 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231116.0 4.14.328 11 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231101.0 4.14.327 17 de novembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20230906.0 4.14.322 11 de setembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)

Versão 6.13.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.13.0 da Amazon. As alterações são referentes à versão 6.12.0. Para obter informações sobre o cronograma da versão, consulte o Log de alterações 6.13.0.

Novos atributos
  • Amazon EMR 6.13.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-1, CUDA Toolkit 11.8.0, and JupyterHub 1.5.0.

Alterações, melhorias e problemas resolvidos
  • A versão 6.13.0 aprimora o daemon de gerenciamento de EMR registros da Amazon para garantir que todos os registros sejam carregados regularmente para o Amazon S3 quando um comando de encerramento de cluster é emitido. Isso facilita o encerramento mais rápido do cluster.

  • A versão 6.13.0 aprimora os recursos de gerenciamento de logs EMR da Amazon para garantir o upload consistente e oportuno de todos os arquivos de log para o Amazon S3. Isso beneficia especialmente os EMR clusters de longa duração.

  • Quando você inicia um cluster com a versão de patch mais recente do Amazon EMR 5.36 ou superior, 6.6 ou superior ou 7.0 ou superior, a Amazon EMR usa a versão mais recente do Amazon Linux 2023 ou Amazon Linux 2 para a Amazon padrão. EMR AMI Para obter mais informações, consulte Usando o Amazon Linux padrão AMI para a Amazon EMR.

    OsReleaseLabel (Versão Amazon Linux) Versão do kernel do Amazon Linux Data disponível Regiões compatíveis
    2.0.20240709.1 4.14.348 23 de julho de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), (Leste dos EUA), AWS GovCloud China (Pequim), China AWS GovCloud (Ningxia), Ásia Pacífico (Hyderabad), Oriente Médio (), Europa (EspanhaUAE), Europa (Zurique), Ásia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste do Canadá (Calgary)
    2.0.20240223.0 4.14.336 8 de março de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240131.0 4.14.336 14 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240124.0 4.14.336 7 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240109.0 4.14.334 24 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20231218.0 4.14.330 2 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231206.0 4.14.330 22 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231116.0 4.14.328 11 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231101.0 4.14.327 16 de novembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231020.1 4.14.326 7 de novembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231012.1 4.14.326 26 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20230926.0 4.14.322 19 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20230906.0 4.14.322 4 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230808.0 4.14.320 24 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)

Versão 6.12.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.12.0 da Amazon. As alterações são referentes à versão 6.11.0. Para obter informações sobre o cronograma da versão, consulte o Log de alterações 6.12.0.

Novos atributos
  • Amazon EMR 6.12.0 supports Apache Spark 3.4.0, Apache Spark RAPIDS 23.06.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.1-amzn-0, Apache Iceberg 1.3.0-amzn-0, Trino 414, and PrestoDB 0.281.

  • A Amazon EMR lança 6.12.0 e versões superiores de suporte à LDAP integração com Apache Livy, Apache Hive through HiveServer 2 (HS2), Trino, Presto e Hue. Você também pode instalar o Apache Spark e o Apache Hadoop em um EMR cluster que usa 6.12.0 ou superior e configurá-los para uso. LDAP Para obter mais informações, consulte Usar o Active Directory ou LDAP servidores para autenticação com a Amazon EMR.

Alterações, melhorias e problemas resolvidos
  • As EMR versões 6.12.0 e superiores da Amazon oferecem suporte ao tempo de execução do Java 11 para o Flink. Para ter mais informações, consulte Configurar o Flink para ser executado com o Java 11.

  • A versão 6.12.0 adiciona um novo mecanismo de repetição ao fluxo de trabalho de escalabilidade de EMR clusters para clusters que executam o Presto ou o Trino. Essa melhoria reduz o risco de que o redimensionamento do cluster fique paralisado indefinidamente devido a uma única falha na operação de redimensionamento. Ela também aprimora a utilização dos clusters, porque seu cluster aumenta e reduz a escala verticalmente com mais rapidez.

  • A versão 6.12.0 corrige um problema em que as operações de redução da escala verticalmente do cluster podem ficar paralisadas quando um nó central que está passando por uma desativação tranquila se torna não íntegro por qualquer motivo antes de ser totalmente desativado.

  • A versão 6.12.0 melhora a lógica de redução do cluster para que seu cluster não tente reduzir os nós principais abaixo da configuração do fator de HDFS replicação do cluster. Isso se alinha aos seus requisitos de redundância de dados e reduz a probabilidade de uma operação de escalabilidade paralisar.

  • A versão 6.12.0 aprimora o desempenho e a eficiência do serviço de monitoramento de saúde da Amazon, EMR aumentando a velocidade com que ele registra as mudanças de estado das instâncias. Essa melhoria reduz a probabilidade de degradação do desempenho dos nós do cluster que estão executando várias ferramentas de cliente ou aplicações de terceiros personalizadas.

  • A versão 6.12.0 melhora o desempenho do daemon de gerenciamento de logs no cluster para a Amazon. EMR Como resultado, há menos chances de degradação do desempenho com EMR clusters que executam etapas com alta simultaneidade.

  • Com a EMR versão 6.12.0 da Amazon, o daemon de gerenciamento de registros foi atualizado para identificar todos os registros que estão em uso ativo com identificadores de arquivos abertos no armazenamento da instância local e os processos associados. Essa atualização garante que a Amazon exclua EMR adequadamente os arquivos e recupere o espaço de armazenamento depois que os registros forem arquivados no Amazon S3.

  • A versão 6.12.0 inclui um aprimoramento do daemon de gerenciamento de logs que exclui diretórios de etapas vazios e não utilizados no sistema de arquivos de cluster local. Um número excessivamente grande de diretórios vazios pode degradar o desempenho dos EMR daemons da Amazon e resultar na sobreutilização do disco.

  • A versão 6.12.0 permite a rotação de registros para registros YARN do Timeline Server. Isso minimiza os cenários de utilização excessiva do disco, especialmente para clusters de execução prolongada.

  • O tamanho padrão do volume raiz aumentou para 15 GB no Amazon EMR 6.10.0 e superior. O tamanho padrão do volume raiz das versões anteriores é de 10 GB.

  • Quando você inicia um cluster com a versão de patch mais recente do Amazon EMR 5.36 ou superior, 6.6 ou superior ou 7.0 ou superior, a Amazon EMR usa a versão mais recente do Amazon Linux 2023 ou Amazon Linux 2 para a Amazon padrão. EMR AMI Para obter mais informações, consulte Usando o Amazon Linux padrão AMI para a Amazon EMR.

    OsReleaseLabel (Versão Amazon Linux) Versão do kernel do Amazon Linux Data disponível Regiões compatíveis
    2.0.20240709.1 4.14.348 23 de julho de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), (Leste dos EUA), AWS GovCloud China (Pequim), China AWS GovCloud (Ningxia), Ásia Pacífico (Hyderabad), Oriente Médio (), Europa (EspanhaUAE), Europa (Zurique), Ásia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste do Canadá (Calgary)
    2.0.20240223.0 4.14.336 8 de março de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240131.0 4.14.336 14 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240124.0 4.14.336 7 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240109.0 4.14.334 24 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20231218.0 4.14.330 2 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231206.0 4.14.330 22 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231116.0 4.14.328 11 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231101.0 4.14.327 16 de novembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231020.1 4.14.326 7 de novembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231012.1 4.14.326 26 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20230926.0 4.14.322 19 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20230906.0 4.14.322 4 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230822.0 4.14.322 30 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230808.0 4.14.320 24 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230727.0 4.14.320 14 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230719.0 4.14.320 2 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230628.0 4.14.318 12 de julho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Oriente Médio (), Canadá (Central) UAE

Versão 6.11.1

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.11.1 da Amazon. As alterações são referentes à versão 6.11.0. Para obter informações sobre o cronograma da versão, consulte o Log de alterações 6.11.1.

Alterações, melhorias e problemas resolvidos
  • Devido à contenção de bloqueio, um nó pode entrar em um deadlock se for adicionado ou removido ao mesmo tempo em que tenta ser desativado. Como resultado, o Hadoop Resource Manager (YARN) deixa de responder e afeta todos os contêineres recebidos e em execução no momento.

  • Esta versão inclui uma alteração que permite que clusters de alta disponibilidade se recuperem de um estado de falha após a reinicialização.

  • Esta versão inclui correções de segurança para Hue e. HBase

  • Esta versão corrige um problema em que clusters que estão executando cargas de trabalho no Spark com a Amazon EMR podem receber silenciosamente resultados incorretos comcontains,startsWith, e. endsWith like Esse problema ocorre quando você usa as expressões em campos particionados que têm metadados no Amazon EMR Hive3 Metastore Server (). HMS

  • Esta versão corrige um problema de limitação no lado do Glue quando não há funções definidas pelo usuário (). UDF

  • Esta versão corrige um problema que exclui registros de contêineres pelo serviço de agregação de registros de nós antes que o carregador de registros possa enviá-los para o S3 em caso de descomissionamento. YARN

  • Esta versão corrige um problema com as métricas do FairShare Scheduler quando o Node Label está habilitado para o Hadoop.

  • Esta versão corrige um problema que afetou a performance do Spark quando você definiu um valor de true padrão para a configuração spark.yarn.heterogeneousExecutors.enabled no spark-defaults.conf.

  • Esta versão corrige um problema com a falha do Reduce Task em ler dados embaralhados. O problema causou falhas na consulta do Hive com um erro de memória corrompida.

  • Esta versão adiciona um novo mecanismo de repetição ao fluxo de trabalho de escalabilidade de EMR clusters para clusters que executam o Presto ou o Trino. Essa melhoria reduz o risco de que o redimensionamento do cluster fique paralisado indefinidamente devido a uma única falha na operação de redimensionamento. Ela também aprimora a utilização dos clusters, porque seu cluster aumenta e reduz a escala verticalmente com mais rapidez.

  • Esta versão melhora a lógica de redução do cluster para que seu cluster não tente reduzir os nós principais abaixo da configuração do fator de HDFS replicação do cluster. Isso se alinha aos seus requisitos de redundância de dados e reduz a probabilidade de uma operação de escalabilidade paralisar.

  • O daemon de gerenciamento de logs foi atualizado para identificar todos os logs que estão em uso ativo com identificadores de arquivos abertos no armazenamento da instância local e nos processos associados. Essa atualização garante que a Amazon exclua EMR adequadamente os arquivos e recupere o espaço de armazenamento depois que os registros forem arquivados no Amazon S3.

  • Esta versão inclui um aprimoramento do daemon de gerenciamento de logs que exclui diretórios de etapas vazios e não utilizados no sistema de arquivos de cluster local. Um número excessivamente grande de diretórios vazios pode degradar o desempenho dos EMR daemons da Amazon e resultar na sobreutilização do disco.

  • Quando você inicia um cluster com a versão de patch mais recente do Amazon EMR 5.36 ou superior, 6.6 ou superior ou 7.0 ou superior, a Amazon EMR usa a versão mais recente do Amazon Linux 2023 ou Amazon Linux 2 para a Amazon padrão. EMR AMI Para obter mais informações, consulte Usando o Amazon Linux padrão AMI para a Amazon EMR.

    OsReleaseLabel (Versão Amazon Linux) Versão do kernel do Amazon Linux Data disponível Regiões compatíveis
    2.0.20240709.1 4.14.348 23 de julho de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), (Leste dos EUA), AWS GovCloud China (Pequim), China AWS GovCloud (Ningxia), Ásia Pacífico (Hyderabad), Oriente Médio (), Europa (EspanhaUAE), Europa (Zurique), Ásia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste do Canadá (Calgary)
    2.0.20240223.0 4.14.336 8 de março de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240131.0 4.14.336 14 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240124.0 4.14.336 7 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20240109.0 4.14.334 24 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), (Leste dos EUA), China AWS GovCloud (Pequim), China (Ningxia), Oeste do Canadá (Calgary)
    2.0.20231218.0 4.14.330 2 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231206.0 4.14.330 22 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231116.0 4.14.328 11 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231101.0 4.14.327 16 de novembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231020.1 4.14.326 7 de novembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20231012.1 4.14.326 26 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20230926.0 4.14.322 19 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv), AWS GovCloud (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China (Ningxia)
    2.0.20230906.0 4.14.322 4 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230822.0 4.14.322 30 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230808.0 4.14.320 24 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230727.0 4.14.320 14 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central)

Versão 6.11.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.11.0 da Amazon. As alterações são referentes à versão 6.10.0. Para obter informações sobre o cronograma da versão, consulte o log de alterações.

Novos atributos
  • O Amazon EMR 6.11.0 é compatível com Apache Spark 3.3.2-amzn-0, Apache Spark RAPIDS 23.02.0-amzn-0, 11.8.0, Apache Hudi 0.13.0-amzn-0, Apache Iceberg 1.2.0-amzn-0, Trino 410-amzn-0 e PrestoDB 0.279-amzn-0. CUDA

Alterações, melhorias e problemas resolvidos
  • Com o Amazon EMR 6.11.0, o conector do DynamoDB foi atualizado para a versão 5.0.0. A versão 5.0.0 usa AWS SDK for Java 2.x. As versões anteriores usavam AWS SDK for Java 1.x. Como resultado dessa atualização, recomendamos que você teste seu código antes de usar o conector do DynamoDB com o Amazon 6.11. EMR

  • Quando o conector do DynamoDB para EMR Amazon 6.11.0 chama o serviço do DynamoDB, ele usa o valor da região que você fornece para a propriedade. dynamodb.endpoint Recomendamos que você também configure dynamodb.region quando usar dynamodb.endpoint e que ambas as propriedades tenham como destino a mesma Região da AWS. Se você usar dynamodb.endpoint e não configurardynamodb.region, o conector do DynamoDB para EMR Amazon 6.11.0 retornará uma exceção de região inválida e tentará reconciliar suas Região da AWS informações do serviço de metadados de instância da Amazon (). EC2 IMDS Se o conector não conseguir recuperar a regiãoIMDS, o padrão é Leste dos EUA (Norte da Virgínia) (). us-east-1 O erro a seguir é um exemplo da exceção de região inválida que você pode obter se não configurar adequadamente a dynamodb.region propriedade: error software.amazon.awssdk.services.dynamodb.model.DynamoDbException: Credential should be scoped to a valid region. Para obter mais informações sobre as classes afetadas pela AWS SDK for Java atualização para 2.x, consulte o commit Upgrade AWS SDK for Java from 1.x to 2.x (#175) no GitHub repositório do conector Amazon EMR - DynamoDB.

  • Esta versão corrige um problema em que os dados da coluna se tornam NULL quando você usa o Delta Lake para armazenar dados da tabela Delta no Amazon S3 após a operação de renomeação da coluna. Para obter mais informações sobre esse atributo experimental no Delta Lake, consulte Operação de renomeação de coluna no Guia do usuário do Delta Lake.

  • A versão 6.11.0 corrige um problema que pode ocorrer quando você cria um nó de borda ao replicar um dos nós primários de um cluster com vários nós primários. O nó de borda replicado pode causar atrasos nas operações de redução da escala verticalmente ou resultar em alta utilização de memória nos nós primários. Para obter mais informações sobre como criar um nó de borda para se comunicar com seu EMR cluster, consulte Edge Node Creator no aws-samples repositório em GitHub.

  • A versão 6.11.0 melhora o processo de automação que a Amazon EMR usa para remontar volumes da EBS Amazon em uma instância após uma reinicialização.

  • A versão 6.11.0 corrige um problema que resultou em lacunas intermitentes nas métricas do Hadoop que a Amazon publica na Amazon. EMR CloudWatch

  • A versão 6.11.0 corrige um problema com EMR clusters em que uma atualização no arquivo de YARN configuração que contém a lista de exclusão de nós do cluster é interrompida devido à utilização excessiva do disco. A atualização incompleta impede futuras operações de redução da escala verticalmente do cluster. Esta versão garante que o cluster permaneça íntegro e que as operações de escalabilidade funcionem conforme esperado.

  • O tamanho padrão do volume raiz aumentou para 15 GB no Amazon EMR 6.10.0 e superior. O tamanho padrão do volume raiz das versões anteriores é de 10 GB.

  • O Hadoop 3.3.3 introduziu uma alteração em YARN (YARN-9608) que mantém os nós onde os contêineres eram executados em um estado de descomissionamento até que o aplicativo seja concluído. Essa alteração garante que dados locais, como dados embaralhados, não sejam perdidos e que você não precise executar o trabalho novamente. Essa abordagem também pode levar à subutilização de recursos em clusters com ou sem o ajuste de escala gerenciado habilitado.

    Com as EMR versões 6.11.0 e superiores da Amazon, bem como 6.8.1, 6.9.1 e 6.10.1, o valor de yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications é definido como in para resolver esse problema. false yarn-site.xml

    Embora a correção resolva os problemas introduzidos pelo YARN -9608, ela pode fazer com que as tarefas do Hive falhem devido à perda aleatória de dados em clusters com escalabilidade gerenciada habilitada. Reduzimos esse risco nesta versão também ao configurar yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-shuffle-data para workloads do Hive. Essa configuração só está disponível nas EMR versões 6.11.0 e superiores da Amazon.

  • Quando você inicia um cluster com a versão de patch mais recente do Amazon EMR 5.36 ou superior, 6.6 ou superior ou 7.0 ou superior, a Amazon EMR usa a versão mais recente do Amazon Linux 2023 ou Amazon Linux 2 para a Amazon padrão. EMR AMI Para obter mais informações, consulte Usando o Amazon Linux padrão AMI para a Amazon EMR.

    nota

    Esta versão não recebe mais AMI atualizações automáticas, pois foi sucedida por mais 1 lançamento de patch. A versão de patch é indicada pelo número após o segundo ponto decimal (6.8.1). Para ver se você está usando a versão de patch mais recente, verifique as versões disponíveis no Guia de lançamento ou verifique o menu suspenso de EMRlançamentos da Amazon ao criar um cluster no console ou usar a ação ListReleaseLabelsAPIou list-release-labelsCLI. Para receber atualizações sobre novos lançamentos, assine o RSS feed do What's new? página.

    OsReleaseLabel (Versão Amazon Linux) Versão do kernel do Amazon Linux Data disponível Regiões compatíveis
    2.0.20240709.1 4.14.348 23 de julho de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), (Leste dos EUA), AWS GovCloud China (Pequim), China AWS GovCloud (Ningxia), Ásia Pacífico (Hyderabad), Oriente Médio (), Europa (EspanhaUAE), Europa (Zurique), Ásia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste do Canadá (Calgary)
    2.0.20230808.0 4.14.320 24 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), Israel (Tel Aviv).
    2.0.20230727.0 4.14.320 14 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230719.0 4.14.320 2 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230628.0 4.14.318 12 de julho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Zurique), Europa (Milão), Europa (Espanha), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad)), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio () UAE
    2.0.20230612.0 4.14.314 23 de junho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Zurique), Europa (Milão), Europa (Espanha), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad)), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio () UAE
    2.0.20230504.1 4.14.313 16 de maio de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Oriente Médio (), Canadá (Central) UAE

Versão 6.10.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.10.0 da Amazon. As alterações são referentes à versão 6.9.0. Para obter informações sobre o cronograma da versão, consulte o log de alterações.

Novos atributos
  • O Amazon EMR 6.10.0 é compatível com Apache Spark 3.3.1, Apache Spark RAPIDS 22.12.0, CUDA 11.8.0, Apache Hudi 0.12.2-amzn-0, Apache Iceberg 1.1.0-amzn-0, Trino 403 e PrestoDB 0.278.1.

  • O Amazon EMR 6.10.0 inclui um conector Trino-Hudi nativo que fornece acesso de leitura aos dados nas tabelas Hudi. Você pode ativar o conector com trino-cli --catalog hudi e configurar o conector de acordo com suas necessidades com trino-connector-hudi. A integração nativa com a Amazon EMR significa que você não precisa mais usar trino-connector-hive para consultar tabelas Hudi. Para obter uma lista das configurações compatíveis com o novo conector, consulte a página do conector do Hudi na documentação do Trino.

  • As EMR versões 6.10.0 e superiores da Amazon oferecem suporte à integração do Apache Zeppelin com o Apache Flink. Consulte Usar trabalhos do Flink pelo Zeppelin no Amazon EMR Para mais informações.

Problemas conhecidos
  • O Hadoop 3.3.3 introduziu uma alteração em YARN (YARN-9608) que mantém os nós onde os contêineres eram executados em um estado de descomissionamento até que o aplicativo seja concluído. Essa alteração garante que dados locais, como dados embaralhados, não sejam perdidos e que você não precise executar o trabalho novamente. Essa abordagem também pode levar à subutilização de recursos em clusters com ou sem o ajuste de escala gerenciado habilitado.

    Para contornar esse problema no Amazon EMR 6.10.0, você pode definir o valor de yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications to false in. yarn-site.xml Nas EMR versões 6.11.0 e superiores da Amazon, bem como nas 6.8.1, 6.9.1 e 6.10.1, a configuração é definida como padrão para resolver esse problema. false

Alterações, melhorias e problemas resolvidos
  • O Amazon EMR 6.10.0 remove a dependência minimal-json.jar da integração do Amazon Redshift com o Apache Spark e adiciona automaticamente os jars relacionados ao Spark-Redshift necessários ao caminho da classe executora para o Spark:, e. spark-redshift.jar spark-avro.jar RedshiftJDBC.jar

  • A versão 6.10.0 aprimora o daemon de gerenciamento de registros no cluster para monitorar pastas de log adicionais em seu cluster. EMR Essa melhoria minimiza os cenários de utilização excessiva do disco.

  • A versão 6.10.0 reinicia automaticamente o daemon de gerenciamento de logs no cluster quando ele é interrompido. Essa melhoria reduz o risco de os nós parecerem não íntegros devido à utilização excessiva do disco.

  • O Amazon EMR 6.10.0 oferece suporte a endpoints regionais para EMRFS mapeamento de usuários.

  • O tamanho padrão do volume raiz aumentou para 15 GB no Amazon EMR 6.10.0 e superior. O tamanho padrão do volume raiz das versões anteriores é de 10 GB.

  • A versão 6.10.0 corrige um problema que fazia com que as tarefas do Spark parassem quando todos os executores restantes do Spark estavam em um host de desativação com o gerente de recursos. YARN

  • Com o Amazon EMR 6.6.0 a 6.9.x, INSERT as consultas com partição dinâmica e uma cláusula ORDER BY ou SORT BY sempre terão dois redutores. Esse problema é causado pela OSS alteração HIVE-20703, que coloca a otimização dinâmica da partição de classificação sob decisão baseada em custos. Se sua workload não exigir a classificação de partições dinâmicas, recomendamos que você defina a propriedade hive.optimize.sort.dynamic.partition.threshold como -1 para desabilitar o novo atributo e obter o número de redutores calculado corretamente. Esse problema foi corrigido no OSS Hive como parte do HIVE-22269 e foi corrigido no Amazon 6.10.0. EMR

  • Quando você inicia um cluster com a versão de patch mais recente do Amazon EMR 5.36 ou superior, 6.6 ou superior ou 7.0 ou superior, a Amazon EMR usa a versão mais recente do Amazon Linux 2023 ou Amazon Linux 2 para a Amazon padrão. EMR AMI Para obter mais informações, consulte Usando o Amazon Linux padrão AMI para a Amazon EMR.

    nota

    Esta versão não recebe mais AMI atualizações automáticas, pois foi sucedida por mais 1 lançamento de patch. A versão de patch é indicada pelo número após o segundo ponto decimal (6.8.1). Para ver se você está usando a versão de patch mais recente, verifique as versões disponíveis no Guia de lançamento ou verifique o menu suspenso de EMRlançamentos da Amazon ao criar um cluster no console ou usar a ação ListReleaseLabelsAPIou list-release-labelsCLI. Para receber atualizações sobre novos lançamentos, assine o RSS feed do What's new? página.

    OsReleaseLabel (Versão Amazon Linux) Versão do kernel do Amazon Linux Data disponível Regiões compatíveis
    2.0.20240709.1 4.14.348 23 de julho de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), (Leste dos EUA), AWS GovCloud China (Pequim), China AWS GovCloud (Ningxia), Ásia Pacífico (Hyderabad), Oriente Médio (), Europa (EspanhaUAE), Europa (Zurique), Ásia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste do Canadá (Calgary)
    2.0.20230808.0 4.14.320 24 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), Israel (Tel Aviv).
    2.0.20230727.0 4.14.320 14 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230719.0 4.14.320 2 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230628.0 4.14.318 12 de julho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Zurique), Europa (Milão), Europa (Espanha), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad)), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio () UAE
    2.0.20230612.0 4.14.314 23 de junho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Zurique), Europa (Milão), Europa (Espanha), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad)), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio () UAE
    2.0.20230504.1 4.14.313 16 de maio de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Zurique), Europa (Milão), Europa (Espanha), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad)), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio () UAE
    2.0.20230418.0 4.14.311 3 de maio de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Zurique), Europa (Milão), Europa (Espanha), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad)), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio () UAE
    2.0.20230404.1 4.14.311 18 de abril de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul)), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio () UAE
    2.0.20230404.0 4.14.311 10 de abril de 2023 Leste dos EUA (Norte da Virgínia), Europa (Paris)
    2.0.20230320.0 4.14.309 30 de março de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul)), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio () UAE
    2.0.20230207.0 4.14.304 22 de fevereiro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul)), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio () UAE

Versão 6.9.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.9.0 da Amazon. As alterações são relativas à EMR versão 6.8.0 da Amazon. Para obter informações sobre o cronograma da versão, consulte o log de alterações.

Novos atributos
  • A EMR versão 6.9.0 da Amazon é compatível com Apache Spark RAPIDS 22.08.0, Apache Hudi 0.12.1, Apache Iceberg 0.14.1, Trino 398 e Tez 0.10.2.

  • A EMR versão 6.9.0 da Amazon inclui um novo aplicativo de código aberto, 2.1.0. Delta Lake

  • A integração do Amazon Redshift para o Apache Spark está incluída nas EMR versões 6.9.0 e posteriores da Amazon. Anteriormente uma ferramenta de código aberto, a integração nativa é um conector do Spark que você pode usar para criar aplicações do Apache Spark que realizam a leitura e a gravação de dados no Amazon Redshift e no Amazon Redshift sem servidor. Para ter mais informações, consulte Usando a integração do Amazon Redshift para o Apache Spark com a Amazon EMR .

  • A EMR versão 6.9.0 da Amazon adiciona suporte ao arquivamento de registros no Amazon S3 durante a redução da escala do cluster. Anteriormente, só era possível arquivar arquivos de log no Amazon S3 durante o encerramento do cluster. A nova capacidade garante que os arquivos de log gerados no cluster persistam no Amazon S3 mesmo após o encerramento do nó. Para obter mais informações, consulte Configurar registro em log e depuração do cluster.

  • Para dar suporte a consultas de longa execução, o Trino agora inclui um mecanismo de execução tolerante a falhas. A execução tolerante a falhas atenua as falhas nas consultas ao tentar novamente as consultas com falha ou as tarefas dos seus componentes. Para ter mais informações, consulte Execução tolerante a falhas no Trino.

  • Você pode usar o Apache Flink na Amazon EMR para unificar BATCH e STREAM processar tabelas do Apache Hive ou metadados de qualquer fonte de tabela do Flink, como Iceberg, Kinesis ou Kafka. Você pode especificar o AWS Glue Data Catalog como metastore para o Flink usando o AWS Management Console,, AWS CLI ou Amazon. EMR API Para ter mais informações, consulte Configurando o Flink na Amazon EMR.

  • Agora você pode especificar AWS Identity and Access Management (IAM) funções de tempo de execução e controle de acesso AWS Lake Formation baseado para consultas do Apache Spark, Apache Hive e Presto na Amazon EMR em EC2 clusters com o Amazon Studio. SageMaker Para obter mais informações, consulte Configurar funções de tempo de execução para EMR as etapas da Amazon.

Problemas conhecidos
  • Para a EMR versão 6.9.0 da Amazon, o Trino não funciona em clusters habilitados para o Apache Ranger. Se você precisar usar o Trino com o Ranger, entre em contato com o AWS Support.

  • Se você usar a integração do Amazon Redshift para Apache Spark e tiver um time, timetz, timestamp ou timestamptz com precisão de microssegundos no formato Parquet, o conector arredondará os valores de tempo para o valor de milissegundo mais próximo. Como solução alternativa, use o parâmetro unload_s3_format do formato de descarregamento de texto.

  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

  • As conexões com EMR clusters da Amazon a partir do Amazon SageMaker Studio podem falhar intermitentemente com um código de resposta 403 Forbidden. Esse erro ocorre quando a configuração da IAM função no cluster leva mais de 60 segundos. Como solução alternativa, você pode instalar um EMR patch da Amazon para permitir novas tentativas e aumentar o tempo limite para um mínimo de 300 segundos. Use as etapas a seguir para aplicar a ação de bootstrap quando iniciar o cluster.

    1. Baixe o script e os RPM arquivos de bootstrap do Amazon URIs S3 a seguir.

      s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/replace-rpms.sh s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/emr-secret-agent-1.18.0-SNAPSHOT20221121212949.noarch.rpm
    2. Carregue os arquivos da etapa anterior em um bucket do Amazon S3 de sua propriedade. O bucket deve estar no mesmo Região da AWS local em que você planeja iniciar o cluster.

    3. Inclua a seguinte ação de bootstrap ao iniciar seu EMR cluster. Substituir bootstrap_URI e RPM_URI com o correspondente URIs do Amazon S3.

      --bootstrap-actions "Path=bootstrap_URI,Args=[RPM_URI]"
  • Com as EMR versões 5.36.0 e 6.6.0 a 6.9.0 da Amazon, SecretAgent os componentes do RecordServer serviço podem sofrer perda de dados de log devido a uma configuração incorreta do padrão de nome de arquivo nas propriedades do Log4j2. A configuração incorreta faz com que os componentes gerem somente um arquivo de log por dia. Quando a estratégia de rotação ocorre, ela substitui o arquivo existente em vez de gerar um novo arquivo de log, conforme esperado. Como solução alternativa, use uma ação de bootstrap para gerar arquivos de log a cada hora e acrescentar um número inteiro de incremento automático no nome do arquivo para lidar com a rotação.

    Para as versões EMR 6.6.0 a 6.9.0 da Amazon, use a seguinte ação de bootstrap ao iniciar um cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Para o Amazon EMR 5.36.0, use a seguinte ação de bootstrap ao iniciar um cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
  • O Apache Flink fornece FileSystem conectores nativos S3 FileSystem e Hadoop, que permitem que os aplicativos criem FileSink e gravem os dados no Amazon S3. Isso FileSink falha com uma das duas exceções a seguir.

    java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS
    Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryPolicies.retryOtherThanRemoteAndSaslException(Lorg/apache/hadoop/io/retry/RetryPolicy;Ljava/util/Map;)Lorg/apache/hadoop/io/retry/RetryPolicy; at org.apache.hadoop.yarn.client.RMProxy.createRetryPolicy(RMProxy.java:302) ~[hadoop-yarn-common-3.3.3-amzn-0.jar:?]

    Como solução alternativa, você pode instalar um EMR patch da Amazon, que corrige o problema acima no Flink. Para aplicar a ação de bootstrap quando iniciar o cluster, execute as etapas a seguir.

    1. Baixe o flink-rpm no bucket Amazon S3. Seu RPM caminho és3://DOC-EXAMPLE-BUCKET/rpms/flink/.

    2. Faça o download do script e dos RPM arquivos de bootstrap do Amazon S3 usando o seguinte. URI regionNameSubstitua pelo Região da AWS local em que você planeja iniciar o cluster.

      s3://emr-data-access-control-regionName/customer-bootstrap-actions/gcsc/replace-rpms.sh
    3. O Hadoop 3.3.3 introduziu uma alteração em YARN (YARN-9608) que mantém os nós onde os contêineres eram executados em um estado de descomissionamento até que o aplicativo seja concluído. Essa alteração garante que dados locais, como dados embaralhados, não sejam perdidos e que você não precise executar o trabalho novamente. Na Amazon EMR 6.8.0 e 6.9.0, essa abordagem também pode levar à subutilização de recursos em clusters com ou sem escalabilidade gerenciada habilitada.

      Com o Amazon EMR 6.10.0, há uma solução alternativa para esse problema: definir o valor de yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications to in. false yarn-site.xml Nas EMR versões 6.11.0 e superiores da Amazon, bem como nas 6.8.1, 6.9.1 e 6.10.1, a configuração é definida como padrão para resolver esse problema. false

Alterações, melhorias e problemas resolvidos
  • Para a Amazon EMR versão 6.9.0 e posterior, todos os componentes instalados pela Amazon EMR que usam bibliotecas Log4j usam Log4j versão 2.17.1 ou posterior.

  • Quando você usa o conector do DynamoDB com o Spark nas versões 6.6.0, 6.7.0 e 6.8.0 da EMR Amazon, todas as leituras da sua tabela retornam um resultado vazio, mesmo que a divisão de entrada faça referência a dados não vazios. A EMR versão 6.9.0 da Amazon corrige esse problema.

  • O Amazon EMR 6.9.0 adiciona suporte limitado ao controle de acesso baseado em Lake Formation com o Apache Hudi ao ler dados usando o Spark. SQL O suporte é para SELECT consultas usando o Spark SQL e é limitado ao controle de acesso em nível de coluna. Para obter mais informações, consulte Hudi e Lake Formation.

  • Quando você usa o Amazon EMR 6.9.0 para criar um cluster Hadoop com Node Labels habilitados, as YARNmétricas API retornam informações agregadas em todas as partições, em vez da partição padrão. Para obter mais informações, consulte YARN-11414.

  • Com a EMR versão 6.9.0 da Amazon, atualizamos o Trino para a versão 398, que usa Java 17. A versão anterior compatível do Trino para Amazon EMR 6.8.0 era a Trino 388 em execução no Java 11. Para obter mais informações sobre essa alteração, consulte Atualizações do Trino para Java 17 no blog do Trino.

  • Esta versão corrige um problema de incompatibilidade de sequência de tempo entre o Apache BigTop e a Amazon EMR na sequência de inicialização EC2 do cluster. Essa incompatibilidade de sequência de tempo ocorre quando um sistema tenta realizar duas ou mais operações ao mesmo tempo em vez de fazê-las na sequência correta. Como resultado, determinadas configurações de cluster apresentaram tempos limite de inicialização da instância e tempos de inicialização do cluster mais lentos.

  • Quando você inicia um cluster com a versão de patch mais recente do Amazon EMR 5.36 ou superior, 6.6 ou superior ou 7.0 ou superior, a Amazon EMR usa a versão mais recente do Amazon Linux 2023 ou Amazon Linux 2 para a Amazon padrão. EMR AMI Para obter mais informações, consulte Usando o Amazon Linux padrão AMI para a Amazon EMR.

    nota

    Esta versão não recebe mais AMI atualizações automáticas, pois foi sucedida por mais 1 lançamento de patch. A versão de patch é indicada pelo número após o segundo ponto decimal (6.8.1). Para ver se você está usando a versão de patch mais recente, verifique as versões disponíveis no Guia de lançamento ou verifique o menu suspenso de EMRlançamentos da Amazon ao criar um cluster no console ou usar a ação ListReleaseLabelsAPIou list-release-labelsCLI. Para receber atualizações sobre novos lançamentos, assine o RSS feed do What's new? página.

    OsReleaseLabel (Versão Amazon Linux) Versão do kernel do Amazon Linux Data disponível Regiões compatíveis
    2.0.20240709.1 4.14.348 23 de julho de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), (Leste dos EUA), AWS GovCloud China (Pequim), China AWS GovCloud (Ningxia), Ásia Pacífico (Hyderabad), Oriente Médio (), Europa (EspanhaUAE), Europa (Zurique), Ásia-Pacífico (Melbourne), Israel (Tel Aviv), Oeste do Canadá (Calgary)
    2.0.20230808.0 4.14.320 24 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), Israel (Tel Aviv).
    2.0.20230727.0 4.14.320 14 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230719.0 4.14.320 2 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central), Israel (Tel Aviv)
    2.0.20230628.0 4.14.318 12 de julho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230612.0 4.14.314 23 de junho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230504.1 4.14.313 16 de maio de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230418.0 4.14.311 3 de maio de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230404.1 4.14.311 18 de abril de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230404.0 4.14.311 10 de abril de 2023 Leste dos EUA (Norte da Virgínia), Europa (Paris)
    2.0.20230320.0 4.14.309 30 de março de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230307.0 4.14.305 15 de março de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230207.0 4.14.304 22 de fevereiro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20221210.1 4.14.301 12 de janeiro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20221103.3 4.14.296 5 de dezembro de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)

Versão 6.8.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.8.0 da Amazon. As alterações são referentes à versão 6.7.0.

Novos atributos
  • O recurso Amazon EMR Steps agora é compatível com endpoint e JDBC /clients Apache Livy. ODBC Para obter mais informações, consulte Configurar funções de tempo de execução para EMR as etapas da Amazon.

  • A EMR versão 6.8.0 da Amazon vem com a versão 2.4.12 do ApacheHBase. Com essa HBase versão, você pode arquivar e excluir suas HBase tabelas. O processamento de arquivos do Amazon S3 renomeia todos os arquivos da tabela para o diretório de arquivos. Isso pode ser um processo custoso e demorado. Agora, você pode pular o processamento de arquivos e rapidamente eliminar e excluir tabelas grandes. Para ter mais informações, consulte Usando a HBase concha.

Problemas conhecidos
  • O Hadoop 3.3.3 introduziu uma alteração em YARN (YARN-9608) que mantém os nós onde os contêineres eram executados em um estado de descomissionamento até que o aplicativo seja concluído. Essa alteração garante que dados locais, como dados embaralhados, não sejam perdidos e que você não precise executar o trabalho novamente. Na Amazon EMR 6.8.0 e 6.9.0, essa abordagem também pode levar à subutilização de recursos em clusters com ou sem escalabilidade gerenciada habilitada.

    Com o Amazon EMR 6.10.0, há uma solução alternativa para esse problema: definir o valor de yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications to in. false yarn-site.xml Nas EMR versões 6.11.0 e superiores da Amazon, bem como nas 6.8.1, 6.9.1 e 6.10.1, a configuração é definida como padrão para resolver esse problema. false

Alterações, melhorias e problemas resolvidos
  • Quando a Amazon EMR lança 6.5.0, 6.6.0 ou 6.7.0 leu as tabelas do Apache Phoenix por meio do shell do Apache Spark, a Amazon produziu uma. EMR NoSuchMethodError A EMR versão 6.8.0 da Amazon corrige esse problema.

  • A EMR versão 6.8.0 da Amazon vem com o Apache Hudi 0.11.1; no entanto, os clusters da EMR Amazon 6.8.0 também são compatíveis com o código aberto do Hudi 0.12.0. hudi-spark3.3-bundle_2.12

  • A EMR versão 6.8.0 da Amazon vem com o Apache Spark 3.3.0. Esta versão do Spark usa o Apache Log4j 2 e o arquivo log4j2.properties para configurar o Log4j nos processos do Spark. Se você usa o Spark no cluster ou cria EMR clusters com parâmetros de configuração personalizados e deseja atualizar para a EMR versão 6.8.0 da Amazon, você deve migrar para a nova classificação de spark-log4j2 configuração e formato de chave do Apache Log4j 2. Para ter mais informações, consulte Migrar do Apache Log4j 1.x para Log4j 2.x.

  • Quando você inicia um cluster com a versão de patch mais recente do Amazon EMR 5.36 ou superior, 6.6 ou superior ou 7.0 ou superior, a Amazon EMR usa a versão mais recente do Amazon Linux 2023 ou Amazon Linux 2 para a Amazon padrão. EMR AMI Para obter mais informações, consulte Usando o Amazon Linux padrão AMI para a Amazon EMR.

    nota

    Esta versão não recebe mais AMI atualizações automáticas, pois foi sucedida por mais 1 lançamento de patch. A versão de patch é indicada pelo número após o segundo ponto decimal (6.8.1). Para ver se você está usando a versão de patch mais recente, verifique as versões disponíveis no Guia de lançamento ou verifique o menu suspenso de EMRlançamentos da Amazon ao criar um cluster no console ou usar a ação ListReleaseLabelsAPIou list-release-labelsCLI. Para receber atualizações sobre novos lançamentos, assine o RSS feed do What's new? página.

    OsReleaseLabel (Versão Amazon Linux) Versão do kernel do Amazon Linux Data disponível Regiões compatíveis
    2.0.20240709.1 4.14.348 23 de julho de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), (Leste dos EUA), AWS GovCloud China (Pequim), China AWS GovCloud (Ningxia), Ásia Pacífico (Hyderabad), Oriente Médio (), Europa (EspanhaUAE), Europa (Zurique), Ásia-Pacífico (Melbourne), Israel (Tel Aviv)
    2.0.20230808.0 4.14.320 24 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central)
    2.0.20230727.0 4.14.320 14 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central),
    2.0.20230719.0 4.14.320 2 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Melbourne), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Canadá (UAE Central)
    2.0.20230628.0 4.14.318 12 de julho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230612.0 4.14.314 23 de junho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230504.1 4.14.313 16 de maio de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230418.0 4.14.311 3 de maio de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230404.1 4.14.311 18 de abril de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230404.0 4.14.311 10 de abril de 2023 Leste dos EUA (Norte da Virgínia), Europa (Paris)
    2.0.20230320.0 4.14.309 30 de março de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230307.0 4.14.305 15 de março de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230207.0 4.14.304 22 de fevereiro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230119.1 4.14.301 3 de fevereiro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20221210.1 4.14.301 22 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20221103.3 4.14.296 5 de dezembro de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20221004.0 4.14.294 2 de novembro de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20220912.1 4.14.291 6 de setembro de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
Problemas conhecidos
  • Quando você usa o conector do DynamoDB com o Spark nas versões 6.6.0, 6.7.0 e 6.8.0 da EMR Amazon, todas as leituras da sua tabela retornam um resultado vazio, mesmo que a divisão de entrada faça referência a dados não vazios. Isso ocorre porque o Spark 3.2.0 define spark.hadoopRDD.ignoreEmptySplits como true por padrão. Como solução alternativa, defina explicitamente spark.hadoopRDD.ignoreEmptySplits como false. A EMR versão 6.9.0 da Amazon corrige esse problema.

  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

  • Com as EMR versões 5.36.0 e 6.6.0 a 6.9.0 da Amazon, SecretAgent os componentes do RecordServer serviço podem sofrer perda de dados de log devido a uma configuração incorreta do padrão de nome de arquivo nas propriedades do Log4j2. A configuração incorreta faz com que os componentes gerem somente um arquivo de log por dia. Quando a estratégia de rotação ocorre, ela substitui o arquivo existente em vez de gerar um novo arquivo de log, conforme esperado. Como solução alternativa, use uma ação de bootstrap para gerar arquivos de log a cada hora e acrescentar um número inteiro de incremento automático no nome do arquivo para lidar com a rotação.

    Para as versões EMR 6.6.0 a 6.9.0 da Amazon, use a seguinte ação de bootstrap ao iniciar um cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Para o Amazon EMR 5.36.0, use a seguinte ação de bootstrap ao iniciar um cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

Para obter mais informações sobre o cronograma da versão, consulte o log de alterações.

Versão 6.7.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.7.0 da Amazon. As alterações são referentes à versão 6.6.0.

Data da versão inicial: 15 de julho de 2022

Novos atributos
  • A Amazon EMR agora oferece suporte ao Apache Spark 3.2.1, Apache Hive 3.1.3, HUDI 0.11, PrestoDB 0.272 e Trino 0.378.

  • Suporta controles de acesso baseados em IAM Role e Lake Formation com EMR etapas (Spark, Hive) para Amazon em clusters. EMR EC2

  • Ele é compatível com instruções de definição de dados do Apache Spark em clusters habilitados para Apache Ranger. Isso agora inclui suporte para aplicações do Trino lendo e gravando metadados do Apache Hive em clusters habilitados para Apache Ranger. Para obter mais informações, consulte Habilitar a governança federada usando Trino e Apache Ranger na Amazon. EMR

  • Quando você inicia um cluster com a versão de patch mais recente do Amazon EMR 5.36 ou superior, 6.6 ou superior ou 7.0 ou superior, a Amazon EMR usa a versão mais recente do Amazon Linux 2023 ou Amazon Linux 2 para a Amazon padrão. EMR AMI Para obter mais informações, consulte Usando o Amazon Linux padrão AMI para a Amazon EMR.

    OsReleaseLabel (Versão Amazon Linux) Versão do kernel do Amazon Linux Data disponível Regiões compatíveis
    2.0.20240709.1 4.14.348 23 de julho de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), (Leste dos EUA), AWS GovCloud China (Pequim), China AWS GovCloud (Ningxia), Ásia Pacífico (Hyderabad), Oriente Médio (UAE), Europa (Espanha), Europa (Zurique)
    2.0.20240223.0 4.14.336 8 de março de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20240131.0 4.14.336 14 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20240124.0 4.14.336 7 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20240109.0 4.14.334 24 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231218.0 4.14.330 2 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231206.0 4.14.330 22 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231116.0 4.14.328 11 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231101.0 4.14.327 16 de novembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231020.1 4.14.326 7 de novembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231012.1 4.14.326 26 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20230926.0 4.14.322 19 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20230906.0 4.14.322 4 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central)
    2.0.20230822.0 4.14.322 30 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central)
    2.0.20230808.0 4.14.320 24 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central)
    2.0.20230727.0 4.14.320 14 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central)
    2.0.20230719.0 4.14.320 2 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Oriente Médio (), Canadá (Central) UAE
    2.0.20230628.0 4.14.318 12 de julho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230612.0 4.14.314 23 de junho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230504.1 4.14.313 16 de maio de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230418.0 4.14.311 3 de maio de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230404.1 4.14.311 18 de abril de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230404.0 4.14.311 10 de abril de 2023 Leste dos EUA (Norte da Virgínia), Europa (Paris)
    2.0.20230320.0 4.14.309 30 de março de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230307.0 4.14.305 15 de março de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230207.0 4.14.304 22 de fevereiro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230119.1 4.14.301 3 de fevereiro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20221210.1 4.14.301 22 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20221103.3 4.14.296 5 de dezembro de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20221004.0 4.14.294 2 de novembro de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20220912.1 4.14.291 7 de outubro de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20220719.0 4.14.287 10 de agosto de 2022 us‑west‑1, eu‑west‑3, eu‑north‑1, ap‑south‑1, me‑south‑1
    2.0.20220606.1 4.14.281 15 de julho de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
Problemas conhecidos
  • Quando a Amazon EMR versão 6.5.0, 6.6.0 ou 6.7.0 lê as tabelas do Apache Phoenix por meio do shell do Apache Spark, a ocorre porque a Amazon usa um NoSuchMethodError erro. EMR Hbase.compat.version A EMR versão 6.8.0 da Amazon corrige esse problema.

  • Quando você usa o conector do DynamoDB com o Spark nas versões 6.6.0, 6.7.0 e 6.8.0 da EMR Amazon, todas as leituras da sua tabela retornam um resultado vazio, mesmo que a divisão de entrada faça referência a dados não vazios. Isso ocorre porque o Spark 3.2.0 define spark.hadoopRDD.ignoreEmptySplits como true por padrão. Como solução alternativa, defina explicitamente spark.hadoopRDD.ignoreEmptySplits como false. A EMR versão 6.9.0 da Amazon corrige esse problema.

  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

  • Com as EMR versões 5.36.0 e 6.6.0 a 6.9.0 da Amazon, SecretAgent os componentes do RecordServer serviço podem sofrer perda de dados de log devido a uma configuração incorreta do padrão de nome de arquivo nas propriedades do Log4j2. A configuração incorreta faz com que os componentes gerem somente um arquivo de log por dia. Quando a estratégia de rotação ocorre, ela substitui o arquivo existente em vez de gerar um novo arquivo de log, conforme esperado. Como solução alternativa, use uma ação de bootstrap para gerar arquivos de log a cada hora e acrescentar um número inteiro de incremento automático no nome do arquivo para lidar com a rotação.

    Para as versões EMR 6.6.0 a 6.9.0 da Amazon, use a seguinte ação de bootstrap ao iniciar um cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Para o Amazon EMR 5.36.0, use a seguinte ação de bootstrap ao iniciar um cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
  • O GetClusterSessionCredentials API não é compatível com clusters executados na Amazon EMR 6.7 ou inferior.

Versão 6.6.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.6.0 da Amazon. As alterações são referentes à versão 6.5.0.

Data da versão inicial: 9 de maio de 2022

Data da documentação atualizada: 15 de junho de 2022

Novos atributos
  • O Amazon EMR 6.6 agora é compatível com Apache Spark 3.2, Apache Spark RAPIDS 22.02, CUDA 11, Apache Hudi 0.10.1, Apache Iceberg 0.13, Trino 0.367 e PrestoDB 0.267.

  • Quando você inicia um cluster com a versão de patch mais recente do Amazon EMR 5.36 ou superior, 6.6 ou superior ou 7.0 ou superior, a Amazon EMR usa a versão mais recente do Amazon Linux 2023 ou Amazon Linux 2 para a Amazon padrão. EMR AMI Para obter mais informações, consulte Usando o Amazon Linux padrão AMI para a Amazon EMR.

    OsReleaseLabel (Versão Amazon Linux) Versão do kernel do Amazon Linux Data disponível Regiões compatíveis
    2.0.20240709.1 4.14.348 23 de julho de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20240223.0 4.14.336 8 de março de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20240131.0 4.14.336 14 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20240124.0 4.14.336 7 de fevereiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20240109.0 4.14.334 24 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231218.0 4.14.330 2 de janeiro de 2024 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231206.0 4.14.330 22 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231116.0 4.14.328 11 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231101.0 4.14.327 16 de novembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231020.1 4.14.326 7 de novembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20231012.1 4.14.326 26 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20230926.0 4.14.322 19 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka), Ásia-Pacífico (Osaka) Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central), (Oeste dos EUA), AWS GovCloud (Leste dos EUA), China (Pequim), China AWS GovCloud (Ningxia)
    2.0.20230906.0 4.14.322 4 de outubro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central)
    2.0.20230822.0 4.14.322 30 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central)
    2.0.20230808.0 4.14.320 24 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central)
    2.0.20230727.0 4.14.320 14 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Canadá (Central)
    2.0.20230719.0 4.14.320 2 de agosto de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Europa (Estocolmo), Europa (Milão), Europa (Espanha), Europa (Frankfurt), Europa (Zurique), Europa (Irlanda), Europa (Londres), Europa (Paris), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Hyderabad) Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Osaka), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Jacarta), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein), Oriente Médio (), Oriente Médio (), Canadá (Central) UAE
    2.0.20230628.0 4.14.318 12 de julho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230612.0 4.14.314 23 de junho de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230504.1 4.14.313 16 de maio de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230418.0 4.14.311 3 de maio de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230404.1 4.14.311 18 de abril de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230404.0 4.14.311 10 de abril de 2023 Leste dos EUA (Norte da Virgínia), Europa (Paris)
    2.0.20230320.0 4.14.309 30 de março de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230307.0 4.14.305 15 de março de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230207.0 4.14.304 22 de fevereiro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20230119.1 4.14.301 3 de fevereiro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20221210.1 4.14.301 22 de dezembro de 2023 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20221103.3 4.14.296 5 de dezembro de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20221004.0 4.14.294 2 de novembro de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20220912.1 4.14.291 7 de outubro de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20220805.0 4.14.287 30 de agosto de 2022 us‑west‑1
    2.0.20220719.0 4.14.287 10 de agosto de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20220426.0 4.14.281 10 de junho de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
    2.0.20220406.1 4.14.275 2 de maio de 2022 Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Canadá (Central), Europa (Estocolmo), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Frankfurt), Europa (Milão), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Asia Pacific (Osaka), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), África (Cidade do Cabo), América do Sul (São Paulo), Oriente Médio (Bahrein)
  • Com o Amazon EMR 6.6 e versões posteriores, os aplicativos que usam o Log4j 1.x e o Log4j 2.x são atualizados para usar o Log4j 1.2.17 (ou superior) e o Log4j 2.17.1 (ou superior), respectivamente, e não exigem o uso das ações de bootstrap fornecidas para mitigar os problemas. CVE

  • [Escalabilidade gerenciada] Otimização de escalabilidade gerenciada de dados do Spark shuffle - Para EMR as versões 5.34.0 e posteriores da Amazon e as EMR versões 6.4.0 e posteriores, a escalabilidade gerenciada agora reconhece os dados do Spark shuffle (dados que o Spark redistribui entre partições para realizar operações específicas). Para obter mais informações sobre operações aleatórias, consulte Usando escalabilidade EMR gerenciada na Amazon no Guia de EMR Gerenciamento EMR da Amazon e no Guia de Programação do Spark.

  • A partir do Amazon EMR 5.32.0 e 6.5.0, o dimensionamento dinâmico do executor para o Apache Spark está habilitado por padrão. Para ativar ou desativar esse atributo, você pode usar o parâmetro de configuração spark.yarn.heterogeneousExecutors.enabled.

Alterações, melhorias e problemas resolvidos
  • A Amazon EMR reduz o tempo de inicialização do cluster em até 80 segundos, em média, para clusters que usam a AMI opção EMR padrão e instalam apenas aplicativos comuns, como Apache Hadoop, Apache Spark e Apache Hive.

Problemas conhecidos
  • Quando a Amazon EMR versão 6.5.0, 6.6.0 ou 6.7.0 lê as tabelas do Apache Phoenix por meio do shell do Apache Spark, a ocorre porque a Amazon usa um NoSuchMethodError erro. EMR Hbase.compat.version A EMR versão 6.8.0 da Amazon corrige esse problema.

  • Quando você usa o conector do DynamoDB com o Spark nas versões 6.6.0, 6.7.0 e 6.8.0 da EMR Amazon, todas as leituras da sua tabela retornam um resultado vazio, mesmo que a divisão de entrada faça referência a dados não vazios. Isso ocorre porque o Spark 3.2.0 define spark.hadoopRDD.ignoreEmptySplits como true por padrão. Como solução alternativa, defina explicitamente spark.hadoopRDD.ignoreEmptySplits como false. A EMR versão 6.9.0 da Amazon corrige esse problema.

  • Em clusters de longa duração do Trino, o Amazon EMR 6.6.0 habilita os parâmetros de registro da coleta de lixo no jvm.config do Trino para obter melhores insights dos registros da coleta de lixo. Essa alteração anexa muitos logs da coleta de resíduos ao arquivo launcher.log (/var/log/trino/launcher.log). Se você estiver executando clusters Trino no Amazon EMR 6.6.0, poderá encontrar nós sem espaço em disco depois que o cluster estiver em execução por alguns dias devido aos registros anexados.

    A solução alternativa para esse problema é executar o script abaixo como uma ação de bootstrap para desativar os parâmetros de registro da coleta de lixo no jvm.config ao criar ou clonar o cluster para o Amazon 6.6.0. EMR

    #!/bin/bash set -ex PRESTO_PUPPET_DIR='/var/aws/emr/bigtop-deploy/puppet/modules/trino' sudo bash -c "sed -i '/-Xlog/d' ${PRESTO_PUPPET_DIR}/templates/jvm.config"
  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

  • Com as EMR versões 5.36.0 e 6.6.0 a 6.9.0 da Amazon, SecretAgent os componentes do RecordServer serviço podem sofrer perda de dados de log devido a uma configuração incorreta do padrão de nome de arquivo nas propriedades do Log4j2. A configuração incorreta faz com que os componentes gerem somente um arquivo de log por dia. Quando a estratégia de rotação ocorre, ela substitui o arquivo existente em vez de gerar um novo arquivo de log, conforme esperado. Como solução alternativa, use uma ação de bootstrap para gerar arquivos de log a cada hora e acrescentar um número inteiro de incremento automático no nome do arquivo para lidar com a rotação.

    Para as versões EMR 6.6.0 a 6.9.0 da Amazon, use a seguinte ação de bootstrap ao iniciar um cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Para o Amazon EMR 5.36.0, use a seguinte ação de bootstrap ao iniciar um cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

Versão 5.35.0

Esta é a nota de EMR lançamento da versão 5.35.0 da Amazon.

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.35.0 da Amazon. As alterações são referentes à versão 5.34.0.

Data da versão inicial: 30 de março de 2022

Novos atributos
  • Os aplicativos da Amazon EMR versão 5.35 que usam o Log4j 1.x e o Log4j 2.x são atualizados para usar o Log4j 1.2.17 (ou superior) e o Log4j 2.17.1 (ou superior), respectivamente, e não exigem o uso de ações de bootstrap para mitigar os problemas nas versões anteriores. CVE Consulte Abordagem para CVE mitigar -2021-44228.

Alterações, melhorias e problemas resolvidos

Alterações no Flink
Alterar tipo Descrição
Atualizações
  • Atualizar a versão do flink para 1.14.2.

  • log4j atualizado para 2.17.1.

Alterações no Hadoop
Alterar tipo Descrição
Backports de código aberto do Hadoop desde 5.34.0 EMR
  • YARN-10438: Manipulação de nulo containerId em C # () lientRMService getContainerReport

  • YARN-7266: Tópicos do manipulador de eventos do Timeline Server bloqueados

  • YARN-10438: ATS 1.5 falha ao iniciar se os RollingLevelDb arquivos estiverem corrompidos ou ausentes

  • HADOOP-13500: Sincronizando a iteração do objeto de propriedades de configuração

  • YARN-10651: CapacityScheduler caiu com o in. NPE AbstractYarnScheduler updateNodeResource()

  • HDFS-12221: Substituir xerces em XmlEditsVisitor

  • HDFS-16410: Análise insegura de Xml em OfflineEditsXmlLoader

Alterações e correções no Hadoop
  • O Tomcat usado em KMS e o HTTPFs foi atualizado para 8.5.75

  • Na FileSystemOptimizedCommitter V2, o marcador de sucesso foi escrito no caminho de commitJob saída definido durante a criação do committer. Como commitJob os caminhos de saída no nível da tarefa podem ser diferentes, o caminho foi corrigido para usar aquele definido nos arquivos de manifesto. Para trabalhos do Hive, isso faz com que o marcador de sucesso seja gravado corretamente ao executar operações como partição dinâmica ou. UNION ALL

Alterações no Hive
Alterar tipo Descrição
O Hive foi atualizado para a versão 2.3.9 de código aberto, incluindo essas correções JIRA
  • HIVE-17155: findConfFile () em HiveConf .java tem alguns problemas com o caminho de configuração

  • HIVE-24797: Desative a validação de valores padrão ao analisar esquemas Avro

  • HIVE-21563: Melhore o desempenho do getEmptyTable Table# desativando Once registerAllFunctions

  • HIVE-18147: Os testes podem falhar com java.net. BindException: Endereço já em uso

  • HIVE-24608: Volte para get_table no cliente para Hive 2.3.x HMS

  • HIVE-21200: Vetorização - coluna de data lançando java.lang. UnsupportedOperationException para parquet

  • HIVE-19228: Remover o uso do commons-httpclient 3.x

Backports de código aberto do Hive desde 5.34.0 EMR
  • HIVE-19990: Falha na consulta com intervalo literal na condição de junção

  • HIVE-25824: Atualize o branch-2.3 para o log4j 2.17.0

  • TEZ-4062: O agendamento de tentativas especulativas deve ser abortado quando a tarefa for concluída

  • TEZ-4108: NullPointerException durante a execução especulativa, condição de corrida

  • TEZ-3918: A configuração de tez.task.log.level não funciona

Atualizações e correções do Hive
  • Atualizar a versão Log4j para 2.17.1

  • Atualize a ORC versão para 1.4.3

  • Corrigido o impasse devido à discussão de penalidades em ShuffleScheduler

Novos atributos
  • Adicionado atributo para imprimir consultas do Hive em logs AM. Ela fica desabilitada por padrão. Sinalizador/Conf.: tez.am.emr.print.hive.query.in.log. Status (padrão):FALSE.

Alterações no Oozie
Alterar tipo Descrição
Backports de código aberto Oozie desde 5.34.0 EMR
  • OOZIE-3652: O lançador Oozie deve tentar novamente a listagem de diretórios quando ocorrer NoSuchFileException

Alterações no Pig
Alterar tipo Descrição
Atualizações
  • log4j atualizado para 1.2.17.

Problemas conhecidos
  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

Versão 5.34.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.34.0 da Amazon. As alterações são referentes à versão 5.33.1.

Data da versão inicial: 20 de janeiro de 2022

Data da versão atualizada: 21 de março de 2022

Novos atributos
  • [Escalabilidade gerenciada] Otimização de escalabilidade gerenciada de dados do Spark shuffle - Para EMR as versões 5.34.0 e posteriores da Amazon e as EMR versões 6.4.0 e posteriores, a escalabilidade gerenciada agora reconhece os dados do Spark shuffle (dados que o Spark redistribui entre partições para realizar operações específicas). Para obter mais informações sobre operações aleatórias, consulte Usando escalabilidade EMR gerenciada na Amazon no Guia de EMR Gerenciamento EMR da Amazon e no Guia de Programação do Spark.

  • [Hudi] Melhorias para simplificar a configuração do Hudi. Desabilitado o controle de simultaneidade otimista por padrão.

Alterações, melhorias e problemas resolvidos
  • Esta é uma versão para corrigir problemas com o Amazon EMR Scaling quando ele falha na escalabilidade ou redução de escala de um cluster com sucesso ou causa falhas no aplicativo.

  • Anteriormente, a reinicialização manual do gerenciador de recursos em um cluster multimestre fazia com que os daemons EMR no cluster da Amazon, como o Zookeeper, recarregassem todos os nós anteriormente desativados ou perdidos no arquivo znode do Zookeeper. Isso fez com que os limites padrão fossem excedidos em determinadas situações. A Amazon EMR agora remove os registros de nós desativados ou perdidos há mais de uma hora do arquivo do Zookeeper e os limites internos foram aumentados.

  • Corrigido um problema em que as solicitações de escalabilidade falhavam em um cluster grande e altamente utilizado quando os daemons no cluster da EMR Amazon estavam executando atividades de verificação de integridade, como coletar o estado do nó e o estado do YARN nó. HDFS Isso estava acontecendo porque os daemons no cluster não conseguiam comunicar os dados do status de saúde de um nó aos componentes internos da Amazon. EMR

  • Daemons EMR no cluster aprimorados para rastrear corretamente os estados dos nós quando os endereços IP são reutilizados para melhorar a confiabilidade durante as operações de escalabilidade.

  • SPARK-29683. Corrigido um problema em que ocorriam falhas de trabalho durante a redução da escala verticalmente do cluster, pois o Spark presumia que todos os nós disponíveis estavam na lista de negação.

  • YARN-9011. Corrigido um problema em que falhas de trabalho ocorriam devido a uma condição de corrida no YARN descomissionamento quando o cluster tentava aumentar ou diminuir a escala.

  • Foi corrigido o problema com falhas de etapas ou tarefas durante a escalabilidade do cluster, garantindo que os estados dos nós fossem sempre consistentes entre os EMR daemons no cluster da Amazon e/. YARN HDFS

  • Corrigido um problema em que operações de cluster, como redução de escala e envio de etapas, falhavam em EMR clusters da Amazon habilitados com a autenticação Kerberos. Isso ocorreu porque o daemon no EMR cluster da Amazon não renovou o tíquete Kerberos, que é necessário para se comunicar de forma segura com/em execução no nó primário. HDFS YARN

  • Zeppelin atualizado para a versão 0.10.0.

  • Livy Fix: atualizado para 0.7.1

  • Melhoria do desempenho do Spark - executores heterogêneos são desativados quando determinados valores de configuração do Spark são substituídos na versão 5.34.0. EMR

  • O servidor Web HDFS e o servidor HTTPFs estão desativados por padrão. Você pode reativar a Web HDFS usando a configuração do Hadoop,. dfs.webhdfs.enabled O servidor HttpFS pode ser iniciado usando sudo systemctl start hadoop-httpfs.

Problemas conhecidos
  • O recurso Amazon EMR Notebooks usado com a representação de usuário do Livy não funciona porque o HTTPFs está desativado por padrão. Nesse caso, o EMR notebook não pode se conectar ao cluster que tem a representação Livy ativada. A solução alternativa é iniciar o servidor HTTPFs antes de conectar o EMR notebook ao cluster usando o. sudo systemctl start hadoop-httpfs

  • As consultas Hue não funcionam no Amazon EMR 6.4.0 porque o servidor Apache Hadoop HTTPFs está desativado por padrão. Para usar o Hue na Amazon EMR 6.4.0, inicie manualmente o servidor HTTPFs no nó EMR primário da Amazon usando sudo systemctl start hadoop-httpfs ou use uma etapa da Amazon. EMR

  • O recurso Amazon EMR Notebooks usado com a representação de usuário do Livy não funciona porque o HTTPFs está desativado por padrão. Nesse caso, o EMR notebook não pode se conectar ao cluster que tem a representação Livy ativada. A solução alternativa é iniciar o servidor HTTPFs antes de conectar o EMR notebook ao cluster usando o. sudo systemctl start hadoop-httpfs

  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

Versão 6.5.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.5.0 da Amazon. As alterações são referentes à versão 6.4.0.

Data da versão inicial: 20 de janeiro de 2022

Data da versão atualizada: 21 de março de 2022

Novos atributos
  • [Escalabilidade gerenciada] Otimização de escalabilidade gerenciada de dados do Spark shuffle - Para EMR as versões 5.34.0 e posteriores da Amazon e as EMR versões 6.4.0 e posteriores, a escalabilidade gerenciada agora reconhece os dados do Spark shuffle (dados que o Spark redistribui entre partições para realizar operações específicas). Para obter mais informações sobre operações aleatórias, consulte Usando escalabilidade EMR gerenciada na Amazon no Guia de EMR Gerenciamento EMR da Amazon e no Guia de Programação do Spark.

  • A partir do Amazon EMR 5.32.0 e 6.5.0, o dimensionamento dinâmico do executor para o Apache Spark está habilitado por padrão. Para ativar ou desativar esse atributo, você pode usar o parâmetro de configuração spark.yarn.heterogeneousExecutors.enabled.

  • Suporte para o formato de tabela aberta Apache Iceberg para conjuntos de dados analíticos imensos.

  • Support para ranger-trino-plugin 2.0.1-amzn-1

  • Suporte para toree 0.5.0

Alterações, melhorias e problemas resolvidos
  • A versão de lançamento do Amazon EMR 6.5 agora oferece suporte ao Apache Iceberg 0.12.0 e fornece melhorias no tempo de execução com o Amazon Runtime para Apache Spark, o Amazon EMR Runtime EMR for Presto e o Amazon Runtime para Apache Hive. EMR

  • O Apache Iceberg é um formato de tabela aberta para grandes conjuntos de dados no Amazon S3 e fornece desempenho rápido de consultas em tabelas grandes, confirmações atômicas, gravações simultâneas e evolução de tabelas compatíveis. SQL Com a EMR versão 6.5, você pode usar o Apache Spark 3.1.2 com o formato de tabela Iceberg.

  • O Apache Hudi 0.9 adiciona Spark e suporte SQLDDL. DML Isso permite que você crie e altere tabelas Hudi usando apenas declarações. SQL O Apache Hudi 0.9 também inclui melhorias na performance do lado da consulta e do lado do gravador.

  • O Amazon EMR Runtime para Apache Hive melhora o desempenho do Apache Hive no Amazon S3 ao remover as operações de renomeação durante as operações de preparação e melhora o desempenho dos comandos metastore check () usados para reparar tabelas. MSCK

Problemas conhecidos
  • Quando a Amazon EMR versão 6.5.0, 6.6.0 ou 6.7.0 lê as tabelas do Apache Phoenix por meio do shell do Apache Spark, a ocorre porque a Amazon usa um NoSuchMethodError erro. EMR Hbase.compat.version A EMR versão 6.8.0 da Amazon corrige esse problema.

  • Os clusters do pacote do Hbase em alta disponibilidade (HA) apresentam falha no provisionamento com o tamanho de volume e o tipo de instância padrão. A solução alternativa para esse problema é aumentar o tamanho do volume raiz.

  • Para usar as ações do Spark com o Apache Oozie, você deve adicionar a seguinte configuração ao seu arquivo workflow.xml do Oozie. Caso contrário, várias bibliotecas críticas, como a Hadoop e a Hadoop, EMRFS estarão ausentes do classpath dos executores do Spark que o Oozie lança.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

Versão 6.4.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.4.0 da Amazon. As alterações são referentes à versão 6.3.0.

Data da versão inicial: 20 de setembro de 2021

Data da versão atualizada: 21 de março de 2022

Aplicações compatíveis
  • AWS SDK for Java versão 1.12.31

  • CloudWatch Sink versão 2.2.0

  • Conector do DynamoDB versão 4.16.0

  • EMRFSversão 2.47.0

  • Amazon EMR Goodies versão 3.2.0

  • Amazon EMR Kinesis Connector versão 3.5.0

  • Amazon EMR Record Server versão 2.1.0

  • Amazon EMR Scripts versão 2.5.0

  • Flink versão 1.13.1

  • Ganglia versão 3.7.2

  • AWS Glue Hive Metastore Client versão 3.3.0

  • Hadoop versão 3.2.1-amzn-4

  • HBaseversão 2.4.4-amzn-0

  • HBase-operador-tools 1.1.0

  • HCatalogversão 3.1.2-amzn-5

  • Hive versão 3.1.2-amzn-5

  • Hudi versão 0.8.0-amzn-0

  • Hue versão 4.9.0

  • JDKVersão Java Corretto-8.302.08.1 (compilação 1.8.0_302-b08)

  • JupyterHub versão 1.4.1

  • Livy versão 0.7.1-incubating

  • MXNetversão 1.8.0

  • Oozie versão 5.2.1

  • Phoenix versão 5.1.2

  • Pig versão 0.17.0

  • Presto versão 0.254.1-amzn-0

  • Trino versão 359

  • Apache Ranger KMS (criptografia transparente multi-master) versão 2.0.0

  • ranger-plugins 2.0.1-amzn-0

  • ranger-s3-plugin 1.2.0

  • SageMaker Spark SDK versão 1.4.1

  • Scala versão 2.12.10 (VM de servidor aberto de JDK 64 bits, Java 1.8.0_282)

  • Spark versão 3.1.2-amzn-0

  • spark-rapids 0.4.1

  • Sqoop versão 1.4.7

  • TensorFlow versão 2.4.1

  • Tez versão 0.9.2

  • Zeppelin versão 0.9.0

  • Zookeeper versão 3.5.7

  • Conectores e drivers: DynamoDB Connector 4.16.0

Novos atributos
  • [Escalabilidade gerenciada] Otimização de escalabilidade gerenciada de dados do Spark shuffle - Para EMR as versões 5.34.0 e posteriores da Amazon e as EMR versões 6.4.0 e posteriores, a escalabilidade gerenciada agora reconhece os dados do Spark shuffle (dados que o Spark redistribui entre partições para realizar operações específicas). Para obter mais informações sobre operações aleatórias, consulte Usando escalabilidade EMR gerenciada na Amazon no Guia de EMR Gerenciamento EMR da Amazon e no Guia de Programação do Spark.

  • Em clusters EMR Amazon habilitados para Apache Ranger, você pode usar o Apache SQL Spark para inserir dados ou atualizar as tabelas de metastore do Apache Hive usando, e. INSERT INTO INSERT OVERWRITE ALTER TABLE Ao usar ALTER TABLE com o SparkSQL, um local de partição deve ser o diretório filho de um local de tabela. Atualmente, EMR a Amazon não suporta a inserção de dados em uma partição em que a localização da partição seja diferente da localização da tabela.

  • Presto SQL foi renomeado para Trino.

  • Hive: a execução de SELECT consultas simples com LIMIT cláusula é acelerada interrompendo a execução da consulta assim que o número de registros mencionados na LIMIT cláusula for obtido. SELECTConsultas simples são consultas que não têm a cláusula GROUP BY/ORDERby ou consultas que não têm um estágio redutor. Por exemplo, SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>.

Controle de simultaneidade do Hudi
  • O Hudi agora oferece suporte ao Optimistic Concurrency Control (OCC), que pode ser aproveitado com operações de gravação, como UPSERT e INSERT para permitir alterações de vários gravadores na mesma tabela Hudi. Isso é no nível do arquivoOCC, então quaisquer dois commits (ou escritores) podem gravar na mesma tabela, se suas alterações não entrarem em conflito. Para obter mais informações, consulte o Controle de simultaneidade do Hudi.

  • EMROs clusters da Amazon têm o Zookeeper instalado, que pode ser usado como provedor de bloqueio para. OCC Para facilitar o uso desse recurso, os EMR clusters da Amazon têm as seguintes propriedades pré-configuradas:

    hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<EMR Zookeeper URL> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port> hoodie.write.lock.zookeeper.base_path=/hudi

    Para habilitarOCC, você precisa configurar as seguintes propriedades com suas opções de trabalho Hudi ou no nível do cluster usando as configurações da Amazon: EMR API

    hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=<Key to uniquely identify the Hudi table> (Table Name is a good option)
Monitoramento Hudi: CloudWatch integração com a Amazon para reportar Hudi Metrics
  • A Amazon EMR oferece suporte à publicação de Hudi Metrics na Amazon CloudWatch. Isso é habilitado com a definição das seguintes configurações necessárias:

    hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
  • A seguir, são mostradas as configurações opcionais do Hudi que você pode alterar:

    Configuração Descrição Valor

    hoodie.metrics.cloudwatch.report.period.seconds

    Frequência (em segundos) na qual reportar métricas para a Amazon CloudWatch

    O valor padrão é 60s, o que é adequado para a resolução padrão de um minuto oferecida pela Amazon CloudWatch

    hoodie.metrics.cloudwatch.metric.prefix

    Prefixo a ser adicionado ao nome de cada métrica

    O valor padrão está vazio (sem prefixo)

    hoodie.metrics.cloudwatch.namespace

    CloudWatch Namespace da Amazon sob o qual as métricas são publicadas

    O valor padrão é Hudi

    hoodie.metrics.cloudwatch. maxDatumsPerSolicitação

    Número máximo de dados a serem incluídos em uma solicitação à Amazon CloudWatch

    O valor padrão é 20, o mesmo que o CloudWatch padrão da Amazon

Suporte e melhorias nas configurações do Amazon EMR Hudi
  • Agora, os clientes podem aproveitar o recurso de EMR configurações API e reconfiguração para configurar as configurações do Hudi no nível do cluster. Um novo suporte à configuração baseado em arquivos foi introduzido por meio de /etc/hudi/conf/hudi-defaults.conf nos moldes de outras aplicações, como Spark, Hive etc. EMRconfigura alguns padrões para melhorar a experiência do usuário:

    hoodie.datasource.hive_sync.jdbcurl está configurado para o servidor Hive do cluster URL e não precisa mais ser especificado. Isso é particularmente útil ao executar um trabalho no modo de cluster do Spark, onde anteriormente era necessário especificar o IP EMR principal da Amazon.

    — configurações HBase específicas, que são úteis para usar o HBase índice com o Hudi.

    — Configuração específica do provedor de bloqueio do Zookeeper, conforme discutido em Controle de simultaneidade, o que facilita o uso do Controle de Concorrência Otimista (). OCC

  • Alterações adicionais foram introduzidas para reduzir o número de configurações que você precisa passar e inferir automaticamente sempre que possível:

    — A palavra-chave partitionBy pode ser usada para especificar a coluna de partição.

    — Ao habilitar o Hive Sync, não é mais obrigatório passar HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY. Esses valores podem ser deduzidos com base no nome da tabela Hudi e no campo de partição.

    — não é obrigatório passar KEYGENERATOR_CLASS_OPT_KEY, que pode ser inferido com base em casos mais simples de SimpleKeyGenerator e ComplexKeyGenerator.

Advertências do Hudi
  • O Hudi não permite execução vetorizada no Hive de tabelas Merge on Read (MoR - Mesclar na leitura) e Bootstrap. Por exemplo, count(*) apresenta falha com a tabela do Hudi em tempo real quando hive.vectorized.execution.enabled está definido como verdadeiro. Como solução alternativa, você pode desabilitar a leitura vetorizada configurando hive.vectorized.execution.enabled como false.

  • O suporte a vários gravadores não é compatível com o atributo de bootstrap do Hudi.

  • O Flink Streamer e o Flink SQL são recursos experimentais nesta versão. Esses atributos não são recomendados para uso em implantações de produção.

Alterações, melhorias e problemas resolvidos

Esta é uma versão para corrigir problemas com o Amazon EMR Scaling quando ele falha na escalabilidade ou redução de escala de um cluster com sucesso ou causa falhas no aplicativo.

  • Anteriormente, a reinicialização manual do gerenciador de recursos em um cluster multimestre fazia com que os daemons EMR no cluster da Amazon, como o Zookeeper, recarregassem todos os nós anteriormente desativados ou perdidos no arquivo znode do Zookeeper. Isso fez com que os limites padrão fossem excedidos em determinadas situações. A Amazon EMR agora remove os registros de nós desativados ou perdidos há mais de uma hora do arquivo do Zookeeper e os limites internos foram aumentados.

  • Corrigido um problema em que as solicitações de escalabilidade falhavam em um cluster grande e altamente utilizado quando os daemons no cluster da EMR Amazon estavam executando atividades de verificação de integridade, como coletar o estado do nó e o estado do YARN nó. HDFS Isso estava acontecendo porque os daemons no cluster não conseguiam comunicar os dados do status de saúde de um nó aos componentes internos da Amazon. EMR

  • Daemons EMR no cluster aprimorados para rastrear corretamente os estados dos nós quando os endereços IP são reutilizados para melhorar a confiabilidade durante as operações de escalabilidade.

  • SPARK-29683. Corrigido um problema em que ocorriam falhas de trabalho durante a redução da escala verticalmente do cluster, pois o Spark presumia que todos os nós disponíveis estavam na lista de negação.

  • YARN-9011. Corrigido um problema em que falhas de trabalho ocorriam devido a uma condição de corrida no YARN descomissionamento quando o cluster tentava aumentar ou diminuir a escala.

  • Foi corrigido o problema com falhas de etapas ou tarefas durante a escalabilidade do cluster, garantindo que os estados dos nós fossem sempre consistentes entre os EMR daemons no cluster da Amazon e/. YARN HDFS

  • Corrigido um problema em que operações de cluster, como redução de escala e envio de etapas, falhavam em EMR clusters da Amazon habilitados com a autenticação Kerberos. Isso ocorreu porque o daemon no EMR cluster da Amazon não renovou o tíquete Kerberos, que é necessário para se comunicar de forma segura com/em execução no nó primário. HDFS YARN

  • Configurando um cluster para corrigir problemas de desempenho do Apache YARN Timeline Server versões 1 e 1.5

    As versões 1 e 1.5 do Apache YARN Timeline Server podem causar problemas de desempenho com EMR clusters grandes e muito ativos, especialmente comyarn.resourcemanager.system-metrics-publisher.enabled=true, que é a configuração padrão na Amazon. EMR Um YARN Timeline Server v2 de código aberto resolve o problema de desempenho relacionado à escalabilidade do YARN Timeline Server.

    Outras soluções alternativas para esse problema incluem:

    • Configurando yarn.resourcemanager. system-metrics-publisher.enabled=false em yarn-site.xml.

    • Habilitar a correção para esse problema na criação de um cluster, conforme descrito abaixo.

    As seguintes EMR versões da Amazon contêm uma correção para esse problema de desempenho YARN do Timeline Server.

    EMR5.30.2, 5.31.1, 5.32.1, 5.33.1, 5.34.x, 6.0.1, 6.1.1, 6.2.1, 6.3.1, 6.4.x

    Para habilitar a correção em qualquer uma das EMR versões da Amazon especificadas acima, defina essas propriedades true em um JSON arquivo de configurações que é passado usando o parâmetro de aws emr create-cluster comando:--configurations file://./configurations.json. Ou habilite a correção usando a interface do usuário do console de reconfiguração.

    Exemplo de conteúdo do arquivo configurations.json:

    [ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
  • O servidor Web HDFS e o servidor HTTPFs estão desativados por padrão. Você pode reativar a Web HDFS usando a configuração do Hadoop,. dfs.webhdfs.enabled O servidor HttpFS pode ser iniciado usando sudo systemctl start hadoop-httpfs.

  • HTTPSagora está habilitado por padrão para repositórios Amazon Linux. Se você estiver usando uma VPCE política do Amazon S3 para restringir o acesso a buckets específicos, deverá adicionar o novo bucket Amazon Linux ARN arn:aws:s3:::amazonlinux-2-repos-$region/* à sua política ($regionsubstitua pela região onde está o endpoint). Para obter mais informações, consulte esse tópico nos fóruns de AWS discussão. Anúncio: o Amazon Linux 2 agora suporta a capacidade de uso HTTPS ao se conectar a repositórios de pacotes.

  • Hive: o desempenho da consulta de gravação foi aprimorado ao permitir o uso de um diretório de rascunho ativado HDFS para o último trabalho. Os dados temporários do trabalho final são gravados no Amazon S3, e o desempenho é aprimorado porque os dados são movidos HDFS para o local final da tabela (Amazon S3) em vez de entre dispositivos Amazon S3. HDFS

  • Hive: melhoria do tempo de compilação de consultas em até 2,5 vezes com a remoção de partições de metastores do Glue.

  • Por padrão, quando UDFs os integrados são passados pelo Hive para o Hive Metastore Server, somente um subconjunto desses incorporados é UDFs passado para o Glue Metastore, já que o Glue suporta apenas operadores de expressão limitados. Se você definir hive.glue.partition.pruning.client=true, toda a remoção de partições ocorrerá no lado do cliente. Se você definir hive.glue.partition.pruning.server=true, toda a remoção de partições ocorrerá no lado do servidor.

Problemas conhecidos
  • As consultas Hue não funcionam no Amazon EMR 6.4.0 porque o servidor Apache Hadoop HTTPFs está desativado por padrão. Para usar o Hue na Amazon EMR 6.4.0, inicie manualmente o servidor HTTPFs no nó EMR primário da Amazon usando sudo systemctl start hadoop-httpfs ou use uma etapa da Amazon. EMR

  • O recurso Amazon EMR Notebooks usado com a representação de usuário do Livy não funciona porque o HTTPFs está desativado por padrão. Nesse caso, o EMR notebook não pode se conectar ao cluster que tem a representação Livy ativada. A solução alternativa é iniciar o servidor HTTPFs antes de conectar o EMR notebook ao cluster usando o. sudo systemctl start hadoop-httpfs

  • Na EMR versão 6.4.0 da Amazon, o Phoenix não oferece suporte ao componente de conectores Phoenix.

  • Para usar as ações do Spark com o Apache Oozie, você deve adicionar a seguinte configuração ao seu arquivo workflow.xml do Oozie. Caso contrário, várias bibliotecas críticas, como a Hadoop e a Hadoop, EMRFS estarão ausentes do classpath dos executores do Spark que o Oozie lança.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

Versão 5.32.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.32.0 da Amazon. As alterações são referentes à versão 5.31.0.

Data da versão inicial: 8 de janeiro de 2021

Atualizações
  • Atualizado o conector do Amazon Glue para a versão 1.14.0

  • Amazon SageMaker Spark atualizado SDK para a versão 1.4.1

  • Atualizado para AWS SDK for Java a versão 1.11.890

  • Atualização do EMR DynamoDB Connector versão 4.16.0

  • Atualizado EMRFS para a versão 2.45.0

  • Métricas do EMR Log Analytics atualizadas para a versão 1.18.0

  • EMR MetricsAndEventsApiGateway Cliente atualizado para a versão 1.5.0

  • Servidor de EMR registros atualizado para a versão 1.8.0

  • EMRS3 Dist CP atualizado para a versão 2.17.0

  • Agente EMR secreto atualizado para a versão 1.7.0

  • Atualizado o Flink para a versão 1.11.2

  • Atualizado o Hadoop para a versão 2.10.1-amzn-0

  • Atualizado o Hive para a versão 2.3.7-amzn-3

  • Atualizado o Hue para a versão 4.8.0

  • Atualizado o Mxnet para a versão 1.7.0

  • Atualizado o OpenCV para a versão 4.4.0

  • Atualizado o Presto para a versão 0.240.1-amzn-0

  • Atualizado o Spark para a versão 2.4.7-amnz-0

  • Atualizado TensorFlow para a versão 2.3.1

Alterações, melhorias e problemas resolvidos
  • Esta é uma versão para corrigir problemas com o Amazon EMR Scaling quando ele falha na escalabilidade ou redução de escala de um cluster com sucesso ou causa falhas no aplicativo.

  • Corrigido um problema em que as solicitações de escalabilidade falhavam em um cluster grande e altamente utilizado quando os daemons no cluster da EMR Amazon estavam executando atividades de verificação de integridade, como coletar o estado do nó e o estado do YARN nó. HDFS Isso estava acontecendo porque os daemons no cluster não conseguiam comunicar os dados do status de saúde de um nó aos componentes internos da Amazon. EMR

  • Daemons EMR no cluster aprimorados para rastrear corretamente os estados dos nós quando os endereços IP são reutilizados para melhorar a confiabilidade durante as operações de escalabilidade.

  • SPARK-29683. Corrigido um problema em que ocorriam falhas de trabalho durante a redução da escala verticalmente do cluster, pois o Spark presumia que todos os nós disponíveis estavam na lista de negação.

  • YARN-9011. Corrigido um problema em que falhas de trabalho ocorriam devido a uma condição de corrida no YARN descomissionamento quando o cluster tentava aumentar ou diminuir a escala.

  • Foi corrigido o problema com falhas de etapas ou tarefas durante a escalabilidade do cluster, garantindo que os estados dos nós fossem sempre consistentes entre os EMR daemons no cluster da Amazon e/. YARN HDFS

  • Corrigido um problema em que operações de cluster, como redução de escala e envio de etapas, falhavam em EMR clusters da Amazon habilitados com a autenticação Kerberos. Isso ocorreu porque o daemon no EMR cluster da Amazon não renovou o tíquete Kerberos, que é necessário para se comunicar de forma segura com/em execução no nó primário. HDFS YARN

  • As EMR versões mais recentes da Amazon corrigem o problema com um limite menor de “Máximo de arquivos abertos” em relação aos mais antigos AL2 na AmazonEMR. As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores agora incluem uma correção permanente com uma configuração mais alta de “Máximo de arquivos abertos”.

  • Atualizadas versões do componente.

  • Para obter uma lista das versões dos componentes, consulte Sobre os EMR lançamentos da Amazon neste guia.

Novos atributos
  • A partir do Amazon EMR 5.32.0 e 6.5.0, o dimensionamento dinâmico do executor para o Apache Spark está habilitado por padrão. Para ativar ou desativar esse atributo, você pode usar o parâmetro de configuração spark.yarn.heterogeneousExecutors.enabled.

  • Status de suporte do Instance Metadata Service (IMDS) V2: os componentes Amazon EMR 5.23.1, 5.27.1 e 5.32 ou posteriores são usados para todas as chamadas. IMDSv2 IMDS Para IMDS chamadas no código do seu aplicativo, você pode usar ambos IMDSv1 eIMDSv2, ou configurar o IMDS para uso somente IMDSv2 para aumentar a segurança. Para outras EMR versões 5.x, a desativação IMDSv1 causa falha na inicialização do cluster.

  • A partir do Amazon EMR 5.32.0, você pode iniciar um cluster que se integra nativamente com o Apache Ranger. O Apache Ranger é uma estrutura de código aberto para habilitar, monitorar e gerenciar uma segurança de dados abrangente em toda a plataforma Hadoop. Para obter mais informações, consulte Apache Ranger. Com a integração nativa, você pode trazer seu próprio Apache Ranger para impor um controle refinado de acesso aos dados na Amazon. EMR Consulte Integrar a Amazon EMR com o Apache Ranger no Guia de EMRlançamento da Amazon.

  • A EMR versão 5.32.0 da Amazon oferece suporte à Amazon EMR on. EKS Para obter mais detalhes sobre como começar a usar o EMR onEKS, consulte What is Amazon EMR on EKS.

  • A EMR versão 5.32.0 da Amazon é compatível com o Amazon EMR Studio (versão prévia). Para obter mais detalhes sobre como começar a usar o EMR Studio, consulte Amazon EMR Studio (versão prévia).

  • Políticas gerenciadas com escopo definido: para se alinhar às AWS melhores práticas, a Amazon EMR introduziu políticas EMR gerenciadas padrão com escopo v2 como substitutas das políticas que serão descontinuadas. Consulte as políticas EMR gerenciadas da Amazon.

Problemas conhecidos
  • Para clusters de sub-rede privados Amazon EMR 6.3.0 e 6.2.0, você não pode acessar a interface web do Ganglia. Você receberá um erro de “acesso negado (403)”. Outros sitesUIs, como Spark, Hue, Zeppelin JupyterHub, Livy e Tez, estão funcionando normalmente. O acesso à interface do usuário da Web do Ganglia em clusters de sub-redes públicas também está funcionando normalmente. Para resolver esse problema, reinicie o serviço httpd no nó primário com sudo systemctl restart httpd. Esse problema foi corrigido no Amazon EMR 6.4.0.

  • Limite inferior de “Máximo de arquivos abertos” em versões mais antigas AL2 [corrigido em versões mais recentes]. EMRLançamentos da Amazon: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 e emr-6.2.0 são baseados em versões mais antigas do Linux ofAmazon 2 ()AL2, que têm uma configuração de limite inferior para “Máximo de arquivos abertos” quando os clusters da Amazon são criados com o padrão. EMR AMI As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores incluem uma correção permanente com uma configuração maior de “Máximo de arquivos abertos”. Versões com o limite inferior de arquivos abertos causam o erro “Muitos arquivos abertos” ao ser enviado um trabalho do Spark. Nas versões afetadas, o padrão da Amazon AMI tem uma configuração EMR padrão de ulimit de 4096 para “Máximo de arquivos abertos”, que é inferior ao limite de 65536 arquivos no Linux 2. latestAmazon AMI A configuração inferior de ulimit para “Máximo de arquivos abertos” causa falhas em trabalhos do Spark quando o driver e o executor do Spark tentam abrir mais de 4096 arquivos. Para corrigir o problema, a Amazon EMR tem um script de ação de bootstrap (BA) que ajusta a configuração ulimit na criação do cluster.

    Se você estiver usando uma EMR versão mais antiga da Amazon que não tem a solução permanente para esse problema, a solução alternativa a seguir permite que você defina explicitamente o ulimit do controlador de instância para um máximo de 65536 arquivos.

    Defina explicitamente um ulimit na linha de comando
    1. Edite /etc/systemd/system/instance-controller.service para adicionar os seguintes parâmetros à seção Serviço.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Reiniciar InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Defina um ulimit usando a ação de bootstrap (BA)

    Você também pode usar um script de ação de bootstrap (BA) para configurar o ulimit instance-controller para 65536 arquivos na criação do cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Importante

    EMRclusters que executam Amazon Linux ou Amazon Linux 2 Amazon Machine Images (AMIs) usam o comportamento padrão do Amazon Linux e não baixam e instalam automaticamente atualizações importantes e críticas do kernel que exigem uma reinicialização. Esse é o mesmo comportamento de outras EC2 instâncias da Amazon que executam o Amazon Linux padrãoAMI. Se novas atualizações de software Amazon Linux que exigem uma reinicialização (como kernel e CUDA atualizações) ficarem disponíveis após a disponibilização de uma EMR versão da Amazon, as instâncias de EMR cluster que executam o padrão AMI não baixam e instalam automaticamente essas atualizações. NVIDIA Para obter atualizações do kernel, você pode personalizar sua Amazon EMR AMI para usar o Amazon Linux AMI mais recente.

  • O suporte do console para criar uma configuração de segurança que especifica a opção de integração do AWS Ranger atualmente não é suportado na GovCloud região. A configuração de segurança pode ser feita usando CLI o. Consulte Criar a configuração EMR de segurança no Guia EMR de gerenciamento da Amazon.

  • Quando AtRestEncryption ou a HDFS criptografia é habilitada em um cluster que usa o Amazon EMR 5.31.0 ou 5.32.0, as consultas do Hive resultam na seguinte exceção de tempo de execução.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

Versão 6.2.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.2.0 da Amazon. As alterações são referentes à versão 6.1.0.

Data da versão inicial: 9 de dezembro de 2020

Data da última atualização: 4 de outubro de 2021

Aplicações compatíveis
  • AWS SDK for Java versão 1.11.828

  • emr-record-server versão 1.7.0

  • Flink versão 1.11.2

  • Ganglia versão 3.7.2

  • Hadoop versão 3.2.1-amzn-1

  • HBaseversão 2.2.6-amzn-0

  • HBase-operator-tools 1.0.0

  • HCatalogversão 3.1.2-amzn-0

  • Hive versão 3.1.2-amzn-3

  • Hudi versão 0.6.0-amzn-1

  • Hue versão 4.8.0

  • JupyterHub versão 1.1.0

  • Livy versão 0.7.0

  • MXNetversão 1.7.0

  • Oozie versão 5.2.0

  • Phoenix versão 5.0.0

  • Pig versão 0.17.0

  • Presto versão 0.238.3-amzn-1

  • Presto SQL versão 343

  • Spark versão 3.0.1-amzn-0

  • spark-rapids 0.2.0

  • TensorFlow versão 2.3.1

  • Zeppelin versão 0.9.0-preview1

  • Zookeeper versão 3.4.14

  • Conectores e drivers: DynamoDB Connector 4.16.0

Novos atributos
  • HBase: a renomeação foi removida na fase de confirmação e o HFile rastreamento persistente foi adicionado. Consulte HFileRastreamento persistente no Guia EMR de lançamento da Amazon.

  • HBase: Backported Crie uma configuração que força o armazenamento em cache dos blocos na compactação.

  • PrestoDB: melhorias na remoção dinâmica de partições. O Join Reorder baseado em regras funciona em dados não particionados.

  • Políticas gerenciadas com escopo definido: para se alinhar às AWS melhores práticas, a Amazon EMR introduziu políticas EMR gerenciadas padrão com escopo v2 como substitutas das políticas que serão descontinuadas. Consulte as políticas EMR gerenciadas da Amazon.

  • Status de suporte do Instance Metadata Service (IMDS) V2: Para o Amazon EMR 6.2 ou posterior, os EMR componentes da Amazon são usados IMDSv2 para todas as chamadas. IMDS Para IMDS chamadas no código do seu aplicativo, você pode usar ambos IMDSv1 eIMDSv2, ou configurar o IMDS para uso somente IMDSv2 para aumentar a segurança. Se você desabilitar IMDSv1 em versões anteriores do Amazon EMR 6.x, isso causará uma falha na inicialização do cluster.

Alterações, melhorias e problemas resolvidos
  • Esta é uma versão para corrigir problemas com o Amazon EMR Scaling quando ele falha na escalabilidade ou redução de escala de um cluster com sucesso ou causa falhas no aplicativo.

  • Corrigido um problema em que as solicitações de escalabilidade falhavam em um cluster grande e altamente utilizado quando os daemons no cluster da EMR Amazon estavam executando atividades de verificação de integridade, como coletar o estado do nó e o estado do YARN nó. HDFS Isso estava acontecendo porque os daemons no cluster não conseguiam comunicar os dados do status de saúde de um nó aos componentes internos da Amazon. EMR

  • Daemons EMR no cluster aprimorados para rastrear corretamente os estados dos nós quando os endereços IP são reutilizados para melhorar a confiabilidade durante as operações de escalabilidade.

  • SPARK-29683. Corrigido um problema em que ocorriam falhas de trabalho durante a redução da escala verticalmente do cluster, pois o Spark presumia que todos os nós disponíveis estavam na lista de negação.

  • YARN-9011. Corrigido um problema em que falhas de trabalho ocorriam devido a uma condição de corrida no YARN descomissionamento quando o cluster tentava aumentar ou diminuir a escala.

  • Foi corrigido o problema com falhas de etapas ou tarefas durante a escalabilidade do cluster, garantindo que os estados dos nós fossem sempre consistentes entre os EMR daemons no cluster da Amazon e/. YARN HDFS

  • Corrigido um problema em que operações de cluster, como redução de escala e envio de etapas, falhavam em EMR clusters da Amazon habilitados com a autenticação Kerberos. Isso ocorreu porque o daemon no EMR cluster da Amazon não renovou o tíquete Kerberos, que é necessário para se comunicar de forma segura com/em execução no nó primário. HDFS YARN

  • As EMR versões mais recentes da Amazon corrigem o problema com um limite menor de “Máximo de arquivos abertos” em relação aos mais antigos AL2 na AmazonEMR. As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores agora incluem uma correção permanente com uma configuração mais alta de “Máximo de arquivos abertos”.

  • Spark: melhorias de performance no runtime do Spark.

Problemas conhecidos
  • O Amazon EMR 6.2 tem permissões incorretas definidas no arquivo /etc/cron.d/ libinstance-controller-java na versão 6.2.0. EMR As permissões no arquivo são 645 (-rw-r--r-x), quando deveriam ser 644 (-rw-r--r--). Como resultado, a EMR versão 6.2 da Amazon não registra registros do estado da instância e o diretório /emr/instance-logs está vazio. Esse problema foi corrigido no Amazon EMR 6.3.0 e versões posteriores.

    Para contornar esse problema, execute o script a seguir como uma ação de bootstrap na inicialização do cluster.

    #!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
  • Para clusters de sub-rede privados Amazon EMR 6.2.0 e 6.3.0, você não pode acessar a interface web do Ganglia. Você receberá um erro de “acesso negado (403)”. Outros sitesUIs, como Spark, Hue, Zeppelin JupyterHub, Livy e Tez, estão funcionando normalmente. O acesso à interface do usuário da Web do Ganglia em clusters de sub-redes públicas também está funcionando normalmente. Para resolver esse problema, reinicie o serviço httpd no nó primário com sudo systemctl restart httpd. Esse problema foi corrigido no Amazon EMR 6.4.0.

  • Há um problema no Amazon EMR 6.2.0 em que o httpd falha continuamente, fazendo com que o Ganglia fique indisponível. Você recebe a mensagem de erro “cannot connect to the server”. Para corrigir um cluster que já está em execução com esse problema, SSH acesse o nó primário do cluster e adicione a linha Listen 80 ao arquivo httpd.conf localizado em/etc/httpd/conf/httpd.conf. Esse problema foi corrigido no Amazon EMR 6.3.0.

  • HTTPDfalha nos clusters EMR 6.2.0 quando você usa uma configuração de segurança. Isso faz com que a interface de usuário da aplicação Web do Ganglia fique indisponível. Para acessar a interface de usuário da aplicação Web do Ganglia, adicione Listen 80 ao arquivo /etc/httpd/conf/httpd.conf no nó primário do cluster. Para obter informações sobre como se conectar ao seu cluster, consulte Conectar-se ao nó primário usando SSH.

    EMROs notebooks também não conseguem estabelecer uma conexão com clusters EMR 6.2.0 quando você usa uma configuração de segurança. O caderno não conseguirá listar os kernels e enviar trabalhos do Spark. Em EMR vez disso, recomendamos que você use EMR Notebooks com outra versão da Amazon.

  • Limite inferior de “Máximo de arquivos abertos” em versões mais antigas AL2 [corrigido em versões mais recentes]. EMRLançamentos da Amazon: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 e emr-6.2.0 são baseados em versões mais antigas do Linux ofAmazon 2 ()AL2, que têm uma configuração de limite inferior para “Máximo de arquivos abertos” quando os clusters da Amazon são criados com o padrão. EMR AMI As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores incluem uma correção permanente com uma configuração maior de “Máximo de arquivos abertos”. Versões com o limite inferior de arquivos abertos causam o erro “Muitos arquivos abertos” ao ser enviado um trabalho do Spark. Nas versões afetadas, o padrão da Amazon AMI tem uma configuração EMR padrão de ulimit de 4096 para “Máximo de arquivos abertos”, que é inferior ao limite de 65536 arquivos no Linux 2. latestAmazon AMI A configuração inferior de ulimit para “Máximo de arquivos abertos” causa falhas em trabalhos do Spark quando o driver e o executor do Spark tentam abrir mais de 4096 arquivos. Para corrigir o problema, a Amazon EMR tem um script de ação de bootstrap (BA) que ajusta a configuração ulimit na criação do cluster.

    Se você estiver usando uma EMR versão mais antiga da Amazon que não tem a solução permanente para esse problema, a solução alternativa a seguir permite que você defina explicitamente o ulimit do controlador de instância para um máximo de 65536 arquivos.

    Defina explicitamente um ulimit na linha de comando
    1. Edite /etc/systemd/system/instance-controller.service para adicionar os seguintes parâmetros à seção Serviço.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Reiniciar InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Defina um ulimit usando a ação de bootstrap (BA)

    Você também pode usar um script de ação de bootstrap (BA) para configurar o ulimit instance-controller para 65536 arquivos na criação do cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Importante

    O Amazon EMR 6.1.0 e 6.2.0 incluem um problema de desempenho que pode afetar criticamente todas as operações de inserção, atualização e exclusão do Hudi. Se você planeja usar o Hudi com o Amazon EMR 6.1.0 ou 6.2.0, entre em contato com o AWS suporte para obter um Hudi corrigido. RPM

  • Importante

    EMRclusters que executam Amazon Linux ou Amazon Linux 2 Amazon Machine Images (AMIs) usam o comportamento padrão do Amazon Linux e não baixam e instalam automaticamente atualizações importantes e críticas do kernel que exigem uma reinicialização. Esse é o mesmo comportamento de outras EC2 instâncias da Amazon que executam o Amazon Linux padrãoAMI. Se novas atualizações de software Amazon Linux que exigem uma reinicialização (como kernel e CUDA atualizações) ficarem disponíveis após a disponibilização de uma EMR versão da Amazon, as instâncias de EMR cluster que executam o padrão AMI não baixam e instalam automaticamente essas atualizações. NVIDIA Para obter atualizações do kernel, você pode personalizar sua Amazon EMR AMI para usar o Amazon Linux AMI mais recente.

  • Os artefatos do Amazon EMR 6.2.0 Maven não são publicados. Eles serão publicados com uma versão futura da AmazonEMR.

  • O HFile rastreamento persistente usando a tabela do sistema HBase storefile não oferece suporte ao recurso de replicação da HBase região. Para obter mais informações sobre a replicação HBase da região, consulte Leituras de alta disponibilidade consistentes com a linha do tempo.

  • Diferenças entre as versões de bucketing do Amazon EMR EMR 6.x e 5.x Hive

    EMRO 5.x usa o OOS Apache Hive 2, enquanto no EMR 6.x usa OOS o Apache Hive 3. O Hive2 de código aberto usa o Bucketing versão 1, enquanto o Hive3 de código aberto usa o Bucketing versão 2. Essa diferença de versão de compartimentação entre o Hive 2 (EMR5.x) e o Hive 3 (EMR6.x) significa que o hashing de compartimentação do Hive funciona de forma diferente. Veja o exemplo abaixo.

    A tabela a seguir é um exemplo criado em EMR 6.x e EMR 5.x, respectivamente.

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    Inserindo os mesmos dados em EMR 6.x e EMR 5.x.

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    Verificar a localização do S3 mostra que o nome do arquivo de compartimento é diferente, porque a função de hash é diferente entre EMR 6.x (Hive 3) e EMR 5.x (Hive 2).

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    Você também pode ver a diferença de versão executando o seguinte comando no Hive CLI na versão EMR 6.x. Observe que ele retorna a versão 2 do bucketing.

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

Versão 5.31.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.31.0 da Amazon. As alterações são referentes à versão 5.30.1.

Data da versão inicial: 9 de outubro de 2020

Data da última atualização: 15 de outubro de 2020

Atualizações
  • Atualizado o conector do Amazon Glue para a versão 1.13.0

  • Amazon SageMaker Spark atualizado SDK para a versão 1.4.0

  • Atualizado o conector do Amazon Kinesis para a versão 3.5.9

  • Atualizado para AWS SDK for Java a versão 1.11.852

  • Atualizado o Bigtop-tomcat para a versão 8.5.56

  • EMRFS atualizado para a versão 2.43.0

  • EMR MetricsAndEventsApiGateway Cliente atualizado para a versão 1.4.0

  • EMRS3 Dist CP atualizado para a versão 2.15.0

  • EMRS3 Select atualizado para a versão 1.6.0

  • Atualizado o Flink para a versão 1.11.0

  • Atualizado o Hadoop para a versão 2.10.0

  • Atualizado o Hive para a versão 2.3.7

  • Atualizado o Hudi para a versão 0.6.0

  • Atualizado o Hue para a versão 4.7.1

  • Atualizado JupyterHub para a versão 1.1.0

  • Atualizado o Mxnet para a versão 1.6.0

  • Atualizado o OpenCV para a versão 4.3.0

  • Atualizado o Presto para a versão 0.238.3

  • Atualizado TensorFlow para a versão 2.1.0

Alterações, melhorias e problemas resolvidos
  • Esta é uma versão para corrigir problemas com o Amazon EMR Scaling quando ele falha na escalabilidade ou redução de escala de um cluster com sucesso ou causa falhas no aplicativo.

  • Corrigido um problema em que as solicitações de escalabilidade falhavam em um cluster grande e altamente utilizado quando os daemons no cluster da EMR Amazon estavam executando atividades de verificação de integridade, como coletar o estado do nó e o estado do YARN nó. HDFS Isso estava acontecendo porque os daemons no cluster não conseguiam comunicar os dados do status de saúde de um nó aos componentes internos da Amazon. EMR

  • Daemons EMR no cluster aprimorados para rastrear corretamente os estados dos nós quando os endereços IP são reutilizados para melhorar a confiabilidade durante as operações de escalabilidade.

  • SPARK-29683. Corrigido um problema em que ocorriam falhas de trabalho durante a redução da escala verticalmente do cluster, pois o Spark presumia que todos os nós disponíveis estavam na lista de negação.

  • YARN-9011. Corrigido um problema em que falhas de trabalho ocorriam devido a uma condição de corrida no YARN descomissionamento quando o cluster tentava aumentar ou diminuir a escala.

  • Foi corrigido o problema com falhas de etapas ou tarefas durante a escalabilidade do cluster, garantindo que os estados dos nós fossem sempre consistentes entre os EMR daemons no cluster da Amazon e/. YARN HDFS

  • Corrigido um problema em que operações de cluster, como redução de escala e envio de etapas, falhavam em EMR clusters da Amazon habilitados com a autenticação Kerberos. Isso ocorreu porque o daemon no EMR cluster da Amazon não renovou o tíquete Kerberos, que é necessário para se comunicar de forma segura com/em execução no nó primário. HDFS YARN

  • As EMR versões mais recentes da Amazon corrigem o problema com um limite menor de “Máximo de arquivos abertos” em relação aos mais antigos AL2 na AmazonEMR. As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores agora incluem uma correção permanente com uma configuração mais alta de “Máximo de arquivos abertos”.

  • As estatísticas de colunas do Hive são compatíveis com as EMR versões 5.31.0 e posteriores da Amazon.

  • Atualizadas versões do componente.

  • EMRFSSuporte ao S3EC V2 na Amazon EMR 5.31.0. Nas SDK versões 1.11.837 e posteriores do Java do S3, a versão 2 do cliente de criptografia (S3EC V2) foi introduzida com vários aprimoramentos de segurança. Para obter mais informações, consulte as informações a seguir.

    O Encryption Client V1 ainda está disponível no SDK para compatibilidade com versões anteriores.

Novos atributos
  • Limite inferior de “Máximo de arquivos abertos” em versões mais antigas AL2 [corrigido em versões mais recentes]. EMRLançamentos da Amazon: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 e emr-6.2.0 são baseados em versões mais antigas do Linux ofAmazon 2 ()AL2, que têm uma configuração de limite inferior para “Máximo de arquivos abertos” quando os clusters da Amazon são criados com o padrão. EMR AMI As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores incluem uma correção permanente com uma configuração maior de “Máximo de arquivos abertos”. Versões com o limite inferior de arquivos abertos causam o erro “Muitos arquivos abertos” ao ser enviado um trabalho do Spark. Nas versões afetadas, o padrão da Amazon AMI tem uma configuração EMR padrão de ulimit de 4096 para “Máximo de arquivos abertos”, que é inferior ao limite de 65536 arquivos no Linux 2. latestAmazon AMI A configuração inferior de ulimit para “Máximo de arquivos abertos” causa falhas em trabalhos do Spark quando o driver e o executor do Spark tentam abrir mais de 4096 arquivos. Para corrigir o problema, a Amazon EMR tem um script de ação de bootstrap (BA) que ajusta a configuração ulimit na criação do cluster.

    Se você estiver usando uma EMR versão mais antiga da Amazon que não tem a solução permanente para esse problema, a solução alternativa a seguir permite que você defina explicitamente o ulimit do controlador de instância para um máximo de 65536 arquivos.

    Defina explicitamente um ulimit na linha de comando
    1. Edite /etc/systemd/system/instance-controller.service para adicionar os seguintes parâmetros à seção Serviço.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Reiniciar InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Defina um ulimit usando a ação de bootstrap (BA)

    Você também pode usar um script de ação de bootstrap (BA) para configurar o ulimit instance-controller para 65536 arquivos na criação do cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Com o Amazon EMR 5.31.0, você pode lançar um cluster que se integra ao Lake Formation. Essa integração fornece filtragem de dados refinada em nível de coluna para bancos de dados e tabelas no Glue Data Catalog. AWS Ele também permite o login único federado em EMR notebooks ou Apache Zeppelin a partir de um sistema de identidade corporativo. Para obter mais informações, consulte Integração da Amazon EMR com o Guia AWS Lake Formation de EMR gerenciamento da Amazon.

    Atualmente, o Amazon EMR with Lake Formation está disponível em 16 AWS regiões: Leste dos EUA (Ohio e Norte da Virgínia), Oeste dos EUA (Norte da Califórnia e Oregon), Ásia-Pacífico (Mumbai, Seul, Cingapura, Sydney e Tóquio), Canadá (Central), Europa (Frankfurt, Irlanda, Londres, Paris e Estocolmo) e América do Sul (São Paulo).

Problemas conhecidos
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

  • Quando AtRestEncryption ou a HDFS criptografia é habilitada em um cluster que usa o Amazon EMR 5.31.0 ou 5.32.0, as consultas do Hive resultam na seguinte exceção de tempo de execução.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

Versão 6.1.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.1.0 da Amazon. As alterações são referentes à versão 6.0.0.

Data da versão inicial: 4 de setembro de 2020

Data da última atualização: 15 de outubro de 2020

Aplicações compatíveis
  • AWS SDK for Java versão 1.11.828

  • Flink versão 1.11.0

  • Ganglia versão 3.7.2

  • Hadoop versão 3.2.1-amzn-1

  • HBaseversão 2.2.5

  • HBase-operator-tools 1.0.0

  • HCatalogversão 3.1.2-amzn-0

  • Hive versão 3.1.2-amzn-1

  • Hudi versão 0.5.2-incubating

  • Hue versão 4.7.1

  • JupyterHub versão 1.1.0

  • Livy versão 0.7.0

  • MXNetversão 1.6.0

  • Oozie versão 5.2.0

  • Phoenix versão 5.0.0

  • Presto versão 0.232

  • Presto SQL versão 3.38

  • Spark versão 3.0.0-amzn-0

  • TensorFlow versão 2.1.0

  • Zeppelin versão 0.9.0-preview1

  • Zookeeper versão 3.4.14

  • Conectores e drivers: DynamoDB Connector 4.14.0

Novos atributos
  • ARMOs tipos de instância são suportados a partir da Amazon EMR versão 5.30.0 e da Amazon EMR versão 6.1.0.

  • Os tipos de instância de uso geral M6g são suportados a partir das EMR versões 6.1.0 e 5.30.0 da Amazon. Para obter mais informações, consulte Tipos de instância compatíveis no Amazon EMR Management Guide.

  • O recurso de grupos de EC2 posicionamento é suportado a partir da EMR versão 5.23.0 da Amazon como uma opção para vários clusters de nós primários. Atualmente, somente os tipos de nós primários são compatíveis com o atributo grupo de posicionamento e a estratégia SPREAD é aplicada a estes nós primários. A estratégia SPREAD posiciona um pequeno grupo de instâncias em um hardware subjacente separado para evitar a perda de múltiplos nós primários em caso de falha de hardware. Para obter mais informações, consulte EMRIntegração com o EC2 Placement Group no Amazon EMR Management Guide.

  • Escalabilidade gerenciada — Com a EMR versão 6.1.0 da Amazon, você pode permitir que a escalabilidade EMR gerenciada da Amazon aumente ou diminua automaticamente o número de instâncias ou unidades em seu cluster com base na carga de trabalho. A Amazon avalia EMR continuamente as métricas do cluster para tomar decisões de escalabilidade que otimizem seus clusters em termos de custo e velocidade. O Managed Scaling também está disponível na Amazon EMR versão 5.30.0 e posterior, exceto 6.0.0. Para obter mais informações, consulte Scaling Cluster Resources no Amazon EMR Management Guide.

  • A SQL versão 338 do Presto é compatível com EMR 6.1.0. Para obter mais informações, consulte Presto.

    • O Presto SQL é suportado somente na EMR versão 6.1.0 e versões posteriores, não na EMR 6.0.0 ou 5.x. EMR

    • O nome da aplicação, Presto, continua a ser usado para instalar o PrestoDB em clusters. Para instalar o Presto SQL em clusters, use o nome PrestoSQL do aplicativo.

    • Você pode instalar o PrestoDB ou o SQL Presto, mas não pode instalar os dois em um único cluster. Se o PrestoDB e o SQL Presto forem especificados ao tentar criar um cluster, ocorrerá um erro de validação e a solicitação de criação do cluster falhará.

    • O Presto SQL é compatível com clusters single-master e multimaster. Em clusters com vários mestres, é necessário um metastore externo do Hive para executar o Presto ou o PrestoDB. SQL Consulte Aplicativos compatíveis em um EMR cluster com vários nós primários.

  • ECRsuporte à autenticação automática no Apache Hadoop e no Apache Spark com Docker: os usuários do Spark podem usar imagens do Docker Hub e do Amazon Elastic Container Registry (AmazonECR) para definir dependências de ambiente e biblioteca.

    Configure o Docker e execute aplicativos Spark com o Docker usando o Amazon 6.x. EMR

  • EMRsuporta ACID transações do Apache Hive: o Amazon EMR 6.1.0 adiciona suporte às transações do Hive para que esteja em conformidade com ACID as propriedades de um banco de dados. ACID Com esse atributo, você pode executar as operações INSERT, UPDATE, DELETE, e MERGE em tabelas gerenciadas do Hive com dados no Amazon Simple Storage Service (Amazon S3). Esse é um recurso fundamental para casos de uso como ingestão de streaming, atualização de dados, uso de atualizações em massa e mudanças lentas de dimensões. MERGE Para obter mais informações, incluindo exemplos de configuração e casos de uso, consulte Amazon EMR suporta transações do Apache Hive ACID.

Alterações, melhorias e problemas resolvidos
  • Esta é uma versão para corrigir problemas com o Amazon EMR Scaling quando ele falha na escalabilidade ou redução de escala de um cluster com sucesso ou causa falhas no aplicativo.

  • Corrigido um problema em que as solicitações de escalabilidade falhavam em um cluster grande e altamente utilizado quando os daemons no cluster da EMR Amazon estavam executando atividades de verificação de integridade, como coletar o estado do nó e o estado do YARN nó. HDFS Isso estava acontecendo porque os daemons no cluster não conseguiam comunicar os dados do status de saúde de um nó aos componentes internos da Amazon. EMR

  • Daemons EMR no cluster aprimorados para rastrear corretamente os estados dos nós quando os endereços IP são reutilizados para melhorar a confiabilidade durante as operações de escalabilidade.

  • SPARK-29683. Corrigido um problema em que ocorriam falhas de trabalho durante a redução da escala verticalmente do cluster, pois o Spark presumia que todos os nós disponíveis estavam na lista de negação.

  • YARN-9011. Corrigido um problema em que falhas de trabalho ocorriam devido a uma condição de corrida no YARN descomissionamento quando o cluster tentava aumentar ou diminuir a escala.

  • Foi corrigido o problema com falhas de etapas ou tarefas durante a escalabilidade do cluster, garantindo que os estados dos nós fossem sempre consistentes entre os EMR daemons no cluster da Amazon e/. YARN HDFS

  • Corrigido um problema em que operações de cluster, como redução de escala e envio de etapas, falhavam em EMR clusters da Amazon habilitados com a autenticação Kerberos. Isso ocorreu porque o daemon no EMR cluster da Amazon não renovou o tíquete Kerberos, que é necessário para se comunicar de forma segura com/em execução no nó primário. HDFS YARN

  • As EMR versões mais recentes da Amazon corrigem o problema com um limite menor de “Máximo de arquivos abertos” em relação aos mais antigos AL2 na AmazonEMR. As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores agora incluem uma correção permanente com uma configuração mais alta de “Máximo de arquivos abertos”.

  • O Apache Flink não é suportado no EMR 6.0.0, mas é suportado no EMR 6.1.0 com o Flink 1.11.0. Esta é a primeira versão do Flink a oficialmente oferecer suporte ao Hadoop 3. Consulte o Anúncio de versão do Apache Flink 1.11.0.

  • O Ganglia foi removido dos pacotes padrão EMR 6.1.0.

Problemas conhecidos
  • Limite inferior de “Máximo de arquivos abertos” em versões mais antigas AL2 [corrigido em versões mais recentes]. EMRLançamentos da Amazon: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 e emr-6.2.0 são baseados em versões mais antigas do Linux ofAmazon 2 ()AL2, que têm uma configuração de limite inferior para “Máximo de arquivos abertos” quando os clusters da Amazon são criados com o padrão. EMR AMI As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores incluem uma correção permanente com uma configuração maior de “Máximo de arquivos abertos”. Versões com o limite inferior de arquivos abertos causam o erro “Muitos arquivos abertos” ao ser enviado um trabalho do Spark. Nas versões afetadas, o padrão da Amazon AMI tem uma configuração EMR padrão de ulimit de 4096 para “Máximo de arquivos abertos”, que é inferior ao limite de 65536 arquivos no Linux 2. latestAmazon AMI A configuração inferior de ulimit para “Máximo de arquivos abertos” causa falhas em trabalhos do Spark quando o driver e o executor do Spark tentam abrir mais de 4096 arquivos. Para corrigir o problema, a Amazon EMR tem um script de ação de bootstrap (BA) que ajusta a configuração ulimit na criação do cluster.

    Se você estiver usando uma EMR versão mais antiga da Amazon que não tem a solução permanente para esse problema, a solução alternativa a seguir permite que você defina explicitamente o ulimit do controlador de instância para um máximo de 65536 arquivos.

    Defina explicitamente um ulimit na linha de comando
    1. Edite /etc/systemd/system/instance-controller.service para adicionar os seguintes parâmetros à seção Serviço.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Reiniciar InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Defina um ulimit usando a ação de bootstrap (BA)

    Você também pode usar um script de ação de bootstrap (BA) para configurar o ulimit instance-controller para 65536 arquivos na criação do cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Importante

    O Amazon EMR 6.1.0 e 6.2.0 incluem um problema de desempenho que pode afetar criticamente todas as operações de inserção, atualização e exclusão do Hudi. Se você planeja usar o Hudi com o Amazon EMR 6.1.0 ou 6.2.0, entre em contato com o AWS suporte para obter um Hudi corrigido. RPM

  • Se você definir uma configuração personalizada de coleta de lixo com spark.driver.extraJavaOptions espark.executor.extraJavaOptions, isso resultará na falha de inicialização do driver/executor com a versão EMR 6.1 devido à configuração conflitante da coleta de lixo. Com a EMR versão 6.1.0, você deve especificar uma configuração personalizada de coleta de lixo do Spark para drivers e executores com as propriedades e em vez disso. spark.driver.defaultJavaOptions spark.executor.defaultJavaOptions Leia mais em Apache Spark Runtime Environment e Configurando a coleta de lixo do Spark na Amazon 6.1.0. EMR

  • Usar o Pig com o Oozie (e dentro do Hue, já que o Hue usa ações do Oozie para executar scripts do Pig) gera um erro em que uma biblioteca nativa lzo não pode ser carregada. Essa mensagem de erro é informativa e não impede a execução do Pig.

  • Suporte de simultaneidade do Hudi: atualmente, o Hudi não é compatível com gravações simultâneas em uma única tabela do Hudi. Além disso, o Hudi reverte todas as alterações feitas por gravadores em andamento antes de permitir que um novo gravador seja iniciado. As gravações simultâneas podem interferir nesse mecanismo e introduzir condições de corrida, o que pode causar corrupção de dados. Você deve garantir que, como parte do seu fluxo de trabalho de processamento de dados, só exista um gravador do Hudi operando em uma tabela do Hudi em qualquer instante. O Hudi permite vários leitores simultâneos operando na mesma tabela do Hudi.

  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

  • Há um problema no Amazon EMR 6.1.0 que afeta os clusters que executam o Presto. Depois de um longo período (dias), o cluster pode gerar erros, como “su: failed to execute /bin/bash: Resource temporarily unavailable” ou “shell request failed on channel 0”. Esse problema é causado por um EMR processo interno da Amazon (InstanceController) que está gerando muitos processos leves (LWP), o que acaba fazendo com que o usuário do Hadoop exceda o limite de nproc. Isso impede que o usuário abra processos adicionais. A solução para esse problema é atualizar para EMR 6.2.0.

Versão 6.0.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 6.0.0 da Amazon.

Data da versão inicial: 10 de março de 2020

Aplicações compatíveis
  • AWS SDK for Java versão 1.11.711

  • Ganglia versão 3.7.2

  • Hadoop versão 3.2.1

  • HBaseversão 2.2.3

  • HCatalogversão 3.1.2

  • Hive versão 3.1.2

  • Hudi versão 0.5.0 incubadora

  • Hue versão 4.4.0

  • JupyterHub versão 1.0.0

  • Livy versão 0.6.0

  • MXNetversão 1.5.1

  • Oozie versão 5.1.0

  • Phoenix versão 5.0.0

  • Presto versão 0.230

  • Spark versão 2.4.4

  • TensorFlow versão 1.14.0

  • Zeppelin versão 0.9.0- SNAPSHOT

  • Zookeeper versão 3.4.14

  • Conectores e drivers: DynamoDB Connector 4.14.0

nota

Flink, Sqoop, Pig e Mahout não estão disponíveis na versão 6.0.0 da Amazon. EMR

Novos atributos
  • YARNDocker Runtime Support — YARN aplicativos, como trabalhos do Spark, agora podem ser executados no contexto de um contêiner Docker. Isso permite que você defina facilmente dependências em uma imagem do Docker sem a necessidade de instalar bibliotecas personalizadas em seu cluster da AmazonEMR. Para obter mais informações, consulte Configurar a integração do Docker e executar aplicativos Spark com o Docker usando o Amazon 6.0.0. EMR

  • LLAPSuporte do Hive - O Hive agora suporta o modo de LLAP execução para melhorar o desempenho das consultas. Para obter mais informações, consulte Usando o Hive. LLAP

Alterações, melhorias e problemas resolvidos
  • Esta é uma versão para corrigir problemas com o Amazon EMR Scaling quando ele falha na escalabilidade ou redução de escala de um cluster com sucesso ou causa falhas no aplicativo.

  • Corrigido um problema em que as solicitações de escalabilidade falhavam em um cluster grande e altamente utilizado quando os daemons no cluster da EMR Amazon estavam executando atividades de verificação de integridade, como coletar o estado do nó e o estado do YARN nó. HDFS Isso estava acontecendo porque os daemons no cluster não conseguiam comunicar os dados do status de saúde de um nó aos componentes internos da Amazon. EMR

  • Daemons EMR no cluster aprimorados para rastrear corretamente os estados dos nós quando os endereços IP são reutilizados para melhorar a confiabilidade durante as operações de escalabilidade.

  • SPARK-29683. Corrigido um problema em que ocorriam falhas de trabalho durante a redução da escala verticalmente do cluster, pois o Spark presumia que todos os nós disponíveis estavam na lista de negação.

  • YARN-9011. Corrigido um problema em que falhas de trabalho ocorriam devido a uma condição de corrida no YARN descomissionamento quando o cluster tentava aumentar ou diminuir a escala.

  • Foi corrigido o problema com falhas de etapas ou tarefas durante a escalabilidade do cluster, garantindo que os estados dos nós fossem sempre consistentes entre os EMR daemons no cluster da Amazon e/. YARN HDFS

  • Corrigido um problema em que operações de cluster, como redução de escala e envio de etapas, falhavam em EMR clusters da Amazon habilitados com a autenticação Kerberos. Isso ocorreu porque o daemon no EMR cluster da Amazon não renovou o tíquete Kerberos, que é necessário para se comunicar de forma segura com/em execução no nó primário. HDFS YARN

  • As EMR versões mais recentes da Amazon corrigem o problema com um limite menor de “Máximo de arquivos abertos” em relação aos mais antigos AL2 na AmazonEMR. As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores agora incluem uma correção permanente com uma configuração mais alta de “Máximo de arquivos abertos”.

  • Amazon Linux

    • O Amazon Linux 2 é o sistema operacional da série de lançamento EMR 6.x.

    • systemdé usado para gerenciamento de serviços em vez do inAmazon Linux 1 upstart usado.

  • Kit de desenvolvimento Java (JDK)

    • Corretto JDK 8 é o padrão JDK para a série de lançamento EMR 6.x.

  • Scala

    • O Scala 2.12 é usado com o Apache Spark e com o Apache Livy.

  • Python 3

    • O Python 3 agora é a versão padrão do Python em. EMR

  • YARNrótulos de nós

    • A partir da série de lançamento Amazon EMR 6.x, o recurso de rótulos de YARN nós está desativado por padrão. Os principais processos do aplicativo podem ser executados tanto nos nós core como nos nós de tarefa por padrão. Você pode ativar o recurso de rótulos de YARN nós configurando as seguintes propriedades: yarn.node-labels.enabled e. yarn.node-labels.am.default-node-label-expression Para obter mais informações, consulte Noções básicas sobre nós de tarefa, centrais e primários.

Problemas conhecidos
  • Limite inferior de “Máximo de arquivos abertos” em versões mais antigas AL2 [corrigido em versões mais recentes]. EMRLançamentos da Amazon: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 e emr-6.2.0 são baseados em versões mais antigas do Linux ofAmazon 2 ()AL2, que têm uma configuração de limite inferior para “Máximo de arquivos abertos” quando os clusters da Amazon são criados com o padrão. EMR AMI As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores incluem uma correção permanente com uma configuração maior de “Máximo de arquivos abertos”. Versões com o limite inferior de arquivos abertos causam o erro “Muitos arquivos abertos” ao ser enviado um trabalho do Spark. Nas versões afetadas, o padrão da Amazon AMI tem uma configuração EMR padrão de ulimit de 4096 para “Máximo de arquivos abertos”, que é inferior ao limite de 65536 arquivos no Linux 2. latestAmazon AMI A configuração inferior de ulimit para “Máximo de arquivos abertos” causa falhas em trabalhos do Spark quando o driver e o executor do Spark tentam abrir mais de 4096 arquivos. Para corrigir o problema, a Amazon EMR tem um script de ação de bootstrap (BA) que ajusta a configuração ulimit na criação do cluster.

    Se você estiver usando uma EMR versão mais antiga da Amazon que não tem a solução permanente para esse problema, a solução alternativa a seguir permite que você defina explicitamente o ulimit do controlador de instância para um máximo de 65536 arquivos.

    Defina explicitamente um ulimit na linha de comando
    1. Edite /etc/systemd/system/instance-controller.service para adicionar os seguintes parâmetros à seção Serviço.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Reiniciar InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Defina um ulimit usando a ação de bootstrap (BA)

    Você também pode usar um script de ação de bootstrap (BA) para configurar o ulimit instance-controller para 65536 arquivos na criação do cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • O shell interativo do Spark PySpark, incluindo SparkR e spark-shell, não oferece suporte ao uso do Docker com bibliotecas adicionais.

  • Para usar o Python 3 com a EMR versão 6.0.0 da Amazon, você deve adicionar a. PATH yarn.nodemanager.env-whitelist

  • A funcionalidade Live Long and Process (LLAP) não é suportada quando você usa o AWS Glue Data Catalog como metastore do Hive.

  • Ao usar o Amazon EMR 6.0.0 com a integração do Spark e do Docker, você precisa configurar as instâncias em seu cluster com o mesmo tipo de instância e a mesma quantidade de EBS volumes para evitar falhas ao enviar um trabalho do Spark com o tempo de execução do Docker.

  • No Amazon EMR 6.0.0, HBase no Amazon S3, o modo de armazenamento é afetado pelo HBASE problema -24286. HBaseo master não pode inicializar quando o cluster é criado usando dados existentes do S3.

  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.30.1

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.30.1 da Amazon. As alterações são referentes à versão 5.30.0.

Data da versão inicial: 30 de junho de 2020

Data da última atualização: 24 de agosto de 2020

Alterações, melhorias e problemas resolvidos
  • As EMR versões mais recentes da Amazon corrigem o problema com um limite menor de “Máximo de arquivos abertos” em relação aos mais antigos AL2 na AmazonEMR. As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores agora incluem uma correção permanente com uma configuração mais alta de “Máximo de arquivos abertos”.

  • Corrigido um problema em que o processo do controlador da instância gerava um número infinito de processos.

  • Corrigido um problema em que o Hue não conseguia executar uma consulta do Hive, mostrando a mensagem “o banco de dados está bloqueado” e impedindo a execução de consultas.

  • Foi corrigido um problema do Spark para permitir que mais tarefas fossem executadas simultaneamente no EMR cluster.

  • Corrigido um problema no caderno Jupyter que causava um “erro de muitos arquivos abertos” no servidor Jupyter.

  • Corrigido um problema com as horas de início do cluster.

Novos atributos
  • As interfaces de aplicativos persistentes do Tez UI e do YARN Timeline Server estão disponíveis com EMR as versões 6.x e 5.30.1 e EMR posteriores da Amazon. O acesso por link com um clique ao histórico persistente do aplicativo permite que você acesse rapidamente o histórico de tarefas sem configurar um proxy da web por meio de uma SSH conexão. Os logs de clusters ativos e encerrados ficam disponíveis por 30 dias após o término da aplicação. Para obter mais informações, consulte Exibir interfaces de usuário de aplicativos persistentes no Amazon EMR Management Guide.

  • EMRA execução do notebook APIs está disponível para executar EMR notebooks por meio de um script ou linha de comando. A capacidade de iniciar, parar, listar e descrever as execuções do EMR notebook sem o AWS console permite que você controle programaticamente um notebook. EMR Ao usar uma célula do caderno parametrizada, você pode passar valores de parâmetros diferentes para um caderno sem precisar criar uma cópia do caderno para cada novo conjunto de valores de parâmetros. Consulte EMRAPIAções. Para obter um exemplo de código, consulte Exemplos de comandos para executar EMR Notebooks programaticamente.

Problemas conhecidos
  • Limite inferior de “Máximo de arquivos abertos” em versões mais antigas AL2 [corrigido em versões mais recentes]. EMRLançamentos da Amazon: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 e emr-6.2.0 são baseados em versões mais antigas do Linux ofAmazon 2 ()AL2, que têm uma configuração de limite inferior para “Máximo de arquivos abertos” quando os clusters da Amazon são criados com o padrão. EMR AMI As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores incluem uma correção permanente com uma configuração maior de “Máximo de arquivos abertos”. Versões com o limite inferior de arquivos abertos causam o erro “Muitos arquivos abertos” ao ser enviado um trabalho do Spark. Nas versões afetadas, o padrão da Amazon AMI tem uma configuração EMR padrão de ulimit de 4096 para “Máximo de arquivos abertos”, que é inferior ao limite de 65536 arquivos no Linux 2. latestAmazon AMI A configuração inferior de ulimit para “Máximo de arquivos abertos” causa falhas em trabalhos do Spark quando o driver e o executor do Spark tentam abrir mais de 4096 arquivos. Para corrigir o problema, a Amazon EMR tem um script de ação de bootstrap (BA) que ajusta a configuração ulimit na criação do cluster.

    Se você estiver usando uma EMR versão mais antiga da Amazon que não tem a solução permanente para esse problema, a solução alternativa a seguir permite que você defina explicitamente o ulimit do controlador de instância para um máximo de 65536 arquivos.

    Defina explicitamente um ulimit na linha de comando
    1. Edite /etc/systemd/system/instance-controller.service para adicionar os seguintes parâmetros à seção Serviço.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Reiniciar InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Defina um ulimit usando a ação de bootstrap (BA)

    Você também pode usar um script de ação de bootstrap (BA) para configurar o ulimit instance-controller para 65536 arquivos na criação do cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • EMRCadernos

    O recurso que permite instalar kernels e bibliotecas Python adicionais no nó primário do cluster está desativado por padrão na versão 5.30.1. EMR Para obter mais informações sobre esse atributo, consulte Instalar kernels e bibliotecas Python em um nó primário do cluster.

    Para habilitar o recurso, faça o seguinte:

    1. Certifique-se de que a política de permissões anexada à função de serviço para EMR Notebooks permita a seguinte ação:

      elasticmapreduce:ListSteps

      Para obter mais informações, consulte Função de serviço para EMR notebooks.

    2. Use o AWS CLI para executar uma etapa no cluster que configura os EMR Notebooks, conforme mostrado no exemplo a seguir. Substituir us-east-1 com a região em que seu cluster reside. Para obter mais informações, consulte Adding Steps to a Cluster Using the AWS CLI.

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • Ajuste de escala gerenciado

    As operações de ajuste de escala gerenciado nos clusters das versões 5.30.0 e 5.30.1 sem o Presto instalado podem causar falhas na aplicação ou fazer com que um grupo de instâncias ou uma frota de instâncias uniforme permaneça no estado ARRESTED, sobretudo quando uma operação de redução da escala verticalmente logo é seguida por uma operação de aumento da escala verticalmente.

    Como solução alternativa, escolha o Presto como um aplicativo a ser instalado ao criar um cluster com as EMR versões 5.30.0 e 5.30.1 da Amazon, mesmo que seu trabalho não exija o Presto.

  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

Versão 5.30.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.30.0 da Amazon. As alterações são referentes à versão 5.29.0.

Data da versão inicial: 13 de maio de 2020

Data da última atualização: 25 de junho de 2020

Atualizações
  • Atualizado para AWS SDK for Java a versão 1.11.759

  • Amazon SageMaker Spark atualizado SDK para a versão 1.3.0

  • Servidor de EMR registros atualizado para a versão 1.6.0

  • Atualização do Flink para a versão 1.10.0

  • Atualização do Ganglia para a versão 3.7.2

  • Atualizado HBase para a versão 1.4.13

  • Atualização do Hudi para a versão 0.5.2-incubating

  • Atualização do Hue para a versão 4.6.0

  • Atualizado JupyterHub para a versão 1.1.0

  • Atualização do Livy para a versão 0.7.0-incubating

  • Atualização do Oozie para a versão 5.2.0

  • Atualização do Presto para a versão 0.232

  • Atualização do Spark para a versão 2.4.5

  • Conectores e drivers atualizados: Amazon Glue Connector 1.12.0; Amazon Kinesis Connector 3.5.0; DynamoDB Connector 4.14.0 EMR

Novos atributos
  • EMRNotebooks — Quando usados com EMR clusters criados usando 5.30.0, os kernels do EMR notebook são executados no cluster. Isso melhora o desempenho do bloco de anotações e permite que instalar e personalizar kernels. Você também pode instalar bibliotecas Python no nó primário do cluster. Para obter mais informações, consulte Instalando e usando kernels e bibliotecas no Guia EMRde gerenciamento.

  • Escalabilidade gerenciada — Com a Amazon EMR versão 5.30.0 e posterior, você pode habilitar a escalabilidade EMR gerenciada para aumentar ou diminuir automaticamente o número de instâncias ou unidades em seu cluster com base na carga de trabalho. A Amazon avalia EMR continuamente as métricas do cluster para tomar decisões de escalabilidade que otimizem seus clusters em termos de custo e velocidade. Para obter mais informações, consulte Scaling Cluster Resources no Amazon EMR Management Guide.

  • Criptografe arquivos de log armazenados no Amazon S3 — Com a EMR Amazon versão 5.30.0 e posterior, você pode criptografar arquivos de log armazenados no Amazon S3 com uma chave gerenciada pelo cliente. AWS KMS Para obter mais informações, consulte Criptografar arquivos de log armazenados no Amazon S3 no EMRAmazon Management Guide.

  • Suporte ao Amazon Linux 2 — Na EMR versão 5.30.0 e posterior, EMR usesAmazon sistema operacional Linux 2. A nova personalização AMIs (Amazon Machine Image) deve ser baseada no theAmazon Linux 2AMI. Para obter mais informações, consulte Usando um personalizado AMI.

  • Presto Graceful Auto Scale — EMR clusters que usam 5.30.0 podem ser configurados com um período de tempo limite de escalonamento automático que permite que as tarefas do Presto terminem de ser executadas antes que seu nó seja desativado. Para ter mais informações, consulte Usar a escalabilidade automática do Presto com desativação tranquila.

  • Criação de instância de frota com nova opção de estratégia de alocação — Uma nova opção de estratégia de alocação está disponível na EMR versão 5.12.1 e posterior. Ele oferece provisionamento de cluster mais rápido, alocação de spot mais precisa e menos interrupção de instâncias spot. Atualizações para funções de EMR serviço não padrão são necessárias. Consulte Configurar frotas de instâncias.

  • comandos sudo systemctl stop e sudo systemctl start — Na EMR versão 5.30.0 e posterior, qual sistema operacional useAmazon Linux 2 usa e comanda para reiniciar serviços. EMR sudo systemctl stop sudo systemctl start Para obter mais informações, consulte Como reinicio um serviço na AmazonEMR? .

Alterações, melhorias e problemas resolvidos
  • EMRa versão 5.30.0 não instala o Ganglia por padrão. É possível selecionar explicitamente o Ganglia para ser instalado ao criar um cluster.

  • Otimizações do desempenho do Spark

  • Otimizações do desempenho do Presto

  • O Python 3 é o padrão para a Amazon EMR versão 5.30.0 e posterior.

  • O grupo de segurança gerenciado padrão para acesso ao serviço em sub-redes privadas foi atualizado com novas regras. Se você usar um grupo de segurança personalizado para acesso ao serviço, será necessário incluir as mesmas regras do grupo de segurança gerenciado padrão. Para obter mais informações, consulte Grupo EMR de segurança gerenciado pela Amazon para acesso a serviços (sub-redes privadas). Se você usa uma função de serviço personalizada para a AmazonEMR, deve conceder permissão para que ela ec2:describeSecurityGroups EMR possa validar se os grupos de segurança foram criados corretamente. Se você usar o EMR_DefaultRole, essa permissão já estará incluída na política gerenciada padrão.

Problemas conhecidos
  • Limite inferior de “Máximo de arquivos abertos” em versões mais antigas AL2 [corrigido em versões mais recentes]. EMRLançamentos da Amazon: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0 e emr-6.2.0 são baseados em versões mais antigas do Linux ofAmazon 2 ()AL2, que têm uma configuração de limite inferior para “Máximo de arquivos abertos” quando os clusters da Amazon são criados com o padrão. EMR AMI As EMR versões 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 e posteriores incluem uma correção permanente com uma configuração maior de “Máximo de arquivos abertos”. Versões com o limite inferior de arquivos abertos causam o erro “Muitos arquivos abertos” ao ser enviado um trabalho do Spark. Nas versões afetadas, o padrão da Amazon AMI tem uma configuração EMR padrão de ulimit de 4096 para “Máximo de arquivos abertos”, que é inferior ao limite de 65536 arquivos no Linux 2. latestAmazon AMI A configuração inferior de ulimit para “Máximo de arquivos abertos” causa falhas em trabalhos do Spark quando o driver e o executor do Spark tentam abrir mais de 4096 arquivos. Para corrigir o problema, a Amazon EMR tem um script de ação de bootstrap (BA) que ajusta a configuração ulimit na criação do cluster.

    Se você estiver usando uma EMR versão mais antiga da Amazon que não tem a solução permanente para esse problema, a solução alternativa a seguir permite que você defina explicitamente o ulimit do controlador de instância para um máximo de 65536 arquivos.

    Defina explicitamente um ulimit na linha de comando
    1. Edite /etc/systemd/system/instance-controller.service para adicionar os seguintes parâmetros à seção Serviço.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Reiniciar InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Defina um ulimit usando a ação de bootstrap (BA)

    Você também pode usar um script de ação de bootstrap (BA) para configurar o ulimit instance-controller para 65536 arquivos na criação do cluster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Ajuste de escala gerenciado

    As operações de ajuste de escala gerenciado nos clusters das versões 5.30.0 e 5.30.1 sem o Presto instalado podem causar falhas na aplicação ou fazer com que um grupo de instâncias ou uma frota de instâncias uniforme permaneça no estado ARRESTED, sobretudo quando uma operação de redução da escala verticalmente logo é seguida por uma operação de aumento da escala verticalmente.

    Como solução alternativa, escolha o Presto como um aplicativo a ser instalado ao criar um cluster com as EMR versões 5.30.0 e 5.30.1 da Amazon, mesmo que seu trabalho não exija o Presto.

  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

  • O mecanismo de banco de dados padrão para o Hue 4.6.0 éSQLite, o que causa problemas quando você tenta usar o Hue com um banco de dados externo. Para corrigir isso, defina engine na sua classificação de configuração hue-ini como mysql. Esse problema foi corrigido na EMR versão 5.30.1 da Amazon.

  • Quando você usa o Spark com a formatação de localização de partições do Hive para ler dados no Amazon S3 e executa o Spark nas EMR versões 5.30.0 a 5.36.0 e 6.2.0 a 6.9.0 da Amazon, você pode encontrar um problema que impede seu cluster de ler os dados corretamente. Isso poderá acontecer se suas partições tiverem todas as características a seguir:

    • Duas ou mais partições são verificadas na mesma tabela.

    • Pelo menos um caminho de diretório de partição é um prefixo de pelo menos outro caminho de diretório de partição, por exemplo, s3://bucket/table/p=a é um prefixo de s3://bucket/table/p=a b.

    • O primeiro caractere que segue o prefixo no outro diretório de partição tem um valor UTF -8 menor que o / caractere (U+002F). Por exemplo, o caractere de espaço (U+0020) que ocorre entre a e b em s3://bucket/table/p=a b se enquadra nessa categoria. Observe que existem 14 outros caracteres que não são de controle: !"#$%&‘()*+,-. Para obter mais informações, consulte a tabela de codificação UTF -8 e caracteres Unicode.

    Como solução alternativa para esse problema, defina a configuração spark.sql.sources.fastS3PartitionDiscovery.enabled como false na classificação spark-defaults.

Versão 5.29.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.29.0 da Amazon. As alterações são referentes à versão 5.28.1.

Data da versão inicial: 17 de janeiro de 2020

Atualizações
  • Atualizado para AWS SDK for Java a versão 1.11.682

  • Atualizado o Hive para a versão 2.3.6

  • Atualizado o Flink para a versão 1.9.1

  • Atualizado o EMRFS para a versão 2.38.0

  • Atualizado o EMR DynamoDB Connector para a versão 4.13.0

Alterações, melhorias e problemas resolvidos
  • Spark

    • Otimizações do desempenho do Spark

  • EMRFS

    • O Guia de gerenciamento é atualizado para as configurações padrão emrfs-site.xml para uma visualização consistente.

Problemas conhecidos
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.28.1

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.28.1 da Amazon. As alterações são referentes à versão 5.28.0.

Data da versão inicial: 10 de janeiro de 2020

Alterações, melhorias e problemas resolvidos
  • Spark

    • Correção de problemas de compatibilidade do Spark.

  • CloudWatch Métricas

    • Foi corrigida a publicação do Amazon CloudWatch Metrics em um EMR cluster com vários nós primários.

  • Desabilitada mensagem de log

    • Desabilitada mensagem de log falsa, “... uso de versão antiga (<4.5.8) do cliente Apache http”.

Problemas conhecidos
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.28.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.28.0 da Amazon. As alterações são referentes à 5.27.0.

Data da versão inicial: 12 de novembro de 2019

Atualizações
  • Flink atualizado para a versão 1.9.0

  • Atualizado o Hive para a versão 2.3.6

  • Atualizado MXNet para a versão 1.5.1

  • Phoenix atualizado para a versão 4.14.3

  • Presto atualizado para a versão 0.227

  • Zeppelin atualizado para a versão 0.8.2

Novos atributos
  • O Apache Hudi agora está disponível EMR para a Amazon instalar quando você cria um cluster. Para ter mais informações, consulte Hudi.

  • (25 de novembro de 2019) Agora você pode optar por executar várias etapas em paralelo para melhorar a utilização do cluster e economizar custos. Pode também cancelar etapas pendentes e em execução. Para obter mais informações, consulte Trabalhar com etapas usando o console AWS CLI e.

  • (3 de dezembro de 2019) Agora você pode criar e executar EMR clusters no AWS Outposts. AWS Outposts habilita AWS serviços, infraestrutura e modelos operacionais nativos em instalações locais. Em AWS Outposts ambientes, você pode usar as mesmas AWS APIs ferramentas e infraestrutura que usa na AWS nuvem. Para obter mais informações, consulte EMRclusters on AWS Outposts.

  • (11 de março de 2020) A partir da EMR versão 5.28.0 da Amazon, você pode criar e executar EMR clusters da Amazon em uma sub-rede de Zonas AWS Locais como uma extensão lógica de uma AWS região que suporta Zonas Locais. Uma zona local permite que os EMR recursos da Amazon e um subconjunto de AWS serviços, como serviços de computação e armazenamento, estejam localizados mais perto dos usuários, fornecendo acesso de latência muito baixa a aplicativos executados localmente. Para obter uma lista das zonas locais disponíveis, consulte Zonas locais da AWS. Para obter informações sobre como acessar as Zonas AWS Locais disponíveis, consulte Regiões, Zonas de Disponibilidade e Zonas Locais.

    No momento, as Zonas Locais não oferecem suporte a Amazon EMR Notebooks e não oferecem suporte a conexões diretamente com a Amazon EMR usando a interface VPC endpoint ()AWS PrivateLink.

Alterações, melhorias e problemas resolvidos
Problemas conhecidos
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.27.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.27.0 da Amazon. As alterações são referentes à versão 5.26.0.

Data da versão inicial: 23 de setembro de 2019

Atualizações
  • AWS SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • Tensorflow 1.14.0

  • Conectores e drivers:

    • Conector do DynamoDB 4.12.0

Novos atributos
  • (24 de outubro de 2019) Os seguintes novos recursos em EMR notebooks estão disponíveis em todos os lançamentos da AmazonEMR.

    • Agora você pode associar repositórios Git a notebooks para armazenar seus EMR notebooks em um ambiente com controle de versão. Você pode compartilhar códigos com pares e reutilizar cadernos Jupyter existentes por meio de repositórios do Git remotos. Para obter mais informações, consulte Associar repositórios Git aos Amazon EMR Notebooks no Guia de gerenciamento da Amazon. EMR

    • O utilitário nbdime agora está disponível em EMR notebooks para simplificar a comparação e mesclagem de notebooks.

    • EMRnotebooks agora são compatíveis JupyterLab. JupyterLab é um ambiente de desenvolvimento interativo baseado na Web totalmente compatível com os notebooks Jupyter. Agora você pode optar por abrir seu caderno em qualquer um dos editores de cadernos JupyterLab ou no editor de cadernos Jupyter.

  • (30 de outubro de 2019) Com EMR as versões 5.25.0 e posteriores da Amazon, você pode se conectar à interface do usuário do servidor de histórico do Spark na página de resumo do cluster ou na guia Histórico do aplicativo no console. Em vez de configurar um proxy web por meio de uma SSH conexão, você pode acessar rapidamente a interface do servidor de histórico do Spark para visualizar as métricas do aplicativo e acessar arquivos de log relevantes para clusters ativos e encerrados. Para obter mais informações, consulte Acesso fora do cluster a interfaces de usuário de aplicativos persistentes no Amazon EMR Management Guide.

Alterações, melhorias e problemas resolvidos
Problemas conhecidos
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.26.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.26.0 da Amazon. As alterações são referentes à versão 5.25.0.

Data da versão inicial: 8 de agosto de 2019

Data da última atualização: 19 de agosto de 2019

Atualizações
  • AWS SDK for Java 1.11.595

  • HBase1.4.10

  • Phoenix 4.14.2

  • Conectores e drivers:

    • Conector do DynamoDB 4.11.0

    • Conector do MariaDB 2.4.2

    • Driver Amazon Redshift 1.2.32.1056 JDBC

Novos atributos
  • (Beta) Com o Amazon EMR 5.26.0, você pode lançar um cluster que se integra ao Lake Formation. Essa integração fornece acesso refinado em nível de coluna a bancos de dados e tabelas no Glue Data Catalog. AWS Ele também permite o login único federado em EMR notebooks ou Apache Zeppelin a partir de um sistema de identidade corporativo. Para obter mais informações, consulte Integração da Amazon EMR com AWS Lake Formation (Beta).

  • (19 de agosto de 2019) O acesso público de EMR bloqueio da Amazon agora está disponível em todas as EMR versões da Amazon que oferecem suporte a grupos de segurança. Bloquear o acesso público é uma configuração de toda a conta aplicada a cada AWS região. Bloquear o acesso público impede que um cluster seja iniciado quando qualquer grupo de segurança associado ao cluster tem uma regra que permite tráfego de entrada de IPv4 0.0.0.0/0 ouIPv6:: /0 (acesso público) em uma porta, a menos que uma porta seja especificada como uma exceção. A porta 22 é uma exceção por padrão. Para obter mais informações, consulte Usando o Amazon EMR Block Public Access no Amazon EMR Management Guide.

Alterações, melhorias e problemas resolvidos
  • Notebooks do EMR

    • Com a EMR versão 5.26.0 e versões posteriores, o EMR Notebooks oferece suporte a bibliotecas Python com escopo de notebook, além das bibliotecas Python padrão. Você pode instalar bibliotecas com escopo de caderno de dentro do editor de caderno sem precisar recriar um cluster ou reanexar um caderno a um cluster. As bibliotecas com escopo de caderno são criadas em um ambiente Python virtual para serem aplicadas somente à sessão de caderno atual. Isso permite isolar as dependências do caderno. Para obter mais informações, consulte Usando bibliotecas com escopo de notebook no Amazon EMR Management Guide.

  • EMRFS

    • Você pode ativar um recurso ETag de verificação (Beta) configurando fs.s3.consistent.metadata.etag.verification.enabled comotrue. Com esse recurso, EMRFS usa o Amazon S3 ETags para verificar se os objetos que estão sendo lidos são a versão mais recente disponível. Esse recurso é útil para casos de read-after-update uso em que os arquivos no Amazon S3 são sobrescritos, mantendo o mesmo nome. Atualmente, esse recurso de ETag verificação não funciona com o S3 Select. Para obter mais informações, consulte Configurar visualização consistente.

  • Spark

    • As seguintes otimizações agora estão habilitadas por padrão: remoção dinâmica de partições, DISTINCT antes, melhorias na inferência de estatísticas do SQL plano para consultas JOIN seguidasINTERSECT, nivelamento de DISTINCT subconsultas escalares, reordenamento otimizado de junções e junção com filtro bloom. Para obter mais informações, consulte Otimizar a performance do Spark.

    • Aprimorada a geração de código de estágio completo para Sort-Merge Join.

    • Aprimorado o fragmento de consulta e a reutilização de subconsultas.

    • Melhorias na pré-alocação de executores na inicialização do Spark.

    • As junções com filtro de Bloom não são mais aplicadas quando o lado menor da junção inclui uma dica de transmissão.

  • Tez

    • Resolvido um problema com o Tez. O Tez UI agora funciona em um EMR cluster da Amazon com vários nós primários.

Problemas conhecidos
  • Os recursos aprimorados de geração de código em todo o estágio de Sort Merge Join podem aumentar a pressão de memória quando habilitados. Essa otimização melhora a performance, mas pode resultar em novas tentativas ou falhas de trabalho se spark.yarn.executor.memoryOverheadFactor não for ajustado para fornecer memória suficiente. Para desabilitar esse atributo, defina spark.sql.sortMergeJoinExec.extendedCodegen.enabled como falso.

  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.25.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.25.0 da Amazon. As alterações são referentes à versão 5.24.1.

Data da versão inicial: 17 de julho de 2019

Data da última atualização: 30 de outubro de 2019

Amazon EMR 5.25.0

Atualizações
  • AWS SDK for Java 1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • Zookeeper 3.4.14

Novos atributos
  • (30 de outubro de 2019) A partir da EMR versão 5.25.0 da Amazon, você pode se conectar à interface do usuário do servidor de histórico do Spark na página de resumo do cluster ou na guia Histórico do aplicativo no console. Em vez de configurar um proxy web por meio de uma SSH conexão, você pode acessar rapidamente a interface do servidor de histórico do Spark para visualizar as métricas do aplicativo e acessar arquivos de log relevantes para clusters ativos e encerrados. Para obter mais informações, consulte Acesso fora do cluster a interfaces de usuário de aplicativos persistentes no Amazon EMR Management Guide.

Alterações, melhorias e problemas resolvidos
  • Spark

    • Aprimorada a performance de algumas junções usando filtros de Bloom para pré-filtrar as entradas. A otimização é desabilitada por padrão e pode ser habilitada com a definição do parâmetro spark.sql.bloomFilterJoin.enabled de configuração do Spark como true.

    • Aprimorada a performance do agrupamento por colunas do tipo string.

    • Melhorou a memória padrão do executor Spark e a configuração dos núcleos dos tipos de instância R4 para clusters sem instalação. HBase

    • Resolvido um problema anterior com o atributo de remoção dinâmica de partições, em que a tabela removida precisava estar no lado esquerdo da junção.

    • Aprimorado DISTINCT antes da INTERSECT otimização para ser aplicado a casos adicionais envolvendo aliases.

    • Inferência aprimorada das estatísticas do SQL plano para DISTINCT consultas JOIN seguidas. Essa melhoria é desabilitada por padrão e pode ser habilitada pela definição do parâmetro spark.sql.statsImprovements.enabled de configuração do Spark como true. Essa otimização é exigida pelo atributo Distinct antes do Intersect e será habilitada automaticamente quando spark.sql.optimizer.distinctBeforeIntersect.enabled estiver definido como true.

    • Otimizada a ordem de junção com base no tamanho da tabela e nos filtros. Essa otimização é desativada por padrão e pode ser ativada com a definição do parâmetro spark.sql.optimizer.sizeBasedJoinReorder.enabled de configuração do Spark como true.

    Para obter mais informações, consulte Otimizar a performance do Spark.

  • EMRFS

    • A EMRFS configuração,fs.s3.buckets.create.enabled, agora está desativada por padrão. Por meio de testes, descobrimos que a desabilitação dessa configuração melhora a performance e evita a criação não intencional de buckets do S3. Se sua aplicação depende dessa funcionalidade, você pode habilitá-la definindo a propriedade fs.s3.buckets.create.enabled como true na classificação de configuração emrfs-site. Para obter informações, consulte Supplying a Configuration when Creating a Cluster.

  • Melhorias na criptografia de disco local e na criptografia do S3 nas configurações de segurança (5 de agosto de 2019)

    • Separadas as configurações de criptografia do Amazon S3 das configurações de criptografia de disco local na configuração de segurança.

    • Foi adicionada uma opção para ativar a EBS criptografia com a versão 5.24.0 e posterior. Selecionar essa opção criptografa o volume do dispositivo raiz, além dos volumes de armazenamento. As versões anteriores exigiam o uso de um recurso personalizado AMI para criptografar o volume do dispositivo raiz.

    • Para obter mais informações, consulte Opções de criptografia no Amazon EMR Management Guide.

Problemas conhecidos
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.24.1

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.24.1 da Amazon. As alterações são referentes à versão 5.24.0.

Data da versão inicial: 26 de junho de 2019

Alterações, melhorias e problemas resolvidos
  • Atualizou o Amazon Linux padrão AMI para Amazon EMR para incluir atualizações importantes de segurança do kernel Linux, incluindo o problema de TCP SACK negação de serviço (AWS-2019-005).

Problemas conhecidos
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.24.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.24.0 da Amazon. As alterações são referentes à versão 5.23.0.

Data da versão inicial: 11 de junho de 2019

Data da última atualização: 5 de agosto de 2019

Atualizações
  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • AWS SDK for Java 1.11.546

  • Conectores e drivers:

    • Conector do DynamoDB 4.9.0

    • Conector do MariaDB 2.4.1

    • Driver Amazon Redshift 1.2.27.1051 JDBC

Alterações, melhorias e problemas resolvidos
  • Spark

    • Adicionada otimização para remover partições dinamicamente. A otimização está desabilitada por padrão. Para habilitá-la, defina o parâmetro spark.sql.dynamicPartitionPruning.enabled de configuração do Spark como true.

    • Aprimorada a performance de consultas INTERSECT. Essa otimização está desabilitada por padrão. Para habilitá-la, defina o parâmetro spark.sql.optimizer.distinctBeforeIntersect.enabled de configuração do Spark como true.

    • Adicionada otimização para nivelar subconsultas escalares com agregados que usam a mesma relação. A otimização está desabilitada por padrão. Para habilitá-la, defina o parâmetro spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled de configuração do Spark como true.

    • Aprimorada a geração de código em todo o estágio.

    Para obter mais informações, consulte Otimizar a performance do Spark.

  • Melhorias na criptografia de disco local e na criptografia do S3 nas configurações de segurança (5 de agosto de 2019)

    • Separadas as configurações de criptografia do Amazon S3 das configurações de criptografia de disco local na configuração de segurança.

    • Foi adicionada uma opção para ativar a EBS criptografia. Selecionar essa opção criptografa o volume do dispositivo raiz, além dos volumes de armazenamento. As versões anteriores exigiam o uso de um recurso personalizado AMI para criptografar o volume do dispositivo raiz.

    • Para obter mais informações, consulte Opções de criptografia no Amazon EMR Management Guide.

Problemas conhecidos
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.23.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.23.0 da Amazon. As alterações são referentes à versão 5.22.0.

Data da versão inicial: 1.º de abril de 2019

Data da última atualização: 30 de abril de 2019

Atualizações
  • AWS SDK for Java 1.11.519

Novos atributos
  • (30 de abril de 2019) Com o Amazon EMR 5.23.0 e versões posteriores, você pode iniciar um cluster com três nós principais para oferecer suporte à alta disponibilidade de aplicativos como YARN Resource Manager, Spark HDFS NameNode, Hive e Ganglia. O nó primário não é mais um possível ponto de falha único com esse recurso. Se um dos nós primários falhar, a Amazon EMR automaticamente passa para um nó primário em espera e substitui o nó primário com falha por um novo com as mesmas ações de configuração e bootstrap. Para obter mais informações, consulte Plan and Configure Primary Nodes.

Problemas conhecidos
  • Tez UI (corrigido na EMR versão 5.26.0 da Amazon)

    O Tez UI não funciona em um EMR cluster com vários nós primários.

  • Hue (corrigido na EMR versão 5.24.0 da Amazon)

    • O Hue executado na Amazon EMR não oferece suporte ao Solr. A partir da EMR versão 5.20.0 da Amazon, um problema de configuração incorreta faz com que o Solr seja ativado e uma mensagem de erro inofensiva apareça semelhante à seguinte:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Para evitar que a mensagem de erro do Solr seja exibida:

      1. Conecte-se à linha de comando do nó primário usando SSH o.

      2. Use um editor de texto para abrir o arquivo hue.ini. Por exemplo: .

        sudo vim /etc/hue/conf/hue.ini

      3. Pesquise o termo appblacklist e modifique a linha para o seguinte:

        appblacklist = search
      4. Salve as alterações e reinicie o Hue, conforme mostrado no exemplo a seguir:

        sudo stop hue; sudo start hue
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.22.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.22.0 da Amazon. As alterações são referentes à versão 5.21.0.

Importante

A partir da EMR versão 5.22.0 da Amazon, a Amazon EMR usa o AWS Signature versão 4 exclusivamente para autenticar solicitações para o Amazon S3. As EMR versões anteriores da Amazon usam a AWS Signature Version 2 em alguns casos, a menos que as notas de lançamento indiquem que a Signature Version 4 é usada exclusivamente. Para obter mais informações, consulte Autenticação de solicitações (AWS assinatura versão 4) e Solicitações de autenticação (AWS assinatura versão 2) no Guia do desenvolvedor do Amazon Simple Storage Service.

Data da versão inicial: 20 de março de 2019

Atualizações
  • Flink 1.7.1

  • HBase1.4.9

  • Oozie 5.1.0

  • Phoenix 4.14.1

  • Zeppelin 0.8.1

  • Conectores e drivers:

    • Conector do DynamoDB 4.8.0

    • Conector do MariaDB 2.2.6

    • Driver Amazon Redshift 1.2.20.1043 JDBC

Novos atributos
  • Modificou a EBS configuração padrão para tipos de EC2 instância com armazenamento EBS somente. Quando você cria um cluster usando a EMR versão 5.22.0 e posterior da Amazon, a quantidade padrão de EBS armazenamento aumenta com base no tamanho da instância. Além disso, dividimos o aumento do armazenamento em vários volumes, proporcionando maior IOPS desempenho. Se quiser usar uma configuração de armazenamento de EBS instância diferente, você pode especificá-la ao criar um EMR cluster ou adicionar nós a um cluster existente. Para obter mais informações sobre a quantidade de armazenamento e o número de volumes alocados por padrão para cada tipo de instância, consulte EBSArmazenamento padrão para instâncias no Amazon EMR Management Guide.

Alterações, melhorias e problemas resolvidos
  • Spark

    • Introduziu uma nova propriedade de configuração para o Spark emYARN,spark.yarn.executor.memoryOverheadFactor. O valor dessa propriedade é um fator de escala que define o valor da sobrecarga de memória como uma porcentagem da memória do executor, com um mínimo de 384 MB. Se a sobrecarga de memória for definida explicitamente usando spark.yarn.executor.memoryOverhead, essa propriedade não terá efeito. O valor padrão é 0.1875, representando 18,75%. Esse padrão para a Amazon EMR deixa mais espaço nos YARN contêineres para sobrecarga de memória do executor do que o padrão de 10% definido internamente pelo Spark. O EMR padrão da Amazon de 18,75% mostrou empiricamente menos falhas relacionadas à memória nos benchmarks -DS. TPC

    • Backport SPARK-26316 para melhorar o desempenho.

  • Nas EMR versões 5.19.0, 5.20.0 e 5.21.0 da Amazon, os rótulos dos YARN nós são armazenados em um diretório. HDFS Em algumas situações, isso leva a atrasos na inicialização do nó central causando, em seguida, tempo limite do cluster e falha na inicialização. A partir do Amazon EMR 5.22.0, esse problema foi resolvido. YARNos rótulos dos nós são armazenados no disco local de cada nó do cluster, evitando dependências emHDFS.

Problemas conhecidos
  • Hue (corrigido na EMR versão 5.24.0 da Amazon)

    • O Hue executado na Amazon EMR não oferece suporte ao Solr. A partir da EMR versão 5.20.0 da Amazon, um problema de configuração incorreta faz com que o Solr seja ativado e uma mensagem de erro inofensiva apareça semelhante à seguinte:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Para evitar que a mensagem de erro do Solr seja exibida:

      1. Conecte-se à linha de comando do nó primário usando SSH o.

      2. Use um editor de texto para abrir o arquivo hue.ini. Por exemplo: .

        sudo vim /etc/hue/conf/hue.ini

      3. Pesquise o termo appblacklist e modifique a linha para o seguinte:

        appblacklist = search
      4. Salve as alterações e reinicie o Hue, conforme mostrado no exemplo a seguir:

        sudo stop hue; sudo start hue
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.21.1

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.21.1 da Amazon. As alterações são referentes à versão 5.21.0.

Data da versão inicial: 18 de julho de 2019

Alterações, melhorias e problemas resolvidos
  • Atualizou o Amazon Linux padrão AMI para Amazon EMR para incluir atualizações importantes de segurança do kernel Linux, incluindo o problema de TCP SACK negação de serviço (AWS-2019-005).

Problemas conhecidos
  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.21.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.21.0 da Amazon. As alterações são referentes à versão 5.20.0.

Data da versão inicial: 18 de fevereiro de 2019

Data da última atualização: 3 de abril de 2019

Atualizações
  • Flink 1.7.0

  • Presto 0.215

  • AWS SDK for Java 1.11.479

Novos atributos
  • (3 de abril de 2019) Com a Amazon EMR versão 5.21.0 e posterior, você pode substituir as configurações do cluster e especificar classificações de configuração adicionais para cada grupo de instâncias em um cluster em execução. Você faz isso usando o EMR console da Amazon, o AWS Command Line Interface (AWS CLI) ou AWS SDK o. Para obter mais informações, consulte Supplying a Configuration for an Instance Group in a Running Cluster.

Alterações, melhorias e problemas resolvidos
Problemas conhecidos
  • Hue (corrigido na EMR versão 5.24.0 da Amazon)

    • O Hue executado na Amazon EMR não oferece suporte ao Solr. A partir da EMR versão 5.20.0 da Amazon, um problema de configuração incorreta faz com que o Solr seja ativado e uma mensagem de erro inofensiva apareça semelhante à seguinte:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Para evitar que a mensagem de erro do Solr seja exibida:

      1. Conecte-se à linha de comando do nó primário usando SSH o.

      2. Use um editor de texto para abrir o arquivo hue.ini. Por exemplo: .

        sudo vim /etc/hue/conf/hue.ini

      3. Pesquise o termo appblacklist e modifique a linha para o seguinte:

        appblacklist = search
      4. Salve as alterações e reinicie o Hue, conforme mostrado no exemplo a seguir:

        sudo stop hue; sudo start hue
  • Tez

    • Esse problema foi corrigido no Amazon EMR 5.22.0.

      Quando você se conecta à interface do usuário do Tez em http://MasterDNS:8080/tez-ui por meio de uma SSH conexão com o nó primário do cluster, surge o erro “Falha na operação do adaptador - Timeline server () está fora de alcance. ATS “Está inativo ou não CORS está ativado” aparece ou as tarefas mostram inesperadamente N/A.

      Isso é causado pela interface do usuário do Tez fazendo solicitações ao YARN Timeline Server usando, localhost em vez do nome do host, o nó primário. Como solução alternativa, um script está disponível para execução como ação ou etapa de bootstrap. O script atualiza o nome do host no arquivo configs.env do Tez. Para obter mais informações e a localização do script, consulte Instruções de bootstrap.

  • Nas EMR versões 5.19.0, 5.20.0 e 5.21.0 da Amazon, os rótulos dos YARN nós são armazenados em um diretório. HDFS Em algumas situações, isso leva a atrasos na inicialização do nó central causando, em seguida, tempo limite do cluster e falha na inicialização. A partir do Amazon EMR 5.22.0, esse problema foi resolvido. YARNos rótulos dos nós são armazenados no disco local de cada nó do cluster, evitando dependências emHDFS.

  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.20.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.20.0 da Amazon. As alterações são referentes à versão 5.19.0.

Data da versão inicial: 18 de dezembro de 2018

Data da última atualização: 22 de janeiro de 2019

Atualizações
  • Flink 1.6.2

  • HBase1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • AWS SDK for Java 1.11.461

Novos atributos
  • (22 de janeiro de 2019) O Kerberos na Amazon EMR foi aprimorado para oferecer suporte à autenticação de diretores externos. KDC Isso centraliza o gerenciamento principal porque vários clusters podem compartilhar um único externoKDC. Além disso, o externo KDC pode ter uma relação de confiança entre regiões com um domínio do Active Directory. Isso permite que todos os clusters autentiquem principais do Active Directory. Para obter mais informações, consulte Usar a autenticação Kerberos no Amazon EMR Management Guide.

Alterações, melhorias e problemas resolvidos
  • Amazon Linux padrão AMI para Amazon EMR

    • O pacote Python3 foi atualizado do python 3.4 para 3.6.

  • O committer EMRFS otimizado para S3

  • Hive

  • Glue com Spark e Hive

    • Na EMR versão 5.20.0 ou posterior, a remoção paralela de partições é ativada automaticamente para o Spark e o Hive quando o AWS Glue Data Catalog é usado como metastore. Essa alteração reduz significativamente o tempo de planejamento de consultas ao executar várias solicitações em paralelo para recuperar partições. O número total de segmentos que podem ser executados simultaneamente varia entre 1 e 10. O valor padrão é 5, que é uma configuração recomendada. Você pode alterá-lo especificando a propriedade aws.glue.partition.num.segments na classificação de configuração hive-site. Se ocorrer controle de utilização, você poderá desativar o atributo alterando o valor para 1. Para obter mais informações, consulte a Estrutura de segmentos do AWS Glue.

Problemas conhecidos
  • Hue (corrigido na EMR versão 5.24.0 da Amazon)

    • O Hue executado na Amazon EMR não oferece suporte ao Solr. A partir da EMR versão 5.20.0 da Amazon, um problema de configuração incorreta faz com que o Solr seja ativado e uma mensagem de erro inofensiva apareça semelhante à seguinte:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Para evitar que a mensagem de erro do Solr seja exibida:

      1. Conecte-se à linha de comando do nó primário usando SSH o.

      2. Use um editor de texto para abrir o arquivo hue.ini. Por exemplo: .

        sudo vim /etc/hue/conf/hue.ini

      3. Pesquise o termo appblacklist e modifique a linha para o seguinte:

        appblacklist = search
      4. Salve as alterações e reinicie o Hue, conforme mostrado no exemplo a seguir:

        sudo stop hue; sudo start hue
  • Tez

    • Esse problema foi corrigido no Amazon EMR 5.22.0.

      Quando você se conecta à interface do usuário do Tez em http://MasterDNS:8080/tez-ui por meio de uma SSH conexão com o nó primário do cluster, surge o erro “Falha na operação do adaptador - Timeline server () está fora de alcance. ATS “Está inativo ou não CORS está ativado” aparece ou as tarefas mostram inesperadamente N/A.

      Isso é causado pela interface do usuário do Tez fazendo solicitações ao YARN Timeline Server usando, localhost em vez do nome do host, o nó primário. Como solução alternativa, um script está disponível para execução como ação ou etapa de bootstrap. O script atualiza o nome do host no arquivo configs.env do Tez. Para obter mais informações e a localização do script, consulte Instruções de bootstrap.

  • Nas EMR versões 5.19.0, 5.20.0 e 5.21.0 da Amazon, os rótulos dos YARN nós são armazenados em um diretório. HDFS Em algumas situações, isso leva a atrasos na inicialização do nó central causando, em seguida, tempo limite do cluster e falha na inicialização. A partir do Amazon EMR 5.22.0, esse problema foi resolvido. YARNos rótulos dos nós são armazenados no disco local de cada nó do cluster, evitando dependências emHDFS.

  • Problema conhecido em clusters com vários nós primários e autenticação Kerberos

    Se você executar clusters com vários nós primários e autenticação Kerberos nas EMR versões 5.20.0 e posteriores da Amazon, poderá encontrar problemas com operações de cluster, como redução de escala ou envio de etapas, depois que o cluster estiver em execução por algum tempo. O período depende do período de validade do tíquete do Kerberos que você definiu. O problema de redução da escala verticalmente afeta tanto as solicitações de redução automática quanto as de reduções explícitas que você enviou. Operações adicionais de cluster também podem ser afetadas.

    Solução:

    • SSHcomo hadoop usuário do nó primário principal do EMR cluster com vários nós primários.

    • Execute o comando a seguir para renovar o tíquete do Kerberos para o usuário do hadoop.

      kinit -kt <keytab_file> <principal>

      Normalmente, o arquivo keytab está localizado em /etc/hadoop.keytab e a entidade principal está na forma de hadoop/<hostname>@<REALM>.

    nota

    Essa solução alternativa entrará em vigor durante o período de validade do tíquete do Kerberos. Essa duração é de 10 horas por padrão, mas pode ser configurada pelas definições do Kerberos. Você deve executar novamente o comando acima quando o tíquete do Kerberos expirar.

Versão 5.19.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.19.0 da Amazon. As alterações são referentes à versão 5.18.0.

Data da versão inicial: 7 de novembro de 2018

Data da última atualização: 19 de novembro de 2018

Atualizações
  • Hadoop 2.8.5

  • Flink 1.6.1

  • JupyterHub 0.9.4

  • MXNet1.3.0

  • Presto 0.212

  • TensorFlow 1.11.0

  • Zookeeper 3.4.13

  • AWS SDK for Java 1.11.433

Novos atributos
  • (19 de novembro de 2018) O EMR Notebooks é um ambiente gerenciado baseado no Jupyter Notebook. Ele suporta os kernels mágicos do Spark para PySpark, Spark, SQL Spark R e Scala. EMROs notebooks podem ser usados com clusters criados usando a EMR versão 5.18.0 e posterior da Amazon. Para obter mais informações, consulte Usando EMR notebooks no Guia de EMR gerenciamento da Amazon.

  • O committer EMRFS otimizado para S3 está disponível ao gravar arquivos Parquet usando o Spark e. EMRFS Esse confirmador melhora a performance de gravação. Para ter mais informações, consulte Use o committer EMRFS otimizado para S3.

Alterações, melhorias e problemas resolvidos
  • YARN

  • Amazon Linux padrão AMI para Amazon EMR

    • ruby18, php56, e gcc48 não são mais instalados por padrão. Eles podem ser instalados, se desejado, usando yum.

    • A gem do ruby aws-sdk não é mais instalada por padrão. Ela pode ser instalada usando gem install aws-sdk, se desejado. Componentes específicos também podem ser instalados. Por exemplo, gem install aws-sdk-s3.

Problemas conhecidos
  • EMRNotebooks — Em algumas circunstâncias, com vários editores de notebook abertos, o editor de notebook pode parecer incapaz de se conectar ao cluster. Se isso acontecer, limpe os cookies do navegador e reabra os editores de cadernos.

  • CloudWatch ContainerPending Escalabilidade métrica e automática — (corrigida na versão 5.20.0) A Amazon EMR pode emitir um valor negativo para. ContainerPending Se ContainerPending for usado em uma regra de escalabilidade automática, a escalabilidade automática não se comportará conforme esperado. Evite usar ContainerPending com escalabilidade automática.

  • Nas EMR versões 5.19.0, 5.20.0 e 5.21.0 da Amazon, os rótulos dos YARN nós são armazenados em um diretório. HDFS Em algumas situações, isso leva a atrasos na inicialização do nó central causando, em seguida, tempo limite do cluster e falha na inicialização. A partir do Amazon EMR 5.22.0, esse problema foi resolvido. YARNos rótulos dos nós são armazenados no disco local de cada nó do cluster, evitando dependências emHDFS.

Versão 5.18.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.18.0 da Amazon. As alterações são referentes à versão 5.17.0.

Data da versão inicial: 24 de outubro de 2018

Atualizações
  • Flink 1.6.0

  • HBase1.4.7

  • Presto 0.210

  • Spark 2.3.2

  • Zeppelin 0.8.0

Novos atributos
  • A partir do Amazon EMR 5.18.0, você pode usar o repositório de EMR artefatos da Amazon para criar seu código de trabalho com base nas versões exatas das bibliotecas e dependências que estão disponíveis em versões específicas da Amazon. EMR Para ter mais informações, consulte Verificar dependências usando o repositório de artefatos do Amazon EMR.

Alterações, melhorias e problemas resolvidos

Versão 5.17.1

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.17.1 da Amazon. As alterações são referentes à versão 5.17.0.

Data da versão inicial: 18 de julho de 2019

Alterações, melhorias e problemas resolvidos
  • Atualizou o Amazon Linux padrão AMI para Amazon EMR para incluir atualizações importantes de segurança do kernel Linux, incluindo o problema de TCP SACK negação de serviço (AWS-2019-005).

Versão 5.17.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.17.0 da Amazon. As alterações são referentes à versão 5.16.0.

Data da versão inicial: 30 de agosto de 2018

Atualizações
  • Flink 1.5.2

  • HBase1.4.6

  • Presto 0.206

Novos atributos
  • Adicionado suporte para Tensorflow. Para ter mais informações, consulte TensorFlow.

Alterações, melhorias e problemas resolvidos
Problemas conhecidos
  • Quando você cria um cluster kerberizado com o Livy instalado, o Livy apresenta falha com um erro em que a autenticação simples não está habilitada. A reinicialização do servidor do Livy resolve o problema. Como solução alternativa, adicione uma etapa durante a criação do cluster que execute sudo restart livy-server no nó primário.

  • Se você usa um Amazon Linux personalizado AMI baseado em um Amazon Linux AMI com uma data de criação de 11/08/2018, o servidor Oozie falhará ao iniciar. Se você usa o Oozie, crie um personalizado AMI com base em um Amazon Linux AMI ID com uma data de criação diferente. Você pode usar o AWS CLI comando a seguir para retornar uma lista de imagens IDs para todo o HVM Amazon Linux AMIs com uma versão 2018.03, junto com a data de lançamento, para que você possa escolher um Amazon Linux apropriado AMI como base. MyRegion Substitua pelo seu identificador de região, como us-west-2.

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

Versão 5.16.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.16.0 da Amazon. As alterações são referentes à versão 5.15.0.

Data da versão inicial: 19 de julho de 2018

Atualizações
  • Hadoop 2.8.4

  • Flink 1.5.0

  • Livy 0.5.0

  • MXNet1.2.0

  • Phoenix 4.14.0

  • Presto 0.203

  • Spark 2.3.1

  • AWS SDK for Java 1.11.336

  • CUDA9.2

  • Controlador Redshift 1.2.15.1025 JDBC

Alterações, melhorias e problemas resolvidos
Problemas conhecidos
  • Essa versão não é compatível com os tipos de instância c1.medium ou m1.small. Os clusters que usam qualquer um desses tipos de instância não são iniciados. Como solução alternativa, especifique um tipo de instância diferente ou use uma versão diferente.

  • Quando você cria um cluster kerberizado com o Livy instalado, o Livy apresenta falha com um erro em que a autenticação simples não está habilitada. A reinicialização do servidor do Livy resolve o problema. Como solução alternativa, adicione uma etapa durante a criação do cluster que execute sudo restart livy-server no nó primário.

  • Depois que o nó primário for reinicializado ou o controlador de instância for reiniciado, as CloudWatch métricas não serão coletadas e o recurso de escalabilidade automática não estará disponível nas EMR versões 5.14.0, 5.15.0 ou 5.16.0 da Amazon. Esse problema foi corrigido no Amazon EMR 5.17.0.

Versão 5.15.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.15.0 da Amazon. As alterações são referentes à versão 5.14.0.

Data da versão inicial: 21 de junho de 2018

Atualizações
  • Atualizado HBase para 1.4.4

  • Atualizado Hive para 2.3.3

  • Atualizado Hue para 4.2.0

  • Atualizado Oozie para 5.0.0

  • Atualizado Zookeeper para 3.4.12

  • Atualizado para AWS SDK 1.11.333

Alterações, melhorias e problemas resolvidos
  • Hive

  • Hue

    • Atualizado o Hue para se autenticar corretamente com o Livy quando o Kerberos está habilitado. Agora, o Livy é suportado ao usar o Kerberos com a Amazon. EMR

  • JupyterHub

    • Atualizado JupyterHub para que a Amazon EMR instale bibliotecas de LDAP clientes por padrão.

    • Corrigido um erro no script que gera certificados autoassinados.

Problemas conhecidos
  • Essa versão não é compatível com os tipos de instância c1.medium ou m1.small. Os clusters que usam qualquer um desses tipos de instância não são iniciados. Como solução alternativa, especifique um tipo de instância diferente ou use uma versão diferente.

  • Depois que o nó primário for reinicializado ou o controlador de instância for reiniciado, as CloudWatch métricas não serão coletadas e o recurso de escalabilidade automática não estará disponível nas EMR versões 5.14.0, 5.15.0 ou 5.16.0 da Amazon. Esse problema foi corrigido no Amazon EMR 5.17.0.

Versão 5.14.1

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.14.1 da Amazon. As alterações são referentes à versão 5.14.0.

Data da versão inicial: 17 de outubro de 2018

Atualizou o padrão da Amazon AMI EMR para resolver possíveis vulnerabilidades de segurança.

Versão 5.14.0

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.14.0 da Amazon. As alterações são referentes à versão 5.13.0.

Data da versão inicial: 4 de junho de 2018

Atualizações
  • Atualizado Apache Flink para 1.4.2

  • Apache MXnet atualizado para 1.1.0

  • Atualizado Apache Sqoop para 1.4.7

Novos atributos
  • JupyterHub Suporte adicionado. Para ter mais informações, consulte JupyterHub.

Alterações, melhorias e problemas resolvidos
  • EMRFS

    • A userAgent sequência de caracteres nas solicitações para o Amazon S3 foi atualizada para conter as informações de usuário e grupo do principal invocador. Isso pode ser usado com AWS CloudTrail registros para um rastreamento de solicitações mais abrangente.

  • HBase

    • Inclui HBASE-20447, que soluciona um problema que pode causar problemas de cache, especialmente com regiões divididas.

  • MXnet

    • Adicionadas bibliotecas OpenCV.

  • Spark

    • Quando o Spark grava arquivos Parquet em um local do Amazon S3 EMRFS usando, FileOutputCommitter o algoritmo foi atualizado para usar a versão 2 em vez da versão 1. Isso reduz o número de renomeações, o que melhora a performance da aplicação. Essa alteração não afeta:

      • Aplicações diferentes do Spark.

      • Aplicativos que gravam em outros sistemas de arquivos, como HDFS (que ainda usam a versão 1 do FileOutputCommitter).

      • Aplicativos que usam outros formatos de saída, como texto ou csv, que já usam gravação EMRFS direta.

Problemas conhecidos
  • JupyterHub

    • O uso de classificações de configuração para configurar JupyterHub notebooks Jupyter individuais ao criar um cluster não é suportado. Edite manualmente o arquivo jupyterhub_config.py e os arquivos jupyter_notebook_config.py para cada usuário. Para ter mais informações, consulte Configurando JupyterHub.

    • JupyterHub falha ao iniciar em clusters dentro de uma sub-rede privada, falhando com a mensagem. Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' Isso é causado por um erro no script que gera certificados autoassinados. Use a solução alternativa a seguir para gerar certificados autoassinados. Todos os comandos são executados enquanto estão conectados ao nó primário.

      1. Copie o script de geração de certificados do contêiner para o nó primário:

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. Use um editor de texto para alterar a linha 23 e mudar o nome de host público para o nome deo host local, conforme mostrado abaixo:

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. Execute o script para gerar certificados autoassinados:

        sudo bash ./gen_self_signed_cert.sh
      4. Mova os arquivos de certificado que o script gera para o diretório /etc/jupyter/conf/:

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      Você pode acessar tail o jupyter.log arquivo para verificar se ele JupyterHub foi reiniciado e está retornando um código de resposta 200. Por exemplo: .

      tail -f /var/log/jupyter/jupyter.log

      Essa ação deve retornar uma resposta semelhante à seguinte:

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
  • Depois que o nó primário for reinicializado ou o controlador de instância for reiniciado, as CloudWatch métricas não serão coletadas e o recurso de escalabilidade automática não estará disponível nas EMR versões 5.14.0, 5.15.0 ou 5.16.0 da Amazon. Esse problema foi corrigido no Amazon EMR 5.17.0.

Versão 5.13.0

As notas de lançamento a seguir incluem informações para a EMR versão 5.13.0 da Amazon. As alterações são referentes à versão 5.12.0.

Atualizações
  • Atualizado Spark para 2.3.0

  • Atualizado HBase para 1.4.2

  • Atualizado Presto para 0.194

  • Atualizado para AWS SDK for Java 1.11.297

Alterações, melhorias e problemas resolvidos
  • Hive

    • Portado para trás HIVE-15436. Hive aprimorado APIs para retornar somente visualizações.

Problemas conhecidos
  • MXNetatualmente não tem bibliotecas OpenCV.

Versão 5.12.2

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.12.2 da Amazon. As alterações são referentes à versão 5.12.1.

Data da versão inicial: 29 de agosto de 2018

Alterações, melhorias e problemas resolvidos
  • Esta versão aborda uma possível vulnerabilidade de segurança.

Versão 5.12.1

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.12.1 da Amazon. As alterações são referentes à versão 5.12.0.

Data da versão inicial: 29 de março de 2018

Alterações, melhorias e problemas resolvidos
  • Atualizou o kernel Amazon Linux do defaultAmazon Linux AMI para Amazon EMR para resolver possíveis vulnerabilidades.

Versão 5.12.0

As notas de lançamento a seguir incluem informações para a EMR versão 5.12.0 da Amazon. As alterações são referentes à versão 5.11.1.

Atualizações
Alterações, melhorias e problemas resolvidos
  • Hadoop

    • A propriedade yarn.resourcemanager.decommissioning.timeout foi alterada para yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs. Você pode usar essa propriedade para personalizar a redução da escala do cluster verticalmente. Para obter mais informações, consulte Cluster Scale-Down no Amazon EMR Management Guide.

    • O Hadoop CLI adicionou a -d opção ao comando cp (copiar), que especifica a cópia direta. Você pode usar isso para evitar a criação de um arquivo .COPYING intermediário, o que torna mais rápida a cópia de dados entre o Amazon S3. Para obter mais informações, consulte HADOOP-12384.

  • Pig

    • Adicionada a classificação de configuração pig-env, que simplifica a configuração das propriedades do ambiente do Pig. Para ter mais informações, consulte Configurar aplicações.

  • Presto

    • Adicionada a classificação de configuração presto-connector-redshift, que pode ser usada para configurar os valores no arquivo de configuração redshift.properties do Presto. Para obter mais informações, consulte Conector do Redshift na documentação do Presto e Configurar aplicações.

    • O suporte do Presto para EMRFS foi adicionado e é a configuração padrão. As EMR versões anteriores da Amazon usavam o PrestOS3FileSystem, que era a única opção. Para ter mais informações, consulte EMRFSe configuração do PrestOS3 FileSystem.

      nota

      Se você consultar dados subjacentes no Amazon S3 com a EMR versão 5.12.0 da Amazon, podem ocorrer erros do Presto. Isso acontece porque o Presto não consegue obter valores de classificação de configuração em emrfs-site.xml. Como solução alternativa, crie um subdiretório emrfs em usr/lib/presto/plugin/hive-hadoop2/ e crie um link simbólico em usr/lib/presto/plugin/hive-hadoop2/emrfs para o arquivo /usr/share/aws/emr/emrfs/conf/emrfs-site.xml existente. Em seguida, reinicie o processo presto-server (sudo presto-server stop seguido por sudo presto-server start).

  • Spark

Problemas conhecidos
  • MXNetnão inclui bibliotecas OpenCV.

  • O SparkR não está disponível para clusters criados usando um customizado porque o AMI R não é instalado por padrão nos nós do cluster.

Versão 5.11.3

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.11.3 da Amazon. As alterações são referentes à versão 5.11.2.

Data da versão inicial: 18 de julho de 2019

Alterações, melhorias e problemas resolvidos
  • Atualizou o Amazon Linux padrão AMI para Amazon EMR para incluir atualizações importantes de segurança do kernel Linux, incluindo o problema de TCP SACK negação de serviço (AWS-2019-005).

Versão 5.11.2

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.11.2 da Amazon. As alterações são referentes à versão 5.11.1.

Data da versão inicial: 29 de agosto de 2018

Alterações, melhorias e problemas resolvidos
  • Esta versão aborda uma possível vulnerabilidade de segurança.

Versão 5.11.1

As notas de lançamento a seguir incluem informações para a EMR versão 5.11.1 da Amazon. As alterações são relativas à EMR versão 5.11.0 da Amazon.

Data da versão inicial: 22 de janeiro de 2018

Alterações, melhorias e problemas resolvidos

Problemas conhecidos

  • MXNetnão inclui bibliotecas OpenCV.

  • Por padrão, o Hive 2.3.2 define hive.compute.query.using.stats=true. Isso faz com que as consultas obtenham dados de estatísticas existentes em vez de diretamente dos dados, o que pode gerar confusão. Por exemplo, se você tiver uma tabela com hive.compute.query.using.stats=true e fizer upload de novos arquivos para a tabela LOCATION, a execução de uma consulta SELECT COUNT(*) na tabela retornará a contagem das estatísticas, e não selecionará as linhas adicionadas.

    Como alternativa, use o comando ANALYZE TABLE para reunir novas estatísticas ou defina hive.compute.query.using.stats=false. Para obter mais informações, consulte Estatísticas no Hive na documentação do Apache Hive.

Versão 5.11.0

As notas de lançamento a seguir incluem informações para a EMR versão 5.11.0 da Amazon. As alterações são relativas à EMR versão 5.10.0 da Amazon.

Atualizações

Os aplicativos e os componentes a seguir foram atualizados nesta versão para incluir as seguintes versões.

  • Hive 2.3.2

  • Spark 2.2.1

  • SDKpara Java 1.11.238

Novos atributos

Problemas conhecidos

  • MXNetnão inclui bibliotecas OpenCV.

  • Por padrão, o Hive 2.3.2 define hive.compute.query.using.stats=true. Isso faz com que as consultas obtenham dados de estatísticas existentes em vez de diretamente dos dados, o que pode gerar confusão. Por exemplo, se você tiver uma tabela com hive.compute.query.using.stats=true e fizer upload de novos arquivos para a tabela LOCATION, a execução de uma consulta SELECT COUNT(*) na tabela retornará a contagem das estatísticas, e não selecionará as linhas adicionadas.

    Como alternativa, use o comando ANALYZE TABLE para reunir novas estatísticas ou defina hive.compute.query.using.stats=false. Para obter mais informações, consulte Estatísticas no Hive na documentação do Apache Hive.

Versão 5.10.0

As notas de lançamento a seguir incluem informações para a EMR versão 5.10.0 da Amazon. As alterações são relativas à EMR versão 5.9.0 da Amazon.

Atualizações

Os aplicativos e os componentes a seguir foram atualizados nesta versão para incluir as seguintes versões.

  • AWS SDK for Java 1.11.221

  • Hive 2.3.1

  • Presto 0.187

Novos atributos

Alterações, melhorias e problemas resolvidos

  • Presto

  • Spark

    • Backported SPARK-20640, que torna o tempo limite do rpc e as novas tentativas de valores de registro aleatório configuráveis, usando e propriedades. spark.shuffle.registration.timeout spark.shuffle.registration.maxAttempts

    • Backported SPARK-21549, que corrige um erro que ocorre ao gravar de forma personalizada OutputFormat em locais diferentes. HDFS

  • Backport Hadoop-13270

  • As bibliotecas Numpy, Scipy e Matplotlib foram removidas da Amazon base. EMR AMI Se forem necessárias para o aplicativo, essas bibliotecas estarão disponíveis no repositório do aplicativo. Portanto, você pode usar uma ação de bootstrap para instalá-las em todos os nós usando yum install.

  • A EMR base da Amazon AMI não tem mais RPM pacotes de aplicativos incluídos, então os RPM pacotes não estão mais presentes nos nós do cluster. A Custom AMIs e a EMR base da Amazon AMI agora fazem referência ao repositório de RPM pacotes no Amazon S3.

  • Devido à introdução do faturamento por segundo na AmazonEC2, o comportamento padrão de redução de escala agora é Encerrar na conclusão da tarefa, em vez de Encerrar na hora da instância. Para obter mais informações, consulte Configurar redução da escala verticalmente do cluster.

Problemas conhecidos

  • MXNetnão inclui bibliotecas OpenCV.

  • Por padrão, o Hive 2.3.1 define hive.compute.query.using.stats=true. Isso faz com que as consultas obtenham dados de estatísticas existentes em vez de diretamente dos dados, o que pode gerar confusão. Por exemplo, se você tiver uma tabela com hive.compute.query.using.stats=true e fizer upload de novos arquivos para a tabela LOCATION, a execução de uma consulta SELECT COUNT(*) na tabela retornará a contagem das estatísticas, e não selecionará as linhas adicionadas.

    Como alternativa, use o comando ANALYZE TABLE para reunir novas estatísticas ou defina hive.compute.query.using.stats=false. Para obter mais informações, consulte Estatísticas no Hive na documentação do Apache Hive.

Versão 5.9.0

As notas de lançamento a seguir incluem informações para a EMR versão 5.9.0 da Amazon. As alterações são relativas à EMR versão 5.8.0 da Amazon.

Data do release: 5 de outubro de 2017

Última atualização de recursos: 12 de outubro de 2017

Atualizações

Os aplicativos e os componentes a seguir foram atualizados nesta versão para incluir as seguintes versões.

  • AWS SDK for Java versão 1.11.183

  • Flink 1.3.2

  • Hue 4.0.1

  • Pig 0.17.0

  • Presto 0.184

Novos atributos

  • Adição do suporte ao Livy (versão Livy 0.4.0 - em incubação). Para ter mais informações, consulte Apache Livy.

  • Adição de suporte para Hue Notebook para Spark.

  • Foi adicionado suporte para EC2 instâncias Amazon da série i3 (12 de outubro de 2017).

Alterações, melhorias e problemas resolvidos

  • Spark

    • Adição de um novo conjunto de recursos que ajudam a garantir que o Spark lide de uma forma mais fácil com o encerramento de nós devido a um redimensionamento manual ou uma solicitação de política de escalabilidade automática. Para ter mais informações, consulte Configurar o comportamento de desativação de nós.

    • SSLé usado em vez de 3 DES para criptografia em trânsito para o serviço de transferência em bloco, o que melhora o desempenho ao usar tipos de EC2 instância da Amazon com AES -NI.

    • Retroportado para SPARK-21494.

  • Zeppelin

  • HBase

    • Foi adicionado o patch HBASE-18533, que permite valores adicionais para HBase BucketCache configuração usando a hbase-site classificação de configuração.

  • Hue

    • Foi adicionado suporte ao AWS Glue Data Catalog para o editor de consultas Hive no Hue.

    • Por padrão, os superusuários no Hue podem acessar todos os arquivos que as EMR IAM funções da Amazon têm permissão para acessar. Os usuários recém-criados não têm automaticamente permissões para acessar o navegador de arquivos Amazon S3 e devem ter as permissões filebrowser.s3_access ativadas para o grupo deles.

  • Resolveu um problema que fazia com que JSON os dados subjacentes criados usando o AWS Glue Data Catalog ficassem inacessíveis.

Problemas conhecidos

  • A inicialização do cluster falha quando todos os aplicativos são instalados e o tamanho padrão do volume EBS raiz da Amazon não é alterado. Como solução alternativa, use o aws emr create-cluster comando do AWS CLI e especifique um --ebs-root-volume-size parâmetro maior.

  • Por padrão, o Hive 2.3.0 define hive.compute.query.using.stats=true. Isso faz com que as consultas obtenham dados de estatísticas existentes em vez de diretamente dos dados, o que pode gerar confusão. Por exemplo, se você tiver uma tabela com hive.compute.query.using.stats=true e fizer upload de novos arquivos para a tabela LOCATION, a execução de uma consulta SELECT COUNT(*) na tabela retornará a contagem das estatísticas, e não selecionará as linhas adicionadas.

    Como alternativa, use o comando ANALYZE TABLE para reunir novas estatísticas ou defina hive.compute.query.using.stats=false. Para obter mais informações, consulte Estatísticas no Hive na documentação do Apache Hive.

Versão 5.8.2

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.8.2 da Amazon. As alterações são referentes à versão 5.8.1.

Data da versão inicial: 29 de março de 2018

Alterações, melhorias e problemas resolvidos
  • Atualizou o kernel Amazon Linux do defaultAmazon Linux AMI para Amazon EMR para resolver possíveis vulnerabilidades.

Versão 5.8.1

As notas de lançamento a seguir incluem informações para a EMR versão 5.8.1 da Amazon. As alterações são relativas à EMR versão 5.8.0 da Amazon.

Data da versão inicial: 22 de janeiro de 2018

Alterações, melhorias e problemas resolvidos

Versão 5.8.0

As notas de lançamento a seguir incluem informações para a EMR versão 5.8.0 da Amazon. As alterações são relativas à EMR versão 5.7.0 da Amazon.

Data da versão inicial: 10 de agosto de 2017

Última atualização de recurso: 25 de setembro de 2017

Atualizações

Os aplicativos e os componentes a seguir foram atualizados nesta versão para incluir as seguintes versões:

  • AWS SDK1.11.160

  • Flink 1.3.1

  • Hive 2.3.0. Para obter mais informações, consulte Notas de versão no site do Apache Hive.

  • Spark 2.2.0. Para obter mais informações, consulte Notas de versão no site do Apache Spark.

Novos atributos

Alterações, melhorias e problemas resolvidos

Problemas conhecidos

  • A inicialização do cluster falha quando todos os aplicativos são instalados e o tamanho padrão do volume EBS raiz da Amazon não é alterado. Como solução alternativa, use o aws emr create-cluster comando do AWS CLI e especifique um --ebs-root-volume-size parâmetro maior.

  • Por padrão, o Hive 2.3.0 define hive.compute.query.using.stats=true. Isso faz com que as consultas obtenham dados de estatísticas existentes em vez de diretamente dos dados, o que pode gerar confusão. Por exemplo, se você tiver uma tabela com hive.compute.query.using.stats=true e fizer upload de novos arquivos para a tabela LOCATION, a execução de uma consulta SELECT COUNT(*) na tabela retornará a contagem das estatísticas, e não selecionará as linhas adicionadas.

    Como alternativa, use o comando ANALYZE TABLE para reunir novas estatísticas ou defina hive.compute.query.using.stats=false. Para obter mais informações, consulte Estatísticas no Hive na documentação do Apache Hive.

  • Spark: ao usar o Spark, há um problema de vazamento no manipulador de arquivos com o daemon apppusher, o que pode ocorrer para um trabalho de execução prolongada do Spark depois de várias horas ou dias. Para corrigir o problema, conecte-se ao nó principal e digite sudo /etc/init.d/apppusher stop. Isso interrompe o daemon apppusher, que a Amazon EMR reiniciará automaticamente.

  • Application history

    • Os dados históricos dos executores inativos do Spark não está disponível.

    • O histórico do aplicativo não está disponível para clusters que usam uma configuração de segurança para habilitar a criptografia em andamento.

Versão 5.7.0

As notas de lançamento a seguir incluem informações para a versão EMR 5.7.0 da Amazon. As alterações são relativas à EMR versão 5.6.0 da Amazon.

Data do release: 13 de julho de 2017

Atualizações

  • Flink 1.3.0

  • Phoenix 4.11.0

  • Zeppelin 0.7.2

Novos atributos

  • Foi adicionada a capacidade de especificar um Amazon Linux personalizado AMI ao criar um cluster. Para obter mais informações, consulte Usando um personalizado AMI.

Alterações, melhorias e problemas resolvidos

  • HBase

  • Presto: adicionada a capacidade de configurar node.properties.

  • YARN- capacidade adicional de configurar container-log4j.properties

  • Sqoop - backported SQOOP-2880, que introduz um argumento que permite definir o diretório temporário do Sqoop.

Versão 5.6.0

As notas de lançamento a seguir incluem informações para a versão EMR 5.6.0 da Amazon. As alterações são relativas à versão EMR 5.5.0 da Amazon.

Data do release: 5 de junho de 2017

Atualizações

  • Flink 1.2.1

  • HBase1.3.1

  • Mahout 0.13.0. Essa é a primeira versão do Mahout a oferecer suporte ao Spark 2.x na Amazon EMR versão 5.0 e posterior.

  • Spark 2.1.1

Alterações, melhorias e problemas resolvidos

  • Presto

    • Foi adicionada a capacidade de SSL TLS habilitar/proteger a comunicação entre os nós do Presto ativando a criptografia em trânsito usando uma configuração de segurança. Para obter mais informações, consulte Criptografia de dados em trânsito.

    • Presto 7661 enviado para backport, adiciona a opção VERBOSE à instrução EXPLAIN ANALYZE para relatar estatísticas de baixo nível mais detalhadas sobre um plano de consulta.

Versão 5.5.3

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.5.3 da Amazon. As alterações são referentes à versão 5.5.2.

Data da versão inicial: 29 de agosto de 2018

Alterações, melhorias e problemas resolvidos
  • Esta versão aborda uma possível vulnerabilidade de segurança.

Versão 5.5.2

As notas de lançamento a seguir incluem informações sobre a EMR versão 5.5.2 da Amazon. As alterações são referentes à versão 5.5.1.

Data da versão inicial: 29 de março de 2018

Alterações, melhorias e problemas resolvidos
  • Atualizou o kernel Amazon Linux do defaultAmazon Linux AMI para Amazon EMR para resolver possíveis vulnerabilidades.

Versão 5.5.1

As notas de lançamento a seguir incluem informações para a versão EMR 5.5.1 da Amazon. As alterações são relativas à versão EMR 5.5.0 da Amazon.

Data da versão inicial: 22 de janeiro de 2018

Alterações, melhorias e problemas resolvidos

Versão 5.5.0

As notas de lançamento a seguir incluem informações para a versão EMR 5.5.0 da Amazon. As alterações são relativas à versão EMR 5.4.0 da Amazon.

Data do release: 26 de abril de 2017

Atualizações

  • Hue 3.12

  • Presto 0.170

  • Zeppelin 0.7.1

  • ZooKeeper 3.4.10

Alterações, melhorias e problemas resolvidos

  • Spark

  • Flink

    • O Flink agora é compilado com o Scala 2.11. Se você usa o Scala API e as bibliotecas, recomendamos usar o Scala 2.11 em seus projetos.

    • Tratado um problema em que os padrões HADOOP_CONF_DIR e YARN_CONF_DIR não estavam definidos corretamente, portanto havia falha no funcionamento de start-scala-shell.sh. Também foi adicionada a possibilidade de definir esses valores usando env.hadoop.conf.dir e env.yarn.conf.dir em /etc/flink/conf/flink-conf.yaml ou na classificação de configuração flink-conf.

    • Introduziu um novo comando EMR específico, flink-scala-shell como invólucro para. start-scala-shell.sh Recomendamos o uso desse comando, em vez de start-scala-shell. O novo comando simplifica a execução. Por exemplo, flink-scala-shell -n 2 inicia um shell Scala Flink com um paralelismo de tarefa de 2.

    • Introduziu um novo comando EMR específico, flink-yarn-session como invólucro para. yarn-session.sh Recomendamos o uso desse comando, em vez de yarn-session. O novo comando simplifica a execução. Por exemplo, flink-yarn-session -d -n 2 inicia uma sessão de longa execução do Flink em um estado desanexado com dois gerenciadores de tarefas.

    • O commons httpclient endereçado (FLINK-6125) não está mais sombreado no Flink 1.2.

  • Presto

    • Foi adicionado suporte para LDAP autenticação. O uso LDAP com o Presto na Amazon EMR exige que você habilite o HTTPS acesso para o coordenador do Presto (http-server.https.enabled=trueemconfig.properties). Para obter detalhes de configuração, consulte a LDAPautenticação na documentação do Presto.

    • O suporte adicionado para SHOW GRANTS.

  • Amazon EMR Base Linux AMI

    • Os EMR lançamentos da Amazon agora são baseados no Amazon Linux 2017.03. Para obter mais informações, consulte as notas de versão do Amazon Linux AMI 2017.03.

    • O Python 2.6 foi removido da imagem Linux EMR básica da Amazon. Python 2.7 e 3.4 estão instalados por padrão. Você pode instalar o Python 2.6 manualmente, se necessário.

Versão 5.4.0

As notas de lançamento a seguir incluem informações para a versão EMR 5.4.0 da Amazon. As alterações são relativas à versão EMR 5.3.0 da Amazon.

Data do release: 08 de março de 2017

Atualizações

As seguintes atualizações estão disponíveis nesta versão:

  • Atualizado para Flink 1.2.0

  • Atualizado para Hbase 1.3.0

  • Atualizado para Phoenix 4.9.0

    nota

    Se você atualizar de uma versão anterior da Amazon EMR para a EMR versão 5.4.0 ou posterior da Amazon e usar indexação secundária, atualize os índices locais conforme descrito na documentação do Apache Phoenix. A Amazon EMR remove as configurações necessárias da hbase-site classificação, mas os índices precisam ser preenchidos novamente. O sistema oferece suporte a atualizações de índices online e offline. As atualizações online são o padrão, o que significa que os índices são preenchidos novamente durante a inicialização de clientes do Phoenix versão 4.8.0 ou posterior. Para especificar atualizações off-line, defina a phoenix.client.localIndexUpgrade configuração como falsa na phoenix-site classificação e, em seguida, no nó principal SSH a ser executadapsql [zookeeper] -1.

  • Atualizado para Presto 0.166

  • Atualizado para Zeppelin 0.7.0

Alterações e melhorias

A seguir estão as alterações feitas nos EMR lançamentos da Amazon para a etiqueta de lançamento emr-5.4.0:

Versão 5.3.1

As notas de lançamento a seguir incluem informações para a versão EMR 5.3.1 da Amazon. As alterações são relativas à versão EMR 5.3.0 da Amazon.

Data da versão: 7 de fevereiro de 2017

Pequenas alterações nos patches do Zeppelin e na atualização do padrão para a Amazon. AMI EMR

Versão 5.3.0

As notas de lançamento a seguir incluem informações para a versão EMR 5.3.0 da Amazon. As alterações são relativas à versão EMR 5.2.1 da Amazon.

Data do release: 26 de janeiro de 2017

Atualizações

As seguintes atualizações estão disponíveis nesta versão:

  • Atualizado para Hive 2.1.1

  • Atualizado para Hue 3.11.0

  • Atualizado para Spark 2.1.0

  • Atualizado para Oozie 4.3.0

  • Atualizado para Flink 1.1.4

Alterações e melhorias

A seguir estão as alterações feitas nos EMR lançamentos da Amazon para a etiqueta de lançamento emr-5.3.0:

  • Adicionado um patch para o Hue que permite usar a configuração interpreters_shown_on_wheel para definir o que intérpretes mostram primeiro na roda de seleção do bloco de anotações, independentemente de sua ordem no arquivo hue.ini.

  • Adicionada a classificação de configuração hive-parquet-logging, que pode ser usada para configurar os valores no arquivo parquet-logging.properties do Hive.

Versão 5.2.2

As notas de lançamento a seguir incluem informações para a versão EMR 5.2.2 da Amazon. As alterações são relativas à versão EMR 5.2.1 da Amazon.

Data do release: 2 de maio de 2017

Problemas conhecidos das versões anteriores que foram resolvidos

  • Backported SPARK-194459, que resolve um problema em que a leitura de uma ORC tabela com colunas char/varchar pode falhar.

Versão 5.2.1

As notas de lançamento a seguir incluem informações para a versão EMR 5.2.1 da Amazon. As alterações são relativas à versão EMR 5.2.0 da Amazon.

Data do release: 29 de dezembro de 2016

Atualizações

As seguintes atualizações estão disponíveis nesta versão:

Alterações e melhorias

A seguir estão as alterações feitas nos EMR lançamentos da Amazon para a etiqueta de lançamento emr-5.2.1:

  • Foi adicionado suporte para o tipo de EC2 instância Amazon m4.16xlarge na Amazon EMR versão 4.8.3 e posterior, excluindo 5.0.0, 5.0.3 e 5.2.0.

  • Os EMR lançamentos da Amazon agora são baseados no Amazon Linux 2016.09. Para ter mais informações, consulte https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

  • A localização do Flink e os caminhos de YARN configuração agora são definidos por padrão, pois /etc/default/flink você não precisa definir as variáveis de ambiente FLINK_CONF_DIR e, HADOOP_CONF_DIR ao executar os scripts flink ou os scripts do yarn-session.sh driver, para iniciar trabalhos do Flink.

  • Foi adicionado suporte para a FlinkKinesisConsumer aula.

Problemas conhecidos das versões anteriores que foram resolvidos

  • Corrigido um problema no Hadoop em que o ReplicationMonitor thread podia ficar preso por um longo tempo devido a uma corrida entre a replicação e a exclusão do mesmo arquivo em um grande cluster.

  • Corrigido um problema em que ControlledJob # toString falhava com uma exceção de ponteiro nulo (NPE) quando o status do trabalho não era atualizado com êxito.

Versão 5.2.0

As notas de lançamento a seguir incluem informações para a versão EMR 5.2.0 da Amazon. As alterações são relativas à versão EMR 5.1.0 da Amazon.

Data do release: 21 de novembro de 2016

Alterações e melhorias

As seguintes alterações e melhorias estão disponíveis nesta versão:

  • Adicionado o modo de armazenamento Amazon S3 para. HBase

  • Permite que você especifique uma localização do Amazon S3 para o HBase rootdir. Para obter mais informações, consulte HBaseno Amazon S3.

Atualizações

As seguintes atualizações estão disponíveis nesta versão:

  • Atualizado para Spark 2.0.2

Problemas conhecidos das versões anteriores que foram resolvidos

  • Corrigido um problema com /mnt sendo restrito a 2 TB em tipos EBS de instância somente.

  • Corrigido um problema com o controlador de instância e com os logs do logpusher serem a saída para seus arquivos .out correspondentes, em vez de para seus arquivos normais .log configurados com log4j, que mudam de hora em hora. Os arquivos .out não mudam, portanto isso eventualmente encheria a partição /emr. Esse problema afeta apenas os tipos de instância de máquina virtual (HVM) de hardware.

Versão 5.1.0

As notas de lançamento a seguir incluem informações para a versão EMR 5.1.0 da Amazon. As alterações são relativas à versão EMR 5.0.0 da Amazon.

Data do release: 03 de novembro de 2016

Alterações e melhorias

As seguintes alterações e melhorias estão disponíveis nesta versão:

  • Adicionado o suporte para Flink 1.1.3.

  • O Presto foi adicionado como uma opção na seção bloco de anotações do Hue.

Atualizações

As seguintes atualizações estão disponíveis nesta versão:

  • Atualizado para 1.2.3 HBase

  • Atualizado para Zeppelin 0.6.2

Problemas conhecidos das versões anteriores que foram resolvidos

  • Corrigido um problema com as consultas Tez no Amazon S3 ORC com arquivos que não funcionavam tão bem quanto nas versões anteriores do Amazon EMR 4.x.

Versão 5.0.3

As notas de lançamento a seguir incluem informações para a versão EMR 5.0.3 da Amazon. As alterações são relativas à versão EMR 5.0.0 da Amazon.

Data do release: 24 de outubro de 2016

Atualizações

As seguintes atualizações estão disponíveis nesta versão:

  • Atualizado para Hadoop 2.7.3

  • Atualizado para Presto 0.152.3, que inclui o suporte para a interface da web do Presto. Você pode acessar a interface da web do Presto no coordenador do Presto usando a porta 8889. Para obter mais informações sobre a interface da Web do Presto, consulte Interface da Web na documentação do Presto.

  • Atualizado para Spark 2.0.1

  • Os EMR lançamentos da Amazon agora são baseados no Amazon Linux 2016.09. Para ter mais informações, consulte https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Versão 5.0.0

Data do release: 27 de julho de 2016

Atualizações

As seguintes atualizações estão disponíveis nesta versão:

  • Atualizado para Hive 2.1

  • Atualizado para Presto 0.150

  • Atualizado para Spark 2.0

  • Atualizado para Hue 3.10.0

  • Atualizado para Pig 0.16.0

  • Atualizado para Tez 0.8.4

  • Atualizado para Zeppelin 0.6.1

Alterações e melhorias

A seguir estão as alterações feitas nos EMR lançamentos da Amazon para a etiqueta de lançamento emr-5.0.0 ou superior:

  • A Amazon EMR oferece suporte às versões mais recentes de código aberto do Hive (versão 2.1) e do Pig (versão 0.16.0). Se você já usou o Hive ou o Pig EMR na Amazon no passado, isso pode afetar alguns casos de uso. Para obter mais informações, consulte Hive e Pig.

  • O mecanismo de execução padrão para o Hive e o Pig agora é o Tez. Para alterar isso, você deve editar os valores apropriados nas classificações de configuração hive-site e pig-properties, respectivamente.

  • Um recurso de etapa aprimorada de depuração foi adicionado, o que permite que você veja a causa raiz de falhas de etapa se o serviço puder determinar a causa. Para obter mais informações, consulte Depuração de etapas aprimorada no Amazon EMR Management Guide.

  • Os aplicativos que, anteriormente, terminavam com "-Sandbox" não têm mais esse sufixo. Isso pode inutilizar sua automação, por exemplo, se você estiver usando scripts para iniciar clusters com esses aplicativos. A tabela a seguir mostra os nomes dos aplicativos no Amazon EMR 4.7.2 versus no Amazon EMR 5.0.0.

    Alterações dos nomes de aplicativos
    Amazon EMR 4.7.2 Amazon EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper-Caixa de areia ZooKeeper
  • O Spark agora está compilado para Scala 2.11.

  • O Java 8 agora é o padrãoJVM. Todas as aplicações são executadas usando o runtime do Java 8. Não há alterações em qualquer destino de código de bytes da aplicação. A maioria dos aplicativos continuam a usar o Java 7 como destino.

  • O Zeppelin agora inclui recursos de autenticação. Para obter mais informações, consulte Zeppelin.

  • Adicionado o suporte para configurações de segurança, que permitem criar e aplicar opções de criptografia com mais facilidade. Para obter mais informações, consulte Criptografia de dados.

Versão 4.9.5

As notas de lançamento a seguir incluem informações sobre a EMR versão 4.9.5 da Amazon. As alterações são referentes à versão 4.9.4.

Data da versão inicial: 29 de agosto de 2018

Alterações, melhorias e problemas resolvidos
  • HBase

    • Esta versão aborda uma possível vulnerabilidade de segurança.

Versão 4.9.4

As notas de lançamento a seguir incluem informações sobre a EMR versão 4.9.4 da Amazon. As alterações são referentes à versão 4.9.3.

Data da versão inicial: 29 de março de 2018

Alterações, melhorias e problemas resolvidos
  • Atualizou o kernel Amazon Linux do defaultAmazon Linux AMI para Amazon EMR para resolver possíveis vulnerabilidades.

Versão 4.9.3

As notas de lançamento a seguir incluem informações para a versão EMR 4.9.3 da Amazon. As alterações são relativas à versão EMR 4.9.2 da Amazon.

Data da versão inicial: 22 de janeiro de 2018

Alterações, melhorias e problemas resolvidos

Versão 4.9.2

As notas de lançamento a seguir incluem informações para a versão EMR 4.9.2 da Amazon. As alterações são relativas à versão EMR 4.9.1 da Amazon.

Data do release: 13 de julho de 2017

Pequenas alterações, correções de erros e melhorias foram feitas nesta versão.

Versão 4.9.1

As notas de lançamento a seguir incluem informações para a versão EMR 4.9.1 da Amazon. As alterações são relativas à versão EMR 4.8.4 da Amazon.

Data do release: 10 de abril de 2017

Problemas conhecidos das versões anteriores que foram resolvidos

  • Portas traseiras de HIVE-9976 e -10106 HIVE

  • Corrigido um problema em YARN que um grande número de nós (mais de 2.000) e contêineres (mais de 5.000) causava um erro de falta de memória, por exemplo:"Exception in thread 'main' java.lang.OutOfMemoryError".

Alterações e melhorias

A seguir estão as alterações feitas nos EMR lançamentos da Amazon para a etiqueta de lançamento emr-4.9.1:

Versão 4.8.4

As notas de lançamento a seguir incluem informações para a versão EMR 4.8.4 da Amazon. As alterações são relativas à versão EMR 4.8.3 da Amazon.

Data do release: 7 de fevereiro de 2017

Pequenas alterações, correções de erros e melhorias foram feitas nesta versão.

Versão 4.8.3

As notas de lançamento a seguir incluem informações para a versão EMR 4.8.3 da Amazon. As alterações são relativas à versão EMR 4.8.2 da Amazon.

Data do release: 29 de dezembro de 2016

Atualizações

As seguintes atualizações estão disponíveis nesta versão:

  • Atualizado para Presto 0.157.1. Para obter mais informações, consulte Notas de versão do Presto na documentação do Presto.

  • Atualizado para Spark 1.6.3. Para obter mais informações, consulte Spark release notes na documentação do Apache Spark.

  • Atualizado para ZooKeeper 3.4.9. Para obter mais informações, consulte as notas de ZooKeeper lançamento na ZooKeeper documentação do Apache.

Alterações e melhorias

A seguir estão as alterações feitas nos EMR lançamentos da Amazon para a gravadora emr-4.8.3:

  • Foi adicionado suporte para o tipo de EC2 instância Amazon m4.16xlarge na Amazon EMR versão 4.8.3 e posterior, excluindo 5.0.0, 5.0.3 e 5.2.0.

  • Os EMR lançamentos da Amazon agora são baseados no Amazon Linux 2016.09. Para ter mais informações, consulte https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Problemas conhecidos das versões anteriores que foram resolvidos

  • Corrigido um problema no Hadoop em que o ReplicationMonitor thread podia ficar preso por um longo tempo devido a uma corrida entre a replicação e a exclusão do mesmo arquivo em um grande cluster.

  • Corrigido um problema em que ControlledJob # toString falhava com uma exceção de ponteiro nulo (NPE) quando o status do trabalho não era atualizado com êxito.

Versão 4.8.2

As notas de lançamento a seguir incluem informações para a versão EMR 4.8.2 da Amazon. As alterações são relativas à versão EMR 4.8.0 da Amazon.

Data do release: 24 de outubro de 2016

Atualizações

As seguintes atualizações estão disponíveis nesta versão:

  • Atualizado para Hadoop 2.7.3

  • Atualizado para Presto 0.152.3, que inclui o suporte para a interface da web do Presto. Você pode acessar a interface da web do Presto no coordenador do Presto usando a porta 8889. Para obter mais informações sobre a interface da Web do Presto, consulte Interface da Web na documentação do Presto.

  • Os EMR lançamentos da Amazon agora são baseados no Amazon Linux 2016.09. Para ter mais informações, consulte https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Versão 4.8.0

Data do release: 7 de setembro de 2016

Atualizações

As seguintes atualizações estão disponíveis nesta versão:

  • Atualizado para 1.2.2 HBase

  • Atualizado para Presto-Sandbox 0.151

  • Atualizado para Tez 0.8.4

  • Atualizado para Zeppelin-Sandbox 0.6.1

Alterações e melhorias

A seguir estão as alterações feitas nos EMR lançamentos da Amazon para a etiqueta de lançamento emr-4.8.0:

  • Corrigido um problema YARN em que eles ApplicationMaster tentavam limpar contêineres que não existem mais porque suas instâncias foram encerradas.

  • Foram corrigidas as ações hive-server2 URL para Hive2 nos exemplos do Oozie.

  • Adicionado o suporte para catálogos Presto adicionais.

  • Patches retroportados: HIVE-8948, HIVE -12679, -13405, -3116, -12689 HIVE PHOENIX HADOOP

  • Adicionado o suporte para configurações de segurança, que permitem criar e aplicar opções de criptografia com mais facilidade. Para obter mais informações, consulte Criptografia de dados.

Versão 4.7.2

As notas de lançamento a seguir incluem informações sobre o Amazon EMR 4.7.2.

Data do release: 15 de julho de 2016

Recursos

Os seguintes recursos estão disponíveis nesta versão:

  • Atualizado para Mahout 0.12.2

  • Atualizado para Presto 0.148

  • Atualizado para Spark 1.6.2

  • Agora você pode criar um AWSCredentialsProvider para uso EMRFS usando um URI como parâmetro. Para obter mais informações, consulte Criar um AWSCredentialsProvider formulário EMRFS.

  • EMRFSagora permite que os usuários configurem um endpoint personalizado do DynamoDB para seus metadados do Consistent View usando a propriedade em. fs.s3.consistent.dynamodb.endpoint emrfs-site.xml

  • Adicionado um script em /usr/bin chamado spark-example, que encapsula /usr/lib/spark/spark/bin/run-example para que você possa executar exemplos diretamente. Por exemplo, para executar o SparkPi exemplo que vem com a distribuição do Spark, você pode executar a spark-example SparkPi 100 partir da linha de comando ou usando command-runner.jar como uma etapa noAPI.

Problemas conhecidos das versões anteriores que foram resolvidos

  • Corrigido um problema em que o Oozie não tinha o spark-assembly.jar no local correto quando o Spark também estava instalado, o que resultava em falha para iniciar aplicativos do Spark com o Oozie.

  • Corrigido um problema com o registro baseado no Spark Log4J em contêineres. YARN

Versão 4.7.1

Data do release: 10 de junho de 2016

Problemas conhecidos das versões anteriores que foram resolvidos

  • Corrigido um problema que estendia o tempo de inicialização dos clusters lançados em um VPC com sub-redes privadas. O bug afetou apenas os clusters lançados com a EMR versão 4.7.0 da Amazon.

  • Corrigido um problema que manipulava indevidamente a listagem de arquivos na Amazon EMR para clusters lançados com a versão EMR 4.7.0 da Amazon.

Versão 4.7.0

Importante

O Amazon EMR 4.7.0 está obsoleto. Em vez disso, use o Amazon EMR 4.7.1 ou posterior.

Data do release: 2 de junho de 2016

Recursos

Os seguintes recursos estão disponíveis nesta versão:

  • Adicionado o Apache Phoenix 4.7.0

  • Adicionado o Apache Tez 0.8.3

  • Atualizado para 1.2.1 HBase

  • Atualizado para Mahout 0.12.0

  • Atualizado para Presto 0.147

  • Atualizou o AWS SDK for Java para 1.10.75

  • O sinalizador final foi removido da propriedade mapreduce.cluster.local.dir em mapred-site.xml para permitir que os usuários executem o Pig no modo local.

JDBCDrivers do Amazon Redshift disponíveis no cluster

JDBCOs drivers do Amazon Redshift agora estão incluídos em. /usr/share/aws/redshift/jdbc /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jaré o driver do Amazon Redshift JDBC compatível com 4.1 /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar e é o driver do Amazon Redshift JDBC compatível com 4.0. Para obter mais informações, consulte Configurar uma JDBC conexão no Guia de gerenciamento do Amazon Redshift.

Java 8

Com exceção do Presto, o Open JDK 1.7 é o padrão JDK usado para todos os aplicativos. No entanto, o Open JDK 1.7 e o 1.8 estão instalados. Para obter mais informações sobre como configurar JAVA_HOME para aplicações, consulte Configurar aplicações para usar Java 8.

Problemas conhecidos das versões anteriores que foram resolvidos

  • Corrigido um problema de kernel que afetou significativamente o desempenho em volumes otimizados de taxa de transferência HDD (st1) da Amazon EMR no EBS emr-4.6.0.

  • Corrigido um problema em que um cluster falharia se alguma zona de HDFS criptografia fosse especificada sem escolher o Hadoop como aplicativo.

  • Alterou a política de HDFS gravação padrão de RoundRobin paraAvailableSpaceVolumeChoosingPolicy. Alguns volumes não foram utilizados adequadamente com a RoundRobin configuração, o que resultou em falhas nos nós principais e na falta HDFS de confiabilidade.

  • Corrigido um problema com o EMRFSCLI, que causaria uma exceção ao criar a tabela de metadados padrão do DynamoDB para visualizações consistentes.

  • Corrigido um problema de impasse EMRFS que potencialmente ocorria durante operações de renomeação e cópia de várias partes.

  • Foi corrigido um problema EMRFS que fazia com que o CopyPart tamanho padrão fosse 5 MB. O padrão agora está definido corretamente como 128 MB.

  • Corrigido um problema com a configuração de inicialização do Zeppelin que potencialmente impedia a interrupção do serviço.

  • Corrigido um problema com o Spark e o Zeppelin, que impedia você de usar o s3a:// URI esquema porque ele não /usr/lib/hadoop/hadoop-aws.jar estava carregado corretamente em seus respectivos classpath.

  • Portado para trás HUE-2484.

  • Reportou um commit do Hue 3.9.0 (não JIRA existe) para corrigir um problema com a amostra do navegador. HBase

  • Portado para trás HIVE-9073.

Versão 4.6.0

Data do release: 21 de abril de 2016

Recursos

Os seguintes recursos estão disponíveis nesta versão:

Problema que afeta os tipos de volume com taxa de transferência otimizada HDD (st1) EBS

Um problema nas versões 4.2 e superiores do kernel Linux afeta significativamente o desempenho nos volumes Throughput Optimized HDD (st1) EBS do. EMR Esta versão (emr-4.6.0) usa uma versão do kernel 4.4.5 e, portanto, é afetada. Portanto, recomendamos não usar o emr-4.6.0 se você quiser usar volumes st1. EBS Você pode usar o emr-4.5.0 ou EMR versões anteriores da Amazon com st1 sem impacto. Além disso, fornecemos a correção com futuras versões.

Padrões do Python

O Python 3.4 agora está instalado por padrão, mas o Python 2.7 permanece como o sistema padrão. Você pode configurar o Python 3.4 como o padrão do sistema usando uma ação de bootstrap; você pode usar a configuração API para definir PYSPARK _ PYTHON export to /usr/bin/python3.4 na spark-env classificação para afetar a versão do Python usada por. PySpark

Java 8

Com exceção do Presto, o Open JDK 1.7 é o padrão JDK usado para todos os aplicativos. No entanto, o Open JDK 1.7 e o 1.8 estão instalados. Para obter mais informações sobre como configurar JAVA_HOME para aplicações, consulte Configurar aplicações para usar Java 8.

Problemas conhecidos das versões anteriores que foram resolvidos

  • Corrigido um problema em que, às vezes, ocorria uma falha aleatória no provisionamento de aplicativos devido a uma senha gerada.

  • Anteriormente, mysqld estava instalado em todos os nós. Agora, ele só está instalado na instância principal e somente se o aplicativo escolhido incluir mysql-server como componente. Atualmente, os seguintes aplicativos incluem o mysql-server componente: HiveHCatalog, Hue, Presto-Sandbox e Sqoop-Sandbox.

  • Alterado do padrão 32 yarn.scheduler.maximum-allocation-vcores para 80, o que corrige um problema introduzido no emr-4.4.0 que ocorre principalmente com o Spark ao usar a maximizeResourceAllocation opção em um cluster cujo tipo de instância principal é um dos poucos tipos de instância grandes que têm YARN vcores definidos acima de 32; ou seja, c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge grande ou m4.10xlarge foram afetados por esse problema.

  • O s3-dist-cp agora é usado para todas as indicações ao EMRFS Amazon S3 e não é mais usado em um diretório temporário. HDFS

  • Corrigido um problema com o tratamento de exceções para os multipart uploads de criptografia no lado do cliente.

  • Adicionada uma opção para permitir que os usuários alterem a classe de armazenamento do Amazon S3. Por padrão, essa configuração é STANDARD. A configuração da classificação de configuração emrfs-site é fs.s3.storageClass e os valores possíveis são STANDARD, STANDARD_IAe REDUCED_REDUNDANCY. Para obter mais informações sobre classes de armazenamento, consulte Classes de armazenamento no Guia do usuário do Amazon Simple Storage Service.

Versão 4.5.0

Data do release: 4 de abril de 2016

Recursos

Os seguintes recursos estão disponíveis nesta versão:

  • Atualizado para Spark 1.6.1

  • Atualizado para Hadoop 2.7.2

  • Atualizado para Presto 0.140

  • Foi adicionado AWS KMS suporte para criptografia do lado do servidor Amazon S3.

Problemas conhecidos das versões anteriores que foram resolvidos

  • Corrigido um problema em que os servidores My SQL e Apache não iniciavam após a reinicialização de um nó.

  • Corrigido um problema em IMPORT que não funcionava corretamente com tabelas não particionadas armazenadas no Amazon S3

  • Corrigido um problema em que o Presto exigia que o diretório de preparo fosse /mnt/tmp em vez de /tmp ao gravar em tabelas do Hive.

Versão 4.4.0

Data do release: 14 de março de 2016

Recursos

Os seguintes recursos estão disponíveis nesta versão:

  • Adicionado HCatalog 1.0.0

  • Adicionado o Sqoop-Sandbox 1.4.6

  • Atualizado para Presto 0.136

  • Atualizado para Zeppelin 0.5.6

  • Atualizado para Mahout 0.11.1

  • Habilitada a dynamicResourceAllocation por padrão.

  • Adicionada uma tabela de todas as classificações de configuração para a versão. Para obter mais informações, consulte a tabela de classificações de configuração em Configurar aplicações.

Problemas conhecidos das versões anteriores que foram resolvidos

  • Corrigido um problema em que a maximizeResourceAllocation configuração não reservava memória suficiente para YARN ApplicationMaster daemons.

  • Corrigido um problema encontrado com um personalizadoDNS. Se alguma entrada em resolve.conf preceder as entradas personalizadas fornecidas, as entradas personalizadas não serão resolvíveis. Esse comportamento foi afetado por clusters em um em VPC que o servidor de VPC nomes padrão é inserido como a entrada superior emresolve.conf.

  • Corrigido um problema em que o Python padrão mudou para a versão 2.7 e boto não estava instalado para essa versão.

  • Corrigido um problema em que YARN contêineres e aplicativos Spark geravam um arquivo de banco de dados Round Robin (rrd) exclusivo do Ganglia, o que resultava no preenchimento do primeiro disco conectado à instância. Por causa dessa correção, as métricas em nível de YARN contêiner foram desativadas e as métricas em nível de aplicativo do Spark foram desativadas.

  • Corrigido um problema no log pusher em que ele excluía todas as pastas de log vazias. O efeito foi que o Hive não CLI conseguiu se registrar porque o carregador de registros estava removendo a user pasta vazia abaixo. /var/log/hive

  • Corrigido um problema com as importações do Hive, que afetava o particionamento e resultava em um erro durante a importação.

  • Corrigido um problema em que EMRFS o s3-dist-cp não manipulava adequadamente os nomes de buckets que continham pontos.

  • Foi alterado um comportamento EMRFS para que, em buckets com versionamento ativado, o arquivo _$folder$ marcador não seja criado continuamente, o que pode contribuir para melhorar o desempenho de buckets com versionamento ativado.

  • Alterou o comportamento de EMRFS forma que não use arquivos de instruções, exceto nos casos em que a criptografia do lado do cliente está habilitada. Se desejar excluir os arquivos de instrução enquanto usa a criptografia no lado do cliente, você poderá definir a propriedade emrfs-site.xml fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled, como verdadeiro.

  • A agregação de YARN registros foi alterada para reter os registros no destino da agregação por dois dias. O destino padrão é o HDFS armazenamento do seu cluster. Se desejar mudar essa duração, altere o valor de yarn.log-aggregation.retain-seconds usando a classificação de configuração yarn-site quando criar seu cluster. Como sempre, você pode salvar os logs de aplicações no Amazon S3 usando o parâmetro log-uri quando criar o cluster.

Patches aplicados

Os seguintes patches de projetos de código aberto foram incluídos nesta versão:

Versão 4.3.0

Data do release: 19 de janeiro de 2016

Recursos

Os seguintes recursos estão disponíveis nesta versão:

  • Atualizado para Hadoop 2.7.1

  • Atualizado para Spark 1.6.0

  • Ganglia atualizado para 3.7.2

  • Presto atualizado para 0.130

A Amazon EMR fez algumas alterações em spark.dynamicAllocation.enabled quando está definido como verdadeiro; por padrão, é falso. Quando definida como verdadeiro, isso afeta os padrões definidos pela configuração maximizeResourceAllocation:

  • Se spark.dynamicAllocation.enabled estiver definida como true, spark.executor.instances não será definida por maximizeResourceAllocation.

  • A configuração spark.driver.memory agora é definida com base nos tipos de instância no cluster de maneira semelhante a como spark.executors.memory é definida. No entanto, como o aplicativo do driver Spark pode ser executado na instância principal ou em uma das instâncias principais (por exemplo, nos modos YARN cliente e cluster, respectivamente), a spark.driver.memory configuração é definida com base no tipo de instância do tipo de instância menor entre esses dois grupos de instâncias.

  • A spark.default.parallelism configuração agora está definida como o dobro do número de CPU núcleos disponíveis para YARN contêineres. Em versões anteriores, era a metade desse valor.

  • Os cálculos da sobrecarga de memória reservada para YARN os processos do Spark foram ajustados para serem mais precisos, resultando em um pequeno aumento na quantidade total de memória disponível para o Spark (ou seja,). spark.executor.memory

Problemas conhecidos das versões anteriores que foram resolvidos

  • YARNa agregação de registros agora está ativada por padrão.

  • Corrigido um problema em que os registros não eram enviados para o bucket de registros do Amazon S3 de um cluster quando a agregação de registros YARN estava ativada.

  • YARNos tamanhos de contêineres agora têm um novo mínimo de 32 em todos os tipos de nós.

  • Corrigido um problema com o Ganglia que causava E/S de disco excessivas no nó principal em clusters grandes.

  • Corrigido um problema que impedia que os logs de aplicações fossem enviados para o Amazon S3 quando um cluster estivesse sendo encerrado.

  • Corrigido um problema EMRFS CLI que fazia com que certos comandos falhassem.

  • Corrigido um problema com o Zeppelin que impedia que dependências fossem carregadas no subjacente. SparkContext

  • Corrigido um problema resultante da emissão de um redimensionamento para tentar adicionar instâncias.

  • Corrigido um problema no Hive em que o CREATE TABLE AS SELECT fazia chamadas de lista excessivas para o Amazon S3.

  • Corrigido um problema em que clusters grandes não provisionavam corretamente quando o Hue, o Oozie e o Ganglia estivessem instalados.

  • Corrigido um problema no s3-dist-cp em que retornava um código de saída zero, mesmo se houvesse falha com um erro.

Patches aplicados

Os seguintes patches de projetos de código aberto foram incluídos nesta versão:

Versão 4.2.0

Data do release: 18 de novembro de 2015

Recursos

Os seguintes recursos estão disponíveis nesta versão:

  • Adicionado o suporte ao Ganglia

  • Atualizado para Spark 1.5.2

  • Atualizado para Presto 0.125

  • Oozie atualizado para 4.2.0

  • Zeppelin atualizado para 0.5.5

  • Atualizou o AWS SDK for Java para 1.10.27

Problemas conhecidos das versões anteriores que foram resolvidos

  • Corrigido um problema EMRFS CLI em que ele não usava o nome padrão da tabela de metadados.

  • Corrigido um problema encontrado ao usar tabelas ORC apoiadas por -back no Amazon S3.

  • Corrigido um problema encontrado com uma divergência de versão do Python na configuração do Spark.

  • Corrigido um problema quando o status de um YARN nó não era reportado devido a DNS problemas com clusters em umVPC.

  • Corrigido um problema encontrado ao YARN descomissionar nós, resultando em aplicativos interrompidos ou na incapacidade de programar novos aplicativos.

  • Corrigido um problema encontrado quando os clusters terminavam com o status TIMED _ OUT _STARTING.

  • Corrigido um problema encontrado ao incluir a dependência do EMRFS Scala em outras compilações. A dependência Scala foi removida.