Versões 6.9.0 do Amazon EMR no EKS - Amazon EMR

Versões 6.9.0 do Amazon EMR no EKS

As versões 6.9.0 do Amazon EMR apresentadas a seguir estão disponíveis para o Amazon EMR no EKS. Selecione uma versão específica do emr-6.9.0-XXXX para visualizar mais detalhes, como a etiqueta de imagem do contêiner relacionada.

emr-6.9.0-latest
emr-6.9.0-20230905
emr-6.9.0-20230624
emr-6.9.0-20221108
emr-6.9.0- spark-rapids-latest
emr-6.9.0-spark-rapids-20230624
emr-6.9.0-spark-rapids-20221108
notebook-spark/emr-6.9.0-latest
notebook-spark/emr-6.9.0-20230624
notebook-spark/emr-6.9.0-20221108
notebook-python/emr-6.9.0-latest
notebook-python/emr-6.9.0-20230624
notebook-python/emr-6.9.0-20221108

Notas da versão 6.9.0 do Amazon EMR

Aplicativos suportados ‐ AWS SDK para Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.
Componentes com suporte: aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg e spark-kubernetes.

Classificações de configuração com suporte:

Para uso com StartJobRune CreateManagedEndpoint APIs:

Classificações	Descrições
`core-site`	Altera os valores no arquivo core-site.xml do Hadoop.
`emrfs-site`	Alterar as configurações do EMRFS.
`spark-metrics`	Alterar os valores no arquivo metrics.properties do Spark.
`spark-defaults`	Alterar os valores no arquivo spark-defaults.conf do Spark.
`spark-env`	Alterar os valores no ambiente do Spark.
`spark-hive-site`	Altera os valores no arquivo hive-site.xml do Spark.
`spark-log4j`	Alterar os valores no arquivo log4j.properties do Spark.

Para uso específico com CreateManagedEndpoint APIs:

Classificações	Descrições
`jeg-config`	Altera os valores no arquivo `jupyter_enterprise_gateway_config.py` do Jupyter Enterprise Gateway.
`jupyter-kernel-overrides`	Altera o valor da imagem do kernel no arquivo de um kernel do Jupyter especificado.

As classificações de configuração permitem que você personalize aplicações. Elas geralmente correspondem a um arquivo XML de configuração da aplicação, como spark-hive-site.xml. Para obter mais informações, consulte Configure Applications.

Recursos notáveis

Nvidia RAPIDS Accelerator para Apache Spark ‐ Amazon EMR no EKS para acelerar o Spark usando tipos de instância de unidade de processamento EC2 gráfico (GPU). Para usar a imagem do Spark com o RAPIDS Accelerator, especifique o rótulo de lançamento como emr-6.9.0-. spark-rapids-latest Acesse a página de documentação para saber mais.
Conector Spark-Redshift: a integração do Amazon Redshift para Apache Spark está inclusa nas versões 6.9.0 e posteriores do Amazon EMR. Anteriormente uma ferramenta de código aberto, a integração nativa é um conector do Spark que você pode usar para criar aplicações do Apache Spark que realizam a leitura e a gravação de dados no Amazon Redshift e no Amazon Redshift sem servidor. Para obter mais informações, consulte Uso da integração do Amazon Redshift para Apache Spark no Amazon EMR no EKS.
Delta Lake: o Delta Lake é um formato de armazenamento de código aberto que possibilita o desenvolvimento de data lakes com consistência transacional, definição consistente de conjuntos de dados, alterações de evolução de esquema e suporte a mutações de dados. Acesse Uso do Delta Lake para saber mais.
Modificar PySpark parâmetros ‐ Os endpoints interativos agora oferecem suporte à modificação dos parâmetros do Spark associados às PySpark sessões no notebook EMR Studio Jupyter. Visite Modificação dos parâmetros PySpark da sessão para saber mais.

Problemas resolvidos

Ao usar o conector DynamoDB com o Spark nas versões 6.6.0, 6.7.0 e 6.8.0 do Amazon EMR, todas as leituras da tabela retornam um resultado vazio, mesmo que a divisão de entrada faça referência a dados que não estão vazios. A versão 6.9.0 do Amazon EMR corrige esse problema.
A versão 6.8.0 do Amazon EMR no EKS preenche incorretamente o hash de compilação nos metadados dos arquivos em Parquet gerados usando o Apache Spark. Esse problema pode fazer com que as ferramentas que analisam a string de versão de metadados dos arquivos em Parquet gerados pela versão 6.8.0 do Amazon EMR no EKS apresentem falhas.

Problema conhecido

Se você usar a integração do Amazon Redshift para Apache Spark e tiver um time, timetz, timestamp ou timestamptz com precisão de microssegundos no formato Parquet, o conector arredondará os valores de tempo para o valor de milissegundo mais próximo. Como solução alternativa, use o parâmetro unload_s3_format do formato de descarregamento de texto.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

emr-6.10.0-20230220

emr-6.9.0-latest