Apache Spark - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Apache Spark

O Apache Spark é uma estrutura de processamento distribuído e um modelo de programação que ajuda você a fazer aprendizado de máquina, processamento de streams ou análise gráfica com clusters da AmazonEMR. Semelhante ao Apache Hadoop, o Spark é um sistema de processamento distribuído de código-fonte aberto comumente utilizado para workloads de big data. No entanto, o Spark tem várias diferenças notáveis em relação ao MapReduce Hadoop. O Spark tem um mecanismo otimizado de execução de grafos acíclicos direcionados (DAG) e armazena ativamente os dados na memória, o que pode aumentar o desempenho, especialmente para determinados algoritmos e consultas interativas.

O Spark oferece suporte nativo a aplicativos escritos em Scala, Python e Java. Ele também inclui várias bibliotecas totalmente integradas para SQL (Spark), aprendizado de máquina (MLlib), processamento de fluxo (streaming Spark) e processamento gráfico (GraphX). Essas ferramentas facilitam o aproveitamento da estrutura do Spark para uma grande variedade de casos de uso.

Você pode instalar o Spark em um EMR cluster da Amazon junto com outros aplicativos do Hadoop, e ele também pode aproveitar o sistema de EMR arquivos da Amazon (EMRFS) para acessar diretamente os dados no Amazon S3. O Hive também é integrado ao Spark para que você possa usar um HiveContext objeto para executar scripts do Hive usando o Spark. Um contexto do Hive está incluído no spark-shell como sqlContext.

Para ver um exemplo de tutorial sobre como configurar um EMR cluster com o Spark e analisar um conjunto de dados de amostra, consulte Tutorial: Getting started with Amazon EMR no blog AWS News.

Importante

A versão 2.3.1 do Apache Spark, disponível a partir da EMR versão 5.16.0 da Amazon, endereça -2018-8024 e -2018-1334. CVE CVE Recomendamos que você migre as versões anteriores do Spark para a versão 2.3.1 ou posteriores.

A tabela a seguir lista a versão do Spark incluída na versão mais recente da série Amazon EMR 7.x, junto com os componentes que a Amazon EMR instala com o Spark.

Para a versão dos componentes instalados com o Spark nesta versão, consulte Versões de componentes da versão 7.5.0.

Informações sobre a versão do Spark para o emr-7.5.0
Gravadora EMR de lançamento da Amazon Versão do Spark Componentes instalados com o Spark

emr-7.5.0

Spark 3.5.2

delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

A tabela a seguir lista a versão do Spark incluída na versão mais recente da série EMR 6.x da Amazon, junto com os componentes que a Amazon EMR instala com o Spark.

Para obter a versão dos componentes instalados com o Spark nessa versão, consulte Release 6.15.0 Component Versions.

Informações de versão do Spark para o emr-6.15.0
Gravadora EMR de lançamento da Amazon Versão do Spark Componentes instalados com o Spark

emr-6.15.0

Spark 3.4.1

aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

nota

A EMR versão 6.8.0 da Amazon vem com o Apache Spark 3.3.0. Esta versão do Spark usa o Apache Log4j 2 e o arquivo log4j2.properties para configurar o Log4j nos processos do Spark. Se você usa o Spark no cluster ou cria EMR clusters com parâmetros de configuração personalizados e deseja atualizar para a EMR versão 6.8.0 da Amazon, você deve migrar para a nova classificação de spark-log4j2 configuração e formato de chave do Apache Log4j 2. Para obter mais informações, consulte Migrar do Apache Log4j 1.x para Log4j 2.x.

A tabela a seguir lista a versão do Spark incluída na versão mais recente da série Amazon EMR 5.x, junto com os componentes que a Amazon EMR instala com o Spark.

Para obter a versão dos componentes instalados com o Spark nesse lançamento, consulte Release 5.36.2 Component Versions.

Informações de versão do Spark para o emr-5.36.2
Gravadora EMR de lançamento da Amazon Versão do Spark Componentes instalados com o Spark

emr-5.36.2

Spark 2.4.8

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave