Apache Spark - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Apache Spark

Apache Spark è un framework di elaborazione distribuito e un modello di programmazione che ti aiuta a eseguire l'apprendimento automatico, l'elaborazione di flussi o l'analisi dei grafici con i cluster AmazonEMR. Come Apache Hadoop, Spark è un sistema di elaborazione distribuito open source utilizzato in genere per carichi di lavoro di Big Data. Tuttavia, Spark presenta diverse differenze importanti rispetto a Hadoop. MapReduce Spark dispone di un motore di esecuzione ottimizzato del grafico aciclico diretto (DAG) e memorizza attivamente nella cache i dati in memoria, il che può aumentare le prestazioni, specialmente per determinati algoritmi e query interattive.

Spark supporta applicazioni scritte in Scala, Python e Java a livello nativo. Include anche diverse librerie strettamente integrate per SQL (Spark), machine learning (MLlib), stream processing (Spark streaming) ed elaborazione di grafici (GraphX). Questi strumenti semplificano l'utilizzo del framework Spark per un'ampia gamma di casi d'uso.

Puoi installare Spark su un EMR cluster Amazon insieme ad altre applicazioni Hadoop e può anche sfruttare il file system EMR Amazon EMRFS () per accedere direttamente ai dati in Amazon S3. Hive è inoltre integrato con Spark in modo da poter utilizzare un HiveContext oggetto per eseguire script Hive utilizzando Spark. Un contesto Hive è incluso nella shell di Spark come sqlContext.

Per un esempio di tutorial sulla configurazione di un EMR cluster con Spark e l'analisi di un set di dati di esempio, consulta Tutorial: Getting started with Amazon EMR sul blog AWS News.

Importante

La versione 2.3.1 di Apache Spark, disponibile a partire dalla versione di Amazon 5.16.0, indirizzi EMR -2018-8024 e -2018-1334. CVE CVE Si consiglia di eseguire la migrazione delle versioni precedenti di Spark a Spark 2.3.1 o versioni successive.

La tabella seguente elenca la versione di Spark inclusa nell'ultima versione della serie Amazon EMR 7.x, insieme ai componenti che Amazon EMR installa con Spark.

Per la versione dei componenti installati con Spark in questa versione, consulta Versioni dei componenti della release 7.5.0.

Informazioni sulla versione di Spark per emr-7.5.0
Etichetta EMR di rilascio Amazon Versione di Spark Componenti installati con Spark

emr-7.5.0

Spark 3.5.2

delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

La tabella seguente elenca la versione di Spark inclusa nell'ultima versione della serie Amazon EMR 6.x, insieme ai componenti che Amazon EMR installa con Spark.

Per la versione dei componenti installati con Spark in questo rilascio, consulta la sezione Versioni dei componenti del rilascio 6.15.0.

Informazioni sulla versione di Spark per emr-6.15.0
Etichetta EMR di rilascio Amazon Versione di Spark Componenti installati con Spark

emr-6.15.0

Spark 3.4.1

aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

Nota

La EMR versione 6.8.0 di Amazon include Apache Spark 3.3.0. Questa versione di Spark utilizza Apache Log4j 2 e il file log4j2.properties per configurare Log4j nei processi Spark. Se usi Spark nel cluster o crei EMR cluster con parametri di configurazione personalizzati e desideri eseguire l'aggiornamento alla EMR versione 6.8.0 di Amazon, devi migrare alla nuova classificazione di spark-log4j2 configurazione e al nuovo formato delle chiavi per Apache Log4j 2. Per ulteriori informazioni, consulta Migrazione da Apache Log4j 1.x a Log4j 2.x.

La tabella seguente elenca la versione di Spark inclusa nell'ultima versione della serie Amazon EMR 5.x, insieme ai componenti che Amazon EMR installa con Spark.

Per la versione dei componenti installati con Spark in questa versione, consulta Versioni dei componenti della release 5.36.2.

Informazioni sulla versione di Spark per emr-5.36.2
Etichetta EMR di rilascio Amazon Versione di Spark Componenti installati con Spark

emr-5.36.2

Spark 2.4.8

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave