Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Apache Spark
Apache Spark
Spark supporta applicazioni scritte in Scala, Python e Java a livello nativo. Include anche diverse librerie strettamente integrate per SQL (Spark SQL
Puoi installare Spark su un EMR cluster Amazon insieme ad altre applicazioni Hadoop e può anche sfruttare il file system EMR Amazon EMRFS () per accedere direttamente ai dati in Amazon S3. Hive è inoltre integrato con Spark in modo da poter utilizzare un HiveContext oggetto per eseguire script Hive utilizzando Spark. Un contesto Hive è incluso nella shell di Spark come sqlContext
.
Per un esempio di tutorial sulla configurazione di un EMR cluster con Spark e l'analisi di un set di dati di esempio, consulta Tutorial: Getting started with Amazon EMR sul blog AWS News.
Importante
La tabella seguente elenca la versione di Spark inclusa nell'ultima versione della serie Amazon EMR 7.x, insieme ai componenti che Amazon EMR installa con Spark.
Etichetta EMR di rilascio Amazon | Versione di Spark | Componenti installati con Spark |
---|---|---|
emr-7.3.0 |
Spark 3.5.1 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
La tabella seguente elenca la versione di Spark inclusa nell'ultima versione della serie Amazon EMR 6.x, insieme ai componenti che Amazon EMR installa con Spark.
Per la versione dei componenti installati con Spark in questo rilascio, consulta la sezione Versioni dei componenti del rilascio 6.15.0.
Etichetta EMR di rilascio Amazon | Versione di Spark | Componenti installati con Spark |
---|---|---|
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Nota
La EMR versione 6.8.0 di Amazon include Apache Spark 3.3.0. Questa versione di Spark utilizza Apache Log4j 2 e il file log4j2.properties
per configurare Log4j nei processi Spark. Se usi Spark nel cluster o crei EMR cluster con parametri di configurazione personalizzati e desideri eseguire l'aggiornamento alla EMR versione 6.8.0 di Amazon, devi migrare alla nuova classificazione di spark-log4j2
configurazione e al nuovo formato delle chiavi per Apache Log4j 2. Per ulteriori informazioni, consulta Migrazione da Apache Log4j 1.x a Log4j 2.x.
La tabella seguente elenca la versione di Spark inclusa nell'ultima versione della serie Amazon EMR 5.x, insieme ai componenti che Amazon EMR installa con Spark.
Etichetta EMR di rilascio Amazon | Versione di Spark | Componenti installati con Spark |
---|---|---|
emr-5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Argomenti
- Creazione di un cluster con Apache Spark
- Esegui applicazioni Spark con Docker su Amazon 6.x EMR
- Usa il AWS Glue Data Catalog come metastore per Spark SQL
- Configurazione di Spark
- Ottimizzazione delle prestazioni di Spark
- Caching dei frammenti dei risultati Spark
- Usa Nvidia RAPIDS Accelerator per Apache Spark
- Accesso alla shell Spark
- Usa Amazon SageMaker Spark per l'apprendimento automatico
- Scrittura di un'applicazione Spark
- Migliorare le prestazioni di Spark con Amazon S3
- Aggiungi una fase Spark
- Visualizzazione della cronologia delle applicazioni Spark
- Accedi al sito web Spark UIs
- Utilizzo del connettore Amazon Kinesis Data Streams per lo streaming strutturato Spark
- Utilizzo dell'integrazione di Amazon Redshift per Apache Spark con Amazon EMR
- Cronologia dei rilasci di Spark