Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Apache Spark
Apache Spark
Spark admite de forma nativa aplicaciones escritas en Scala, Python y Java. También incluye varias bibliotecas estrechamente integradas para SQL (Spark SQL
Puede instalar Spark en un clúster de Amazon EMR junto con otras aplicaciones de Hadoop y el motor puede usar el sistema de archivos de Amazon EMR (EMRFS) para acceder directamente a los datos en Amazon S3. Hive también está integrado con Spark, por lo que puedes usar un HiveContext objeto para ejecutar scripts de Hive con Spark. Un contexto de Hive se incluye en el shell de Spark como sqlContext
.
Para ver un ejemplo de tutorial sobre cómo configurar un clúster de EMR con Spark y analizar un conjunto de datos de muestra, consulte Tutorial: Cómo empezar con Amazon EMR en el blog de noticias. AWS
importante
La versión 2.3.1 de Apache Spark, disponible a partir de la versión 5.16.0 de Amazon EMR, aborda CVE-2018-8024
En la siguiente tabla, se muestra la versión de Spark incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.
Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones de componentes de la versión 7.1.0.
Información sobre la versión de Spark para emr-7.1.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Etiqueta de versión de Amazon EMR | Versión de Spark | Componentes instalados con Spark | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-7.1.0 |
Spark 3.5.0 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
En la tabla siguiente, se muestra la versión de Spark incluida en la versión más reciente de la serie 6.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.
Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones de los componentes de la versión 6.15.0.
Información de la versión de Spark para emr-6.15.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Etiqueta de versión de Amazon EMR | Versión de Spark | Componentes instalados con Spark | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
nota
La versión 6.8.0 de Amazon EMR incluye la versión 3.3.0 de Apache Spark. Esta versión de Spark utiliza Apache Log4j 2 y el archivo log4j2.properties
para configurar Log4j en los procesos de Spark. Si utiliza Spark en el clúster o crea clústeres de EMR con parámetros de configuración personalizados y desea actualizar a la versión 6.8.0 de Amazon EMR, debe migrar al nuevo formato de clave y clasificación de configuración spark-log4j2
de Apache Log4j 2. Para obtener más información, consulte Migración de Apache Log4j 1.x a Log4j 2.x.
En la tabla siguiente, se muestra la versión de Spark incluida en la versión más reciente de la serie 5.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.
Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones de componentes de la versión 5.36.2.
Información sobre la versión de Spark para emr-5.36.2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Etiqueta de versión de Amazon EMR | Versión de Spark | Componentes instalados con Spark | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Temas
- Creación de un clúster con Apache Spark
- Ejecución de aplicaciones de Spark con Docker en Amazon EMR 6.x
- Usa el catálogo de datos de AWS Glue como metaalmacén para Spark SQL
- Configurar Spark
- Optimización del desempeño de Spark
- Almacenamiento en caché de fragmentos de resultados de Spark
- Uso de Nvidia RAPIDS Accelerator de Nvidia para Spark
- Acceso al intérprete de comandos de Spark
- Utilice Amazon SageMaker Spark para el aprendizaje automático
- Escritura de una aplicación de Spark
- Mejora del rendimiento de Spark con Amazon S3
- Adición de un paso de Spark
- Visualización del historial de aplicaciones de Spark
- Acceso a las interfaces de usuario web de Spark
- Uso del conector Amazon Kinesis Data Streams de streaming estructurado de Spark
- Uso de la integración de Amazon Redshift para Apache Spark con Amazon EMR
- Historial de lanzamientos de Spark