Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Apache Spark
Apache Spark
Spark unterstützt standardmäßig Anwendungen, die in Scala, Java und Python geschrieben sind. Es enthält auch mehrere eng integrierte Bibliotheken für SQL (Spark SQL
Sie können Spark zusammen mit anderen Hadoop-Anwendungen auf einem EMR Amazon-Cluster installieren und es kann auch das EMR Amazon-Dateisystem (EMRFS) nutzen, um direkt auf Daten in Amazon S3 zuzugreifen. Hive ist auch in Spark integriert, sodass Sie ein HiveContext Objekt verwenden können, um Hive-Skripte mit Spark auszuführen. Ein Hive-Kontext ist als sqlContext
Bestandteil der Spark-Shell.
Ein Beispiel-Tutorial zur Einrichtung eines EMR Clusters mit Spark und zur Analyse eines Beispieldatensatzes finden Sie unter Tutorial: Erste Schritte mit EMR Amazon im AWS News-Blog.
Wichtig
Apache Spark Version 2.3.1, verfügbar ab EMR Amazon-Version 5.16.0, adressiert CVE-2018-8024 und -2018-1334
In der folgenden Tabelle sind die Version von Spark aufgeführt, die in der neuesten Version der Amazon EMR 7.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon mit Spark EMR installiert.
Informationen zur Version der Komponenten, die in dieser Version mit Spark installiert wurden, finden Sie unter Komponentenversionen von Version 7.2.0.
Spark-Versionsinformationen für emr-7.2.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
EMRAmazon-Freigabeetikett | Spark-Version | Mit Spark installierte Komponenten | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-7.2.0 |
Spark 3.5.1 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
In der folgenden Tabelle sind die Version von Spark aufgeführt, die in der neuesten Version der Amazon EMR 6.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon zusammen mit Spark EMR installiert.
Die Version der Komponenten, die mit Spark in dieser Version installiert wurden, finden Sie unter Komponentenversionen der Version 6.15.0.
Spark-Versionsinformationen für emr-6.15.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
EMRAmazon-Freigabeetikett | Spark-Version | Mit Spark installierte Komponenten | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Anmerkung
EMRAmazon-Version 6.8.0 wird mit Apache Spark 3.3.0 geliefert. Diese Spark-Version verwendet Apache Log4j 2 und die log4j2.properties
-Datei zur Konfiguration von Log4j in Spark-Prozessen. Wenn Sie Spark im Cluster verwenden oder EMR Cluster mit benutzerdefinierten Konfigurationsparametern erstellen und ein Upgrade auf EMR Amazon-Version 6.8.0 durchführen möchten, müssen Sie auf die neue spark-log4j2
Konfigurationsklassifizierung und das neue Schlüsselformat für Apache Log4j 2 migrieren. Weitere Informationen finden Sie unter Migration von Apache Log4j 1.x zu Log4j 2.x.
In der folgenden Tabelle sind die Version von Spark aufgeführt, die in der neuesten Version der Amazon EMR 5.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon mit Spark EMR installiert.
Informationen zur Version der Komponenten, die in dieser Version mit Spark installiert wurden, finden Sie unter Komponentenversionen von Version 5.36.2.
Spark-Versionsinformationen für emr-5.36.2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
EMRAmazon-Freigabeetikett | Spark-Version | Mit Spark installierte Komponenten | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Themen
- Einen Cluster mit Apache Spark erstellen
- Führen Sie Spark-Anwendungen mit Docker auf Amazon EMR 6.x aus
- Verwenden Sie den AWS Glue-Datenkatalog als Metastore für Spark SQL
- Konfigurieren von Spark
- Die Leistung von Spark optimieren
- Caching von Ergebnisfragmenten in Spark
- Verwenden Sie den Nvidia RAPIDS Accelerator für Apache Spark
- Zugriff auf die Spark-Shell
- Verwenden Sie Amazon SageMaker Spark für maschinelles Lernen
- Eine Spark-Anwendung schreiben
- Verbessern der Spark Leistung mit Amazon S3
- Einen Spark-Schritt hinzufügen
- Anzeigen des Spark-Anwendungsverlaufs
- Greifen Sie auf das Spark-Web zu UIs
- Verwenden des Amazon Kinesis Data Streams-Connectors für strukturiertes Streaming mit Spark
- Verwenden der Amazon Redshift Redshift-Integration für Apache Spark mit Amazon EMR
- Spark-Versionsverlauf