Apache Spark - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Apache Spark

Apache Sparkist ein verteiltes Verarbeitungsframework und ein Programmiermodell, mit dem Sie maschinelles Lernen, Stream-Verarbeitung oder Graphenanalyse mithilfe von Amazon EMR-Clustern durchführen können. Ähnlich wie Apache Hadoop ist Spark ein verteiltes Open-Source-Verarbeitungssystem, das häufig für große Workloads verwendet wird. Spark weist jedoch einige bemerkenswerte Unterschiede zu Hadoop auf. MapReduce. Spark hat eine optimierte DAG-Ausführungs-Engine (Directed Acyclic Graph, gerichteter azyklischer Graph) und betreibt aktives In-Memory-Caching für Daten. Dies kann die Leistung insbesondere für bestimmte Algorithmen und interaktive Abfragen steigern.

Spark unterstützt standardmäßig Anwendungen, die in Scala, Java und Python geschrieben sind. Es enthält auch mehrere eng integrierte Bibliotheken für SQL (Spark-Version), maschinelles Lernen (MLB), Stream-Verarbeitung (Spark-Streaming) und Graphverarbeitung (GraphX) enthalten. Diese Tools vereinfachen die Nutzung des Spark-Frameworks für eine Vielzahl von Anwendungsfällen.

Sie können Spark zusammen mit anderen Hadoop-Anwendungen auf einem Amazon EMR-Cluster installieren und es kann auch das EMR-Dateisystem (EMRFS) nutzen, um direkt auf Daten in Amazon S3 zuzugreifen. Hive ist auch in Spark integriert, sodass Sie eine HiveContext Objekt, um Hive-Skripte mit Spark auszuführen. Ein Hive-Kontext ist als sqlContext Bestandteil der Spark-Shell.

Ein Beispiel-Tutorial zum Einrichten eines EMR-Clusters mit Spark und Analysieren eines Beispieldatensatzes finden Sie unterTutorial: Erste Schritte mit Amazon EMRauf derAWSNachrichtenblog.

Wichtig

Apache Spark Version 2.3.1, verfügbar ab Amazon EMR Release Version 5.16.0, AdressenCVE-2018-8024undCVE-2018-1334. Wir empfehlen, frühere Versionen von Spark auf Spark-Version 2.3.1 oder höher zu migrieren.

Die folgende Tabelle listet die Version von Spark auf, die in der neuesten Version der Amazon EMR 6.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Spark installiert.

Informationen zur Version der Komponenten, die in dieser Version mit Spark installiert wurden, finden Sie unterVersion 6.7.0 Komponentenversionen.

Spark-Versionsinformationen für emr-6.7.0
Amazon EMR-Release-Label Spark-Version Mit Spark installierte Komponenten

emr-6.7.0

Spark 3.2.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

Die folgende Tabelle listet die Version von Spark auf, die in der neuesten Version der Amazon EMR 5.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Spark installiert.

Informationen zur Version der Komponenten, die in dieser Version mit Spark installiert wurden, finden Sie unterVersion 5.36.0 Komponentenversionen.

Spark-Versionsinformationen für emr-5.36.0
Amazon EMR-Release-Label Spark-Version Mit Spark installierte Komponenten

emr-5.36.0

Spark 2.4.8

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave