本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Apache Spark
Apache Spark
Spark 原本就支援 Scala、Python 和 Java 編寫的應用程式。它還包括幾個緊密集成的庫SQL(Spark SQL
您可以將 Spark 與其他 Hadoop 應用程式一起安裝在 Amazon EMR 叢集上,也可以利用 Amazon EMR 檔案系統 (EMRFS) 直接存取 Amazon S3 中的資料。蜂巢還集成了星火,這樣就可以使用一個 HiveContext 對象使用星火運行蜂巢腳本。Hive 內容包含在 spark-shell 做為 sqlContext
。
如需使用 Spark 設定EMR叢集和分析範例資料集的範例教學課程,請參閱 AWS News 部落格EMR上的教學課程:Amazon 入門。
下表列出了 Amazon EMR 7.x 系列最新版本中包含的 Spark 版本,以及 Amazon 與 Spark 一起EMR安裝的組件。
如需此發行版本中隨 Spark 一起安裝的元件版本,請參閱 7.2.0 版元件版本。
火花版本信息 EMR 7.2.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR 發布標籤 | Spark 版本 | 與 Spark 一起搭配安裝的元件 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
埃姆尔 -7.2.0 |
Spark 3.5.1 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
下表列出了 Amazon EMR 6.x 系列最新版本中包含的 Spark 版本,以及 Amazon 與 Spark 一起EMR安裝的組件。
如需此版本中與 Spark 一起搭配安裝的元件版本,請參閱發行版本 6.15.0 元件版本。
emr-6.15.0 的 Spark 版本資訊 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR 發布標籤 | Spark 版本 | 與 Spark 一起搭配安裝的元件 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
注意
Amazon EMR 版本 6.8.0 配備了阿帕奇星火 3.3.0。此 Spark 版本使用 Apache Log4j 2 和 log4j2.properties
檔案,以設定 Spark 程序中的 Log4j。如果您在叢集中使用 Spark 或使用自訂組態參數建立EMR叢集,並且想要升級至 Amazon 6.8.0 EMR 版,則必須移轉至 Apache Log4j 2 的新spark-log4j2
組態分類和金鑰格式。如需詳細資訊,請參閱 從 Apache Log4j 1.x 遷移至 Log4j 2.x。
下表列出了 Amazon EMR 5.x 系列最新版本中包含的 Spark 版本,以及 Amazon 與 Spark 一起EMR安裝的組件。
如需此版本中隨 Spark 一起安裝的元件版本,請參閱版本 5.36.2 元件版本。
火花版本信息為 emr-5.36.2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR 發布標籤 | Spark 版本 | 與 Spark 一起搭配安裝的元件 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
埃姆尔 -5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
主題
- 使用 Apache Spark 建立叢集
- 在 Amazon EMR 6.x 上使用泊塢窗運行星火應用程序
- 使用 AWS Glue 資料目錄做為 Spark 的中繼存放區 SQL
- 設定 Spark
- 優化 Spark 效能
- Spark 結果片段快取
- 使用 Nvidia RAPIDS 加速器阿帕奇星火
- 存取 Spark Shell
- 使用 Amazon SageMaker 星火進行機器學習
- 撰寫 Spark 應用程式
- 使用 Amazon S3 提升 Spark 效能
- 新增 Spark 步驟
- 檢視 Spark 應用程式歷史記錄
- 存取星火網路 UIs
- 使用 Spark 結構化串流 Amazon Kinesis Data Streams 連接器
- 使用 Amazon Redshift 集成阿帕奇星火與 Amazon EMR
- Spark 版本歷史記錄