本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Apache Spark
Apache Spark
Spark 原本就支援 Scala、Python 和 Java 編寫的應用程式。它還包含數個緊密整合程式庫,可供 SQL (Spark SQL
您可以在 Amazon EMR 叢集上安裝 Spark 以及其他 Hadoop 應用程式,也可以利用 Amazon EMR 檔案系統 (EMRFS) 直接存取 Amazon S3 中的資料。蜂巢還集成了星火,這樣就可以使用一個 HiveContext 對象使用星火運行蜂巢腳本。Hive 內容包含在 spark-shell 做為 sqlContext
。
如需使用 Spark 設定 EMR 叢集和分析範例資料集的範例教學課程,請參閱 AWS 新聞部落格上的教學課程:Amazon EMR 入門。
重要
自 Amazon EMR 5.16.0 版開始提供 Apache Spark 版本 2.3.1,以因應 CVE-2018-8024
以下表格列出了 Amazon EMR 7.x 系列最新版本中包含的 Spark 版本,以及 Amazon EMR 隨 Spark 一起安裝的元件。
如需此發行版本中隨 Spark 一起安裝的元件版本,請參閱 7.1.0 版元件版本。
火花版本信息 EMR 7.1.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR 發行標籤 | Spark 版本 | 與 Spark 一起搭配安裝的元件 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
埃姆尔 -7.1.0 |
Spark 3.5.0 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
下表列出 Amazon EMR 6.x 系列最新版本中包含的 Spark 版本,以及 Amazon EMR 隨 Spark 一起安裝的元件。
如需此版本中與 Spark 一起搭配安裝的元件版本,請參閱發行版本 6.15.0 元件版本。
emr-6.15.0 的 Spark 版本資訊 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR 發行標籤 | Spark 版本 | 與 Spark 一起搭配安裝的元件 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
注意
Amazon EMR 6.8.0 版隨附 Apache Spark 3.3.0。此 Spark 版本使用 Apache Log4j 2 和 log4j2.properties
檔案,以設定 Spark 程序中的 Log4j。如果您在叢集中使用 Spark,或使用自訂組態參數建立 EMR 叢集,並且想要升級至 Amazon EMR 6.8.0 版,則必須為 Apache Log4j 2 遷移至新的 spark-log4j2
組態分類和金鑰格式。如需詳細資訊,請參閱 從 Apache Log4j 1.x 遷移至 Log4j 2.x。
下表列出 Amazon EMR 5.x 系列最新版本中包含的 Spark 版本,以及 Amazon EMR 隨 Spark 一起安裝的元件。
如需此版本中隨 Spark 一起安裝的元件版本,請參閱版本 5.36.2 元件版本。
火花版本信息為 emr-5.36.2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR 發行標籤 | Spark 版本 | 與 Spark 一起搭配安裝的元件 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
埃姆尔 -5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
主題
- 使用 Apache Spark 建立叢集
- 在 Amazon EMR 6.x 上使用 Docker 執行 Spark 應用程式
- 使用「 AWS Glue 合資料目錄」做為星火 SQL 的中繼存放區
- 設定 Spark
- 優化 Spark 效能
- Spark 結果片段快取
- 使用適用於 Apache Spark 的 Nvidia RAPIDS Accelerator
- 存取 Spark Shell
- 使用 Amazon SageMaker 星火進行機器學習
- 撰寫 Spark 應用程式
- 使用 Amazon S3 提升 Spark 效能
- 新增 Spark 步驟
- 檢視 Spark 應用程式歷史記錄
- 存取 Spark Web UI
- 使用 Spark 結構化串流 Amazon Kinesis Data Streams 連接器
- 使用 Amazon EMR 整合 Amazon Redshift 與 Apache Spark
- Spark 版本歷史記錄