本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Apache Spark
Apache Spark
Spark 原本就支援 Scala、Python 和 Java 編寫的應用程式。它也包含數個緊密整合的程式庫,適用於 SQL(Spark )、機器學習 ()MLlib
您可以在 Amazon EMR叢集和其他 Hadoop 應用程式上安裝 Spark,也可以利用 Amazon EMR 檔案系統 (EMRFS) 直接存取 Amazon S3 中的資料。Hive 也與 Spark 整合,因此您可以使用 HiveContext 物件使用 Spark 執行 Hive 指令碼。Hive 內容包含在 spark-shell 做為 sqlContext
。
如需使用 Spark 設定EMR叢集和分析範例資料集的範例教學課程,請參閱 AWS 新聞部落格EMR上的教學課程:開始使用 Amazon。
重要
Apache Spark 2.3.1 版,從 Amazon 5.16.0 EMR版開始提供,地址為 CVE-2018-8024
下表列出 Amazon EMR 7.x 系列最新版本中包含的 Spark 版本,以及 Amazon 搭配 Spark EMR 安裝的元件。
如需此版本中與 Spark 一起安裝的元件版本,請參閱 7.3.0 版元件版本 。
Amazon EMR發行標籤 | Spark 版本 | 與 Spark 一起搭配安裝的元件 |
---|---|---|
emr-7.3.0 |
Spark 3.5.1 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
下表列出 Amazon EMR 6.x 系列最新版本中包含的 Spark 版本,以及 Amazon 搭配 Spark EMR 安裝的元件。
如需此版本中與 Spark 一起搭配安裝的元件版本,請參閱發行版本 6.15.0 元件版本。
Amazon EMR發行標籤 | Spark 版本 | 與 Spark 一起搭配安裝的元件 |
---|---|---|
emr-6.15.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
注意
Amazon 6.8.0 EMR版隨附 Apache Spark 3.3.0。此 Spark 版本使用 Apache Log4j 2 和 log4j2.properties
檔案,以設定 Spark 程序中的 Log4j。如果您在叢集中使用 Spark 或使用自訂組態參數建立EMR叢集,而且想要升級至 Amazon 6.8.0 EMR版,則必須遷移至 Apache Log4j 2 的新spark-log4j2
組態分類和金鑰格式。如需詳細資訊,請參閱從 Apache Log4j 1.x 遷移至 Log4j 2.x。
下表列出 Amazon EMR 5.x 系列最新版本中包含的 Spark 版本,以及 Amazon 搭配 Spark EMR 安裝的元件。
如需此版本中與 Spark 一起安裝的元件版本,請參閱 5.36.2 版元件版本 。
Amazon EMR發行標籤 | Spark 版本 | 與 Spark 一起搭配安裝的元件 |
---|---|---|
emr-5.36.2 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
主題
- 使用 Apache Spark 建立叢集
- 在 Amazon 6.x 上使用 Docker EMR 執行 Spark 應用程式
- 使用 AWS Glue Data Catalog 作為 Spark 的中繼存放區 SQL
- 設定 Spark
- 優化 Spark 效能
- Spark 結果片段快取
- 使用適用於 Apache Spark 的 Nvidia RAPIDS Accelerator
- 存取 Spark Shell
- 使用 Amazon SageMaker Spark 進行機器學習
- 撰寫 Spark 應用程式
- 使用 Amazon S3 提升 Spark 效能
- 新增 Spark 步驟
- 檢視 Spark 應用程式歷史記錄
- 存取 Spark Web UIs
- 使用 Spark 結構化串流 Amazon Kinesis Data Streams 連接器
- 將 Amazon Redshift 整合用於 Apache Spark 與 Amazon EMR
- Spark 版本歷史記錄