本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
为 Amazon EMR 5.19.0 启用经 EMRFS S3 优化的提交程序
如果您使用的是 Amazon EMR 5.19.0,则可以在从 Spark 中创建集群时手动将 spark.sql.parquet.fs.optimized.committer.optimization-enabled
属性设置为 true
(如果您使用的是 Amazon EMR)。
在创建集群时启用经 EMRFS S3 优化的提交程序
使用 spark-defaults
配置分类将 spark.sql.parquet.fs.optimized.committer.optimization-enabled
属性设置为 true
。有关更多信息,请参阅配置应用程序。
从 Spark 启用经 EMRFS S3 优化的提交程序
您可以将 spark.sql.parquet.fs.optimized.committer.optimization-enabled
设置为 true
,方法是在 SparkConf
中对其进行硬编码,并在 Spark Shell 或 spark-submit
和 spark-sql
工具或 conf/spark-defaults.conf
中将其作为 --conf
参数进行传递。有关更多信息,请参阅 Apache Spark 文档中的 Spark 配置
以下示例显示了如何在运行 spark-sql 命令的同时启用提交程序。
spark-sql \
--conf spark.sql.parquet.fs.optimized.committer.optimization-enabled=true \
-e "INSERT OVERWRITE TABLE target_table SELECT * FROM source_table;"