本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
优化 Spark SQL 查询 AWS Glue 和 Amazon EMR Spark jobs
Phani Alapaty 和 Ravikiran Rao,Amazon Web Services ()AWS
2024 年 1 月(文件历史记录)
Spark SQL
在提取、转换数据或将数据加载到对象存储或数据库时,连接数据是您可以执行的最常见和最重要的操作之一。加入时,您需要考虑绩效。当某些联接、分析或聚合操作耗尽内存时,会出现多种情况,例如大型网络传输。这可能会导致 AWS Glue Spark 工作失败。
本指南提供了可帮助您调整的最佳实践 Spark SQL 加入我们的 AWS Glue Amazon EMR 职位的查询。Spark 提供了许多可提高性能的配置选项 Spark SQL 工作量。这些调整可以通过编程方式完成,也可以使用spark-submit
命令将其应用于全局级别。本指南介绍了其中的一些配置,以便您可以改进或微调您的性能 Spark SQL 查询和应用程序。本指南中的建议基于 AWS
专业服务用于提高性能的配置 Spark SQL 查询和应用程序。
目标受众
本指南可帮助架构师、数据工程师、数据科学家和开发人员了解 Spark SQL 可提高性能的配置选项 Spark SQL 查询。