优化 Spark SQL 查询 AWS Glue 和 Amazon EMR Spark jobs

Phani Alapaty 和 Ravikiran Rao，Amazon Web Services ()AWS

2024 年 1 月（文件历史记录）

Spark SQL是一个 Apache Spark 用于处理结构化数据的模块。亚马逊 EMR 和工作使用 AWS Glue Spark SQL 处理、转换和加载数据。不像基本的 Spark 弹性分布式数据集 (RDD) API，Spark SQL 接口为提供更多信息 Spark 关于数据的结构和正在执行的计算。在内部，Spark SQL 使用这些额外信息来执行其他查询优化。有几种方式可以与之互动 Spark SQL，包括 SQL 和数据集 API。

在提取、转换数据或将数据加载到对象存储或数据库时，连接数据是您可以执行的最常见和最重要的操作之一。加入时，您需要考虑绩效。当某些联接、分析或聚合操作耗尽内存时，会出现多种情况，例如大型网络传输。这可能会导致 AWS Glue Spark 工作失败。

本指南提供了可帮助您调整的最佳实践 Spark SQL 加入我们的 AWS Glue Amazon EMR 职位的查询。Spark 提供了许多可提高性能的配置选项 Spark SQL 工作量。这些调整可以通过编程方式完成，也可以使用spark-submit命令将其应用于全局级别。本指南介绍了其中的一些配置，以便您可以改进或微调您的性能 Spark SQL 查询和应用程序。本指南中的建议基于 AWS 专业服务用于提高性能的配置 Spark SQL 查询和应用程序。

目标受众

本指南可帮助架构师、数据工程师、数据科学家和开发人员了解 Spark SQL 可提高性能的配置选项 Spark SQL 查询。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

架构