优化 Spark SQL 查询 AWS Glue 和 Amazon EMR Spark jobs - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

优化 Spark SQL 查询 AWS Glue 和 Amazon EMR Spark jobs

Phani Alapaty 和 Ravikiran Rao,Amazon Web Services ()AWS

2024 年 1 月文件历史记录

Spark SQL是一个 Apache Spark 用于处理结构化数据的模块。亚马逊 EMR 和工作使用 AWS Glue Spark SQL 处理、转换和加载数据。不像基本的 Spark 弹性分布式数据集 (RDD) API,Spark SQL 接口为提供更多信息 Spark 关于数据的结构和正在执行的计算。在内部,Spark SQL 使用这些额外信息来执行其他查询优化。有几种方式可以与之互动 Spark SQL,包括 SQL 和数据集 API。

在提取、转换数据或将数据加载到对象存储或数据库时,连接数据是您可以执行的最常见和最重要的操作之一。加入时,您需要考虑绩效。当某些联接、分析或聚合操作耗尽内存时,会出现多种情况,例如大型网络传输。这可能会导致 AWS Glue Spark 工作失败。

本指南提供了可帮助您调整的最佳实践 Spark SQL 加入我们的 AWS Glue Amazon EMR 职位的查询。Spark 提供了许多可提高性能的配置选项 Spark SQL 工作量。这些调整可以通过编程方式完成,也可以使用spark-submit命令将其应用于全局级别。本指南介绍了其中的一些配置,以便您可以改进或微调您的性能 Spark SQL 查询和应用程序。本指南中的建议基于 AWS 专业服务用于提高性能的配置 Spark SQL 查询和应用程序。

目标受众

本指南可帮助架构师、数据工程师、数据科学家和开发人员了解 Spark SQL 可提高性能的配置选项 Spark SQL 查询。