AWS Glue および Amazon EMR SparkジョブのSpark SQLクエリの調整

Phani Alapaty と Ravikiran Rao、Amazon Web Services (AWS）

2024 年 1 月 (ドキュメント履歴）

Spark SQL は、構造化データを処理するためのApache Sparkモジュールです。Amazon EMR および AWS GlueジョブはSpark SQL、を使用してデータの処理、変換、ロードを行います。基本的なSpark回復力のある分散データセット (RDD) API とは異なり、Spark SQLインターフェイスはデータと実行される計算の両方の構造Sparkに関する詳細情報をに提供します。内部的には、はこの追加情報Spark SQLを使用して追加のクエリ最適化を実行します。SQL やデータセット API などSpark SQL、を操作する方法はいくつかあります。

データの結合は、オブジェクトストアまたはデータベースにデータを抽出、変換、またはロードするときに実行できる、最も一般的で重要なオペレーションの 1 つです。参加するときは、パフォーマンスを考慮する必要があります。結合、分析、または集計オペレーションの一部がメモリ不足になる場合、大規模なネットワーク転送など、複数のシナリオがあります。これにより、ジョブが AWS Glue Spark失敗する可能性があります。

このガイドでは、 AWS Glue または Amazon EMR ジョブのSpark SQL結合クエリを調整するのに役立つベストプラクティスを提供します。 Sparkには、Spark SQLワークロードのパフォーマンスを向上させる多くの設定オプションが用意されています。これらの調整はプログラムで行うことも、 spark-submit コマンドを使用してグローバルレベルで適用することもできます。このガイドでは、Spark SQLクエリとアプリケーションのパフォーマンスを改善または微調整できるように、これらの設定の一部について説明します。このガイドの推奨事項は、Spark SQLクエリとアプリケーションのパフォーマンスを向上させるためにプロフェッショナルサービスが AWS 使用する設定に基づいています。

対象者

このガイドは、アーキテクト、データエンジニア、データサイエンティスト、デベロッパーが、Spark SQLクエリのパフォーマンスを向上させるSpark SQL設定オプションを理解するのに役立ちます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

アーキテクチャ