翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Glue および Amazon EMR SparkジョブのSpark SQLクエリの調整
Phani Alapaty と Ravikiran Rao、Amazon Web Services (AWS)
2024 年 1 月 (ドキュメント履歴)
Spark SQL
データの結合は、オブジェクトストアまたはデータベースにデータを抽出、変換、またはロードするときに実行できる、最も一般的で重要なオペレーションの 1 つです。参加するときは、パフォーマンスを考慮する必要があります。結合、分析、または集計オペレーションの一部がメモリ不足になる場合、大規模なネットワーク転送など、複数のシナリオがあります。これにより、ジョブが AWS Glue Spark失敗する可能性があります。
このガイドでは、 AWS Glue または Amazon EMR ジョブのSpark SQL結合クエリを調整するのに役立つベストプラクティスを提供します。 Sparkには、Spark SQLワークロードのパフォーマンスを向上させる多くの設定オプションが用意されています。これらの調整はプログラムで行うことも、 spark-submit
コマンドを使用してグローバルレベルで適用することもできます。このガイドでは、Spark SQLクエリとアプリケーションのパフォーマンスを改善または微調整できるように、これらの設定の一部について説明します。このガイドの推奨事項は、Spark SQLクエリとアプリケーションのパフォーマンスを向上させるために プロフェッショナルサービスが AWS 使用する設定に基づいています。
対象者
このガイドは、アーキテクト、データエンジニア、データサイエンティスト、デベロッパーが、Spark SQLクエリのパフォーマンスを向上させるSpark SQL設定オプションを理解するのに役立ちます。