Réglage Spark SQL requêtes pour AWS Glue et Amazon EMR Spark jobs

Phani Alapaty et Ravikiran Rao, Amazon Web Services ()AWS

Janvier 2024 (historique du document)

Spark SQLest un Apache Spark module de traitement de données structurées. Amazon EMR et utilisation des emplois AWS Glue Spark SQL pour traiter, transformer et charger des données. Contrairement au basique Spark API de jeu de données distribué résilient (RDD), le Spark SQL les interfaces fournissent plus d'informations à Spark sur la structure des données et du calcul effectué. Sur le plan interne, Spark SQL utilise ces informations supplémentaires pour effectuer des optimisations de requêtes supplémentaires. Il existe plusieurs manières d'interagir avec Spark SQL, y compris SQL et l'API Dataset.

La jonction de données est l'une des opérations les plus courantes et les plus importantes que vous puissiez effectuer lors de l'extraction, de la transformation ou du chargement de données dans des magasins d'objets ou des bases de données. Lorsque vous vous inscrivez, vous devez tenir compte des performances. Il existe plusieurs scénarios, tels que des transferts réseau importants, lorsque certaines opérations de jointure, d'analyse ou d'agrégation manquent de mémoire. Cela peut provoquer AWS Glue Spark travail voué à l'échec.

Ce guide présente les meilleures pratiques qui vous aideront à optimiser Spark SQL rejoignez des requêtes pour AWS Glue des offres d'emploi Amazon EMR. Spark fournit de nombreuses options de configuration qui améliorent les performances du Spark SQL charge de travail. Ces ajustements peuvent être effectués par programmation ou vous pouvez les appliquer au niveau global à l'aide de la spark-submit commande. Ce guide explique certaines de ces configurations afin que vous puissiez améliorer ou affiner les performances de votre Spark SQL requêtes et applications. Les recommandations de ce guide sont basées sur les configurations utilisées par les services AWS professionnels pour améliorer les performances de Spark SQL requêtes et applications.

Public visé

Ce guide aide les architectes, les ingénieurs de données, les scientifiques des données et les développeurs à comprendre Spark SQL options de configuration qui améliorent les performances de Spark SQL requêtes.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Architecture