Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Réglage Spark SQL requêtes pour AWS Glue et Amazon EMR Spark jobs
Phani Alapaty et Ravikiran Rao, Amazon Web Services ()AWS
Janvier 2024 (historique du document)
Spark SQL
La jonction de données est l'une des opérations les plus courantes et les plus importantes que vous puissiez effectuer lors de l'extraction, de la transformation ou du chargement de données dans des magasins d'objets ou des bases de données. Lorsque vous vous inscrivez, vous devez tenir compte des performances. Il existe plusieurs scénarios, tels que des transferts réseau importants, lorsque certaines opérations de jointure, d'analyse ou d'agrégation manquent de mémoire. Cela peut provoquer AWS Glue Spark travail voué à l'échec.
Ce guide présente les meilleures pratiques qui vous aideront à optimiser Spark SQL rejoignez des requêtes pour AWS Glue des offres d'emploi Amazon EMR. Spark fournit de nombreuses options de configuration qui améliorent les performances du Spark SQL charge de travail. Ces ajustements peuvent être effectués par programmation ou vous pouvez les appliquer au niveau global à l'aide de la spark-submit
commande. Ce guide explique certaines de ces configurations afin que vous puissiez améliorer ou affiner les performances de votre Spark SQL requêtes et applications. Les recommandations de ce guide sont basées sur les configurations utilisées par les services AWS
professionnels pour améliorer les performances de Spark SQL requêtes et applications.
Public visé
Ce guide aide les architectes, les ingénieurs de données, les scientifiques des données et les développeurs à comprendre Spark SQL options de configuration qui améliorent les performances de Spark SQL requêtes.