Optimisez les tâches Spark dans EMR Studio - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Optimisez les tâches Spark dans EMR Studio

Lorsque vous exécutez une tâche Spark à l'aide de EMR Studio, vous pouvez suivre quelques étapes pour optimiser les ressources de votre EMR cluster Amazon.

Prolongez votre session Livy

Si vous utilisez Apache Livy avec Spark sur votre EMR cluster Amazon, nous vous recommandons d'augmenter le délai d'expiration de votre session Livy en effectuant l'une des opérations suivantes :

  • Lorsque vous créez un EMR cluster Amazon, définissez cette classification de configuration dans le champ Enter Configuration.

    [ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]
  • Pour un cluster déjà actif, connectez-vous à votre EMR cluster en utilisant ssh et définissez la classification de livy-conf configuration dans. /etc/livy/conf/livy.conf

    [ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]

    Vous devrez peut-être redémarrer Livy après avoir modifié la configuration.

  • Si vous ne voulez pas que votre session Livy expire, définissez la propriété livy.server.session.timeout-check sur false dans /etc/livy/conf/livy.conf.

Exécuter Spark en mode cluster

En mode cluster, le pilote Spark s'exécute sur un nœud principal plutôt que sur le nœud primaire, ce qui améliore l'utilisation des ressources sur le nœud principal.

Pour exécuter votre application Spark en mode cluster au lieu du mode client par défaut, choisissez le mode Cluster lorsque vous définissez le mode Déploiement lors de la configuration de votre étape Spark dans votre nouveau EMR cluster Amazon. Pour plus d'informations, consultez Présentation du mode cluster dans la documentation Apache Spark.

Augmenter la mémoire du pilote Spark

Pour augmenter la mémoire du pilote Spark, configurez votre session Spark à l'aide de la commande %%configure magique de votre EMR bloc-notes, comme dans l'exemple suivant.

%%configure -f {"driverMemory": "6000M"}