Optimiza los trabajos de Spark en EMR Studio - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Optimiza los trabajos de Spark en EMR Studio

Al ejecutar un trabajo de Spark con EMR Studio, hay algunos pasos que puedes seguir para asegurarte de que estás optimizando los recursos de tu EMR clúster de Amazon.

Prolongar la sesión de Livy

Si utilizas Apache Livy junto con Spark en tu EMR clúster de Amazon, te recomendamos que aumentes el tiempo de espera de la sesión de Livy siguiendo uno de estos procedimientos:

  • Al crear un EMR clúster de Amazon, defina esta clasificación de configuración en el campo Introducir configuración.

    [ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]
  • En el caso de un EMR clúster que ya esté en ejecución, conéctese a su clúster mediante la clasificación de livy-conf configuración ssh y establezca en ella. /etc/livy/conf/livy.conf

    [ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]

    Es posible que necesite reiniciar Livy después de cambiar la configuración.

  • Si no quiere que se agote el tiempo de espera de su sesión de Livy, configure la propiedad livy.server.session.timeout-check como false en /etc/livy/conf/livy.conf.

Ejecutar Spark en el modo de clúster

En el modo de clúster, el controlador de Spark se ejecuta en un nodo de núcleo en lugar de en el nodo principal, lo que mejora la utilización de los recursos en el nodo principal.

Para ejecutar tu aplicación Spark en modo clúster en lugar del modo cliente predeterminado, elige el modo Clúster al configurar el modo Implementación mientras configuras tu paso de Spark en tu nuevo EMR clúster de Amazon. Para obtener más información, consulte Cluster mode overview en la documentación de Apache Spark.

Aumentar la memoria del controlador de Spark

Para aumentar la memoria del controlador de Spark, configura tu sesión de Spark con el comando %%configure mágico de tu EMR portátil, como en el siguiente ejemplo.

%%configure -f {"driverMemory": "6000M"}