Otimize as tarefas do Spark no Studio EMR - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Otimize as tarefas do Spark no Studio EMR

Ao executar um trabalho do Spark usando o EMR Studio, há algumas etapas que você pode seguir para ajudar a garantir que você esteja otimizando seus recursos de EMR cluster da Amazon.

Prolongamento da sessão do Livy

Se você usa o Apache Livy junto com o Spark em seu EMR cluster Amazon, recomendamos que você aumente o tempo limite da sessão do Livy fazendo o seguinte:

  • Ao criar um EMR cluster da Amazon, defina essa classificação de configuração no campo Inserir configuração.

    [ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]
  • Para um cluster já em execução, conecte-se ao seu EMR cluster usando ssh e defina a classificação da livy-conf configuração em. /etc/livy/conf/livy.conf

    [ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]

    Pode ser necessário reiniciar o Livy após alterar a configuração.

  • Se você não deseja que sua sessão do Livy expire, defina a propriedade livy.server.session.timeout-check como false em /etc/livy/conf/livy.conf.

Execução do Spark no modo de cluster

No modo de cluster, o driver do Spark é executado em um nó central em vez de no nó primário, melhorando a utilização de recursos no nó primário.

Para executar seu aplicativo Spark no modo cluster em vez do modo cliente padrão, escolha o modo Cluster ao definir o modo Deploy enquanto configura sua etapa do Spark em seu novo cluster Amazon. EMR Para obter mais informações, consulte Cluster mode overview na documentação do Apache Spark.

Aumento da memória do driver do Spark

Para aumentar a memória do driver do Spark, configure sua sessão do Spark usando o comando %%configure mágico em seu EMR notebook, como no exemplo a seguir.

%%configure -f {"driverMemory": "6000M"}