Optimieren Sie Spark-Jobs in EMR Studio - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Optimieren Sie Spark-Jobs in EMR Studio

Wenn Sie einen Spark-Job mit EMR Studio ausführen, können Sie einige Schritte unternehmen, um sicherzustellen, dass Sie Ihre EMR Amazon-Cluster-Ressourcen optimieren.

Ihre Livy-Sitzung verlängern

Wenn Sie Apache Livy zusammen mit Spark auf Ihrem EMR Amazon-Cluster verwenden, empfehlen wir Ihnen, Ihr Livy-Sitzungs-Timeout zu erhöhen, indem Sie einen der folgenden Schritte ausführen:

  • Wenn Sie einen EMR Amazon-Cluster erstellen, legen Sie diese Konfigurationsklassifizierung im Feld Konfiguration eingeben fest.

    [ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]
  • Stellen Sie für einen bereits laufenden EMR Cluster eine Verbindung zu Ihrem Cluster her ssh und legen Sie die livy-conf Konfigurationsklassifizierung unter fest. /etc/livy/conf/livy.conf

    [ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]

    Möglicherweise müssen Sie Livy neu starten, nachdem Sie die Konfiguration geändert haben.

  • Wenn Sie nicht möchten, dass es bei Ihrer Livy-Sitzung zu einem Timeout kommt, setzen Sie die Eigenschaft livy.server.session.timeout-check auf false in /etc/livy/conf/livy.conf.

Spark im Cluster-Modus ausführen

Im Clustermodus wird der Spark-Treiber auf einem Core-Knoten statt auf dem Primärknoten ausgeführt, wodurch die Ressourcennutzung auf dem Primärknoten verbessert wird.

Um Ihre Spark-Anwendung im Cluster-Modus statt im Standard-Client-Modus auszuführen, wählen Sie Cluster-Modus, wenn Sie bei der Konfiguration Ihres Spark-Schritts in Ihrem neuen EMR Amazon-Cluster den Bereitstellungsmodus festlegen. Weitere Informationen finden Sie unter Übersicht über den Clustermodus in der Apache-Spark-Dokumentation.

Den Spark-Treiberspeicher erhöhen

Um den Speicher des Spark-Treibers zu vergrößern, konfigurieren Sie Ihre Spark-Sitzung mit dem %%configure magischen Befehl in Ihrem EMR Notizbuch, wie im folgenden Beispiel.

%%configure -f {"driverMemory": "6000M"}