Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Optimieren Spark SQL Anfragen für AWS Glue und Amazon EMR Spark jobs
Phani Alapaty und Ravikiran Rao, Amazon Web Services ()AWS
Januar 2024 (Geschichte der Dokumente)
Spark SQL
Das Verbinden von Daten ist eine der häufigsten und wichtigsten Operationen, die Sie beim Extrahieren, Transformieren oder Laden von Daten in Objektspeicher oder Datenbanken ausführen können. Beim Verbinden müssen Sie die Leistung berücksichtigen. Es gibt mehrere Szenarien, wie z. B. große Netzwerkübertragungen, wenn für einige der Verbindungs-, Analyse- oder Aggregationsvorgänge nicht genügend Arbeitsspeicher zur Verfügung steht. Dies kann dazu führen, dass AWS Glue Spark Job scheitern.
Dieser Leitfaden enthält bewährte Methoden, die Ihnen bei der Feinabstimmung helfen Spark SQL Anfragen für AWS Glue Amazon EMR-Jobs verbinden. Spark bietet viele Konfigurationsoptionen, die die Leistung des verbessern Spark SQL Arbeitslast. Diese Anpassungen können programmgesteuert vorgenommen werden, oder Sie können sie mithilfe des Befehls auf globaler Ebene anwenden. spark-submit
In diesem Handbuch werden einige dieser Konfigurationen erläutert, sodass Sie die Leistung Ihres Geräts verbessern oder optimieren können Spark SQL Abfragen und Anwendungen. Die Empfehlungen in diesem Handbuch basieren auf Konfigurationen, die AWS
Professional Services verwendet, um die Leistung von zu verbessern Spark SQL Abfragen und Anwendungen.
Zielgruppe
Dieser Leitfaden hilft Architekten, Dateningenieuren, Datenwissenschaftlern und Entwicklern, die Spark SQL Konfigurationsoptionen, die die Leistung von verbessern Spark SQL Abfragen.