Optimieren Spark SQL Anfragen für AWS Glue und Amazon EMR Spark jobs

Phani Alapaty und Ravikiran Rao, Amazon Web Services ()AWS

Januar 2024 (Geschichte der Dokumente)

Spark SQList ein Apache Spark Modul zur Verarbeitung strukturierter Daten. Amazon EMR und die Nutzung von AWS GlueArbeitsplätzen Spark SQL um Daten zu verarbeiten, zu transformieren und zu laden. Im Gegensatz zu den Basisversionen Spark belastbare API für verteilte Datensätze (RDD), die Spark SQL Schnittstellen bieten weitere Informationen zu Spark über die Struktur sowohl der Daten als auch der durchgeführten Berechnung. Intern Spark SQL verwendet diese zusätzlichen Informationen, um zusätzliche Abfrageoptimierungen durchzuführen. Es gibt mehrere Möglichkeiten zur Interaktion mit Spark SQL, einschließlich SQL und der Dataset-API.

Das Verbinden von Daten ist eine der häufigsten und wichtigsten Operationen, die Sie beim Extrahieren, Transformieren oder Laden von Daten in Objektspeicher oder Datenbanken ausführen können. Beim Verbinden müssen Sie die Leistung berücksichtigen. Es gibt mehrere Szenarien, wie z. B. große Netzwerkübertragungen, wenn für einige der Verbindungs-, Analyse- oder Aggregationsvorgänge nicht genügend Arbeitsspeicher zur Verfügung steht. Dies kann dazu führen, dass AWS Glue Spark Job scheitern.

Dieser Leitfaden enthält bewährte Methoden, die Ihnen bei der Feinabstimmung helfen Spark SQL Anfragen für AWS Glue Amazon EMR-Jobs verbinden. Spark bietet viele Konfigurationsoptionen, die die Leistung des verbessern Spark SQL Arbeitslast. Diese Anpassungen können programmgesteuert vorgenommen werden, oder Sie können sie mithilfe des Befehls auf globaler Ebene anwenden. spark-submit In diesem Handbuch werden einige dieser Konfigurationen erläutert, sodass Sie die Leistung Ihres Geräts verbessern oder optimieren können Spark SQL Abfragen und Anwendungen. Die Empfehlungen in diesem Handbuch basieren auf Konfigurationen, die AWS Professional Services verwendet, um die Leistung von zu verbessern Spark SQL Abfragen und Anwendungen.

Zielgruppe

Dieser Leitfaden hilft Architekten, Dateningenieuren, Datenwissenschaftlern und Entwicklern, die Spark SQL Konfigurationsoptionen, die die Leistung von verbessern Spark SQL Abfragen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Architektur