Verwenden von Apache Spark in Amazon Athena - Amazon Athena

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von Apache Spark in Amazon Athena

Amazon Athena vereinfacht die interaktive Ausführung von Datenanalysen und -erkundungen mithilfe von Apache Spark, ohne dass Sie Ressourcen planen, konfigurieren oder verwalten müssen. Das Ausführen von Apache-Spark-Anwendungen auf Athena bedeutet, dass Spark-Code zur Verarbeitung übermittelt und die Ergebnisse direkt empfangen werden, ohne dass eine zusätzliche Konfiguration erforderlich ist. Sie können die vereinfachte Notebook-Erfahrung in der Amazon-Athena-Konsole verwenden, um Apache-Spark-Anwendungen mit Python oder Athena-Notebook-APIs zu entwickeln. Apache Spark auf Amazon Athena ist Serverless und bietet eine automatische, bedarfsgerechte Skalierung, die sofortige Rechenleistung für wechselnde Daten-Volumes und Verarbeitungsanforderungen bereitstellt.

Amazon Athena bietet die folgenden Features:

  • Verwendung der Konsole – Übermitteln Sie Ihre Spark-Anwendungen über die Amazon-Athena-Konsole.

  • Scripting – Erstellen und debuggen Sie schnell und interaktiv Apache-Spark-Anwendungen in Python.

  • Dynamische Skalierung – Amazon Athena bestimmt automatisch die Rechen- und Arbeitsspeicherressourcen, die zum Ausführen eines Auftrags erforderlich sind, und skaliert diese Ressourcen fortlaufend entsprechend bis zu den von Ihnen angegebenen Höchstwerten. Diese dynamische Skalierung reduziert die Kosten, ohne die Geschwindigkeit zu beeinträchtigen.

  • Notebook-Erlebnis – Verwenden Sie den Athena-Notebook-Editor, um Berechnungen über eine vertraute Benutzeroberfläche zu erstellen, zu bearbeiten und auszuführen. Athena-Notebooks sind mit Jupyter Notebooks kompatibel und enthalten eine Liste von Zellen, die der Reihe nach als Berechnungen ausgeführt werden. Zelleninhalte können Code, Text, Markdown, Mathematik, Diagramme und Multimedia enthalten.

Weitere Informationen finden Sie unter Ausführen von Spark SQL auf Amazon Athena Spark und Erkunden Sie Ihren Data Lake mit Amazon Athena for Apache Spark im AWS Big Data-Blog.

Überlegungen und Einschränkungen

  • Derzeit ist Amazon Athena für Apache Spark in den folgenden AWS-Regionen verfügbar:

    • Asia Pacific (Mumbai)

    • Asien-Pazifik (Singapur)

    • Asien-Pazifik (Sydney)

    • Asien-Pazifik (Tokio)

    • Europe (Frankfurt)

    • Europa (Irland)

    • USA Ost (Nord-Virginia)

    • USA Ost (Ohio)

    • USA West (Oregon)

  • AWS Lake Formation wird nicht unterstützt.

  • Tabellen, die Partitionsprojektion verwenden, werden nicht unterstützt.

  • Apache-Spark-fähige Arbeitsgruppen können den Athena-Notebook-Editor verwenden, aber nicht den Athena-Abfrage-Editor. Nur Athena-SQL-Arbeitsgruppen können den Athena-Abfrageeditor verwenden.

  • Engine-übergreifende Ansichten-Abfragen werden nicht unterstützt. Mit Athena SQL erstellte Ansichten können von Athena für Spark nicht abgefragt werden. Da die Ansichten für die beiden Engines unterschiedlich implementiert sind, sind sie nicht für die Engine-übergreifende Verwendung kompatibel.

  • MLLib (Apache Spark-Bibliothek für maschinelles Lernen) und das pyspark.ml Paket werden nicht unterstützt. Eine Liste der unterstützten Python-Bibliotheken finden Sie unter Liste der vorinstallierten Python-Bibliotheken.

  • Wird derzeit in Athena für Spark-Sitzungen nicht unterstützt. pip install

  • Pro Notebook ist nur eine aktive Sitzung zulässig.

  • Wenn mehrere Benutzer die Konsole zum Öffnen einer vorhandenen Sitzung in einer Arbeitsgruppe verwenden, greifen diese auf dasselbe Notebook zu. Um Verwirrung zu vermeiden, öffnen Sie nur Sitzungen, die Sie selbst erstellt haben.

  • Die Hosting-Domains für Apache Spark-Anwendungen, die Sie möglicherweise mit Amazon Athena verwenden (z. B. analytics-gateway.us-east-1.amazonaws.com), sind in der Internet Public Suffix List (PSL) registriert. Falls Sie jemals sensible Cookies in Ihren Domains einrichten müssen, empfehlen wir Ihnen, Cookies mit einem __Host--Präfix zu verwenden, um Ihre Domain vor CSRF-Versuchen (Cross-Site Request Forgery) zu schützen. Weitere Informationen finden Sie auf der Set-Cookie-Seite in der Entwicklerdokumentation von Mozilla.org.

  • Informationen zur Fehlerbehebung bei Spark-Notebooks, -Sitzungen und -Arbeitsgruppen in Athena finden Sie unter Fehlerbehebung in Athena für Spark.