Erste Schritte mit Apache Spark auf Amazon Athena - Amazon Athena

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erste Schritte mit Apache Spark auf Amazon Athena

Um mit Apache Spark auf Amazon Athena beginnen zu können, müssen Sie zunächst eine Spark-fähige Arbeitsgruppe erstellen. Nachdem Sie zur Arbeitsgruppe gewechselt sind, können Sie ein Notebook erstellen oder ein vorhandenes Notebook öffnen. Wenn Sie ein Notebook in Athena öffnen, wird automatisch eine neue Sitzung dafür gestartet und Sie können direkt im Athena-Notebook-Editor damit arbeiten.

Anmerkung

Stellen Sie sicher, dass Sie eine Spark-fähige Arbeitsgruppe erstellen, bevor Sie versuchen, ein Notebook zu erstellen.

Erstellen einer Spark-fähigen Arbeitsgruppe in Athena

Sie können Arbeitsgruppen in Athena verwenden, um Benutzer, Teams, Anwendungen oder Workloads zu gruppieren und Kosten zu verfolgen. Um Apache Spark in Amazon Athena zu verwenden, erstellen Sie eine Amazon-Athena-Arbeitsgruppe, die eine Spark-Engine verwendet.

Anmerkung

Apache-Spark-fähige Arbeitsgruppen können den Athena-Notebook-Editor verwenden, aber nicht den Athena-Abfrage-Editor. Nur Athena-SQL-Arbeitsgruppen können den Athena-Abfrageeditor verwenden.

So erstellen Sie eine Spark-fähige Arbeitsgruppe in Athena
  1. Öffnen Sie die Athena-Konsole unter https://console.aws.amazon.com/athena/

  2. Wenn der Navigationsbereich in der Konsole nicht sichtbar ist, wählen Sie das Erweiterungsmenü auf der linken Seite.

    Wählen Sie das Erweiterungsmenü aus.
  3. Wählen Sie im Navigationsbereich die Option Arbeitsgruppen aus.

  4. Wählen Sie auf der Seite Workgroups (Arbeitsgruppen) die Option Create workgroup (Arbeitsgruppe erstellen) aus.

  5. Geben Sie als Workgroup name (Arbeitsgruppenname) einen Namen für Ihre Apache-Spark-Arbeitsgruppe ein.

  6. (Optional) Geben Sie im Feld Description (Beschreibung) eine Beschreibung für Ihre Arbeitsgruppe ein.

  7. Wählen Sie als Analytics engine (Analytik-Engine) die Option Apache Spark aus.

    Anmerkung

    Nachdem Sie eine Arbeitsgruppe erstellt haben, kann der Analytik-Engine-Typ der Arbeitsgruppe nicht mehr geändert werden. Beispielsweise kann eine Arbeitsgruppe der Athena Engine Version 3 nicht in eine Arbeitsgruppe der PySpark Engine Version 3 geändert werden.

  8. Wählen Sie für die Zwecke dieses Tutorials Turn on example notebook (Beispiel-Notebook aktivieren) aus. Diese optionale Funktion fügt Ihrer Arbeitsgruppe ein Beispielnotizbuch mit dem Namen example-notebook-random_string hinzu und fügt AWS Glue zugehörige Berechtigungen hinzu, die das Notizbuch verwendet, um bestimmte Datenbanken und Tabellen in Ihrem Konto zu erstellen, anzuzeigen und zu löschen, sowie Leseberechtigungen in Amazon S3 für den Beispieldatensatz. Um die hinzugefügten Berechtigungen anzuzeigen, wählen Sie View additional permissions details (Details zu zusätzlichen Berechtigungen anzeigen) aus.

    Anmerkung

    Für den Betrieb des Beispiel-Notebooks können zusätzliche Kosten anfallen.

  9. Führen Sie für Additional configurations (Zusätzliche Konfigurationen) einen der folgenden Schritte aus:

    • Verwenden Sie die Einstellung Use defaults (Standardwerte verwenden). Diese Option ist die Standardoption und hilft Ihnen beim Einstieg in Ihre Spark-fähige Arbeitsgruppe. Mit dieser Option erstellt Athena für Sie eine IAM-Rolle und einen Speicherort für Berechnungsergebnisse in Amazon S3. Der Name der IAM-Rolle und der zu erstellende S3-Bucket-Speicherort werden in dem Feld unter der Überschrift Additional configurations (Zusätzliche Konfigurationen) angezeigt.

    • Deaktivieren Sie die Einstellung Use defaults (Standardwerte verwenden) und fahren Sie anschließend mit den Schritten im Festlegen Ihrer eigenen Arbeitsgruppenkonfigurationen-Abschnitt fort, um Ihre Arbeitsgruppe manuell zu konfigurieren.

  10. (Optional) Tags – Verwenden Sie diese Option, um Ihrer Arbeitsgruppe Tags hinzuzufügen. Weitere Informationen finden Sie unter Markieren von Athena-Ressourcen.

  11. Wählen Sie Create workgroup (Arbeitsgruppe erstellen) aus. Eine Meldung informiert Sie darüber, dass die Arbeitsgruppe erfolgreich erstellt wurde, und die Arbeitsgruppe wird in der Liste der Arbeitsgruppen angezeigt.

Festlegen Ihrer eigenen Arbeitsgruppenkonfigurationen

Wenn Sie Ihre eigene IAM-Rolle und den Speicherort der Berechnungsergebnisse für Ihr Notebook festlegen möchten, folgen Sie den Schritten in diesem Abschnitt. Wenn Sie Use defaults (Standardwerte verwenden) für die Option Additional configurations (Zusätzliche Konfigurationen) ausgewählt haben, überspringen Sie diesen Abschnitt und gehen Sie direkt zu Öffnen des Notebook-Explorers und Wechseln der Arbeitsgruppen .

Das folgende Verfahren setzt voraus, dass Sie die Schritte 1 bis 9 des Verfahrens To create a Spark enabled workgroup in Athena (So erstellen Sie eine Spark-fähige Arbeitsgruppe in Athena) im vorherigen Abschnitt abgeschlossen haben.

So legen Sie Ihre eigenen Arbeitsgruppenkonfigurationen fest
  1. Wenn Sie Ihre eigene IAM-Rolle erstellen oder verwenden oder die Notebook-Verschlüsselung konfigurieren möchten, erweitern Sie die IAM role configuration (IAM-Rollenkonfiguration).

    • Wählen Sie für Service Role (Servicerolle) einen der folgenden Schritte aus:

      • Eine Servicerolle erstellen – Wählen Sie diese Option aus, damit Athena eine Servicerolle für Sie erstellt. Um die Berechtigungen anzuzeigen, die die Rolle gewährt, wählen Sie View permission details (Berechtigungsdetails anzeigen).

      • Vorhandene Servicerolle auswählen – Wählen Sie aus dem Dropdown-Menü eine vorhandene Rolle aus. Die von Ihnen gewählte Rolle muss die Berechtigungen aus der ersten Option enthalten. Weitere Informationen über Berechtigungen für Notebooks finden Sie unter Fehlerbehebung bei Spark-fähigen Arbeitsgruppen.

    • Wählen Sie für die Notebook and calculation code encryption key management (Verwaltung von Notebook- und Berechnungscode-Verschlüsselungsschlüsseln) eine der folgenden Optionen aus:

      • Gehört Amazon Athena — Der AWS KMS Schlüssel gehört Amazon Athena und wird von Amazon Athena verwaltet. Für die Verwendung dieses Schlüssels wird Ihnen keine zusätzliche Gebühr berechnet.

      • Ein in Ihrem Konto gespeicherter symmetrischer Schlüssel, der Ihnen gehört und von Ihnen verwaltet wird – Führen Sie für diese Option einen der folgenden Schritte aus:

        • Um einen vorhandenen Schlüssel zu verwenden, verwenden Sie das Suchfeld, um einen Schlüssel-ARN auszuwählen AWS KMS oder einen einzugeben.

        • Um einen Schlüssel in der AWS KMS Konsole zu erstellen, wählen Sie Create an AWS KMS Key. Ihre Ausführungsrolle muss über die Berechtigung verfügen, den von Ihnen erstellten Schlüssel verwenden zu können.

      Wichtig

      Wenn Sie den AWS KMS key für eine Arbeitsgruppe ändern, verweisen Notebooks, die vor dem Update bearbeitet wurden, weiterhin auf den alten KMS-Schlüssel. Notebooks, die nach dem Update bearbeitet werden, verwenden den neuen KMS-Schlüssel. Um die alten Notebooks so zu aktualisieren, dass sie auf den neuen KMS-Schlüssel verweisen, exportieren und importieren Sie jedes der alten Notebooks. Wenn Sie den alten KMS-Schlüssel löschen, bevor Sie die alten Notebook-Referenzen auf den neuen KMS-Schlüssel aktualisieren, sind die alten Notebooks nicht mehr entschlüsselbar und können nicht wiederhergestellt werden.

      Dieses Verhalten gilt auch für Aktualisierungen von Aliassen, bei denen es sich um Anzeigenamen für KMS-Schlüssel handelt. Wenn Sie einen KMS-Schlüssel-Alias aktualisieren, um auf einen neuen KMS-Schlüssel zu verweisen, verweisen die vor der Alias-Aktualisierung verwalteten Notebooks weiterhin auf den alten KMS-Schlüssel und die nach der Alias-Aktualisierung verwalteten Notebooks verwenden den neuen KMS-Schlüssel. Berücksichtigen Sie diese Punkte, bevor Sie Ihre KMS-Schlüssel oder -Aliase aktualisieren.

  2. Wenn Sie Ihre eigenen Einstellungen für Berechnungsergebnisse angeben möchten, erweitern Sie die Option Calculation result settings (Einstellungen für Berechnungsergebnisse) und wählen Sie dann eine der folgenden Optionen aus.

    • Neuen S3-Bucket erstellen – Mit dieser Option wird in Ihrem Konto ein Amazon-S3-Bucket für Ihre Berechnungsergebnisse erstellt. Der Bucket-Name besitzt das Format account_id-region-athena-results-bucket-alphanumeric_id und verwendet die Einstellungen ACLs deaktiviert, öffentlicher Zugriff gesperrt, Versionsverwaltung deaktiviert und Bucket-Eigentümer erzwungen.

    • Einen vorhandenen S3-Speicherort auswählen – Gehen Sie bei dieser Option wie folgt vor:

      • Geben Sie den S3-Pfad zu einem vorhandenen Speicherort in das Suchfeld ein oder wählen Sie Browse S3 (S3 durchsuchen) aus, um einen Bucket aus einer Liste auszuwählen.

        Anmerkung

        Wenn Sie einen bereits vorhandenen Speicherort in Amazon S3 auswählen, fügen Sie dem Speicherort keinen nachgestellten Schrägstrich (/) hinzu. Dies führt dazu, dass der Link zum Speicherort der Berechnungsergebnisse auf der Seite mit den Berechnungsdetails auf das falsche Verzeichnis verweist. Bearbeiten Sie in diesem Fall den Speicherort der Ergebnisse der Arbeitsgruppe, um den nachgestellten Schrägstrich zu entfernen.

      • (Optional) Wählen Sie View (Anzeigen) aus, um die Seite Buckets der Amazon-S3-Konsole zu öffnen. Hier finden Sie weitere Informationen über den vorhandenen Bucket, den Sie ausgewählt haben.

      • (Optional) Geben Sie unter Expected Bucket Owner die AWS Konto-ID ein, von der Sie erwarten, dass sie der Besitzer Ihres Buckets für die Ausgabe des Abfrageergebnisses sein wird. Wir empfehlen Ihnen, diese Option nach Möglichkeit als zusätzliche Sicherheitsmaßnahme zu wählen. Wenn die Konto-ID des Bucket-Eigentümers nicht mit der von Ihnen angegebenen ID übereinstimmt, schlagen Versuche zur Ausgabe an den Bucket fehl. Ausführliche Informationen finden Sie unter Überprüfen der Bucket-Eigentümerschaft mit Bucket-Eigentümer-Bedingung im Amazon-S3-Benutzerhandbuch.

      • (Optional) Wählen Sie Assign bucket owner full control over query results (Bucket-Eigetümer die volle Kontrolle über Abfrageergebnisse zuweisen) aus, wenn der Speicherort Ihrer Berechnungsergebnisse einem anderen Konto gehört und Sie dem anderen Konto die volle Kontrolle über Ihre Abfrageergebnisse geben möchten.

  3. (Optional) Wählen Sie Encrypt calculation results (Berechnungsergebnisse verschlüsseln) aus, und wählen Sie dann eine der folgenden Optionen aus:

    • SSE_S3 – Dies ist ein von S3 verwalteter serverseitiger Verschlüsselungsschlüssel.

    • SSE_KMS – Ein von Ihnen bereitgestellter Schlüssel. Unter AWS KMS Schlüssel auswählen können Sie eine der folgenden Optionen wählen:

      • AWS Eigenen Schlüssel verwenden — Verwenden Sie einen Schlüssel, der Ihnen AWS gehört und für Sie verwaltet.

      • Wählen Sie einen anderen AWS KMS Schlüssel (fortgeschritten) — Wählen Sie einen Schlüssel aus oder erstellen Sie einen.

        • Um einen vorhandenen Schlüssel zu verwenden, verwenden Sie das Suchfeld, um einen Schlüssel-ARN auszuwählen AWS KMS oder einen einzugeben.

        • Um einen Schlüssel in der KMS-Konsole zu erstellen, wählen Sie Create an AWS KMS Key aus. Wenn Sie mit der Erstellung des Schlüssels in der KMS-Konsole fertig sind, kehren Sie zur Seite Arbeitsgruppe erstellen in der Athena-Konsole zurück und wählen Sie dann mit dem Suchfeld AWS KMS Schlüssel oder ARN eingeben den Schlüssel aus, den Sie gerade erstellt haben.

  4. (Optional) Weitere Einstellungen — Erweitern Sie diese Option, um die Option CloudWatch Metriken veröffentlichen für die Arbeitsgruppe zu aktivieren oder zu deaktivieren. Dieses Feld ist standardmäßig ausgewählt. Weitere Informationen finden Sie unter Überwachen von Apache-Spark-Berechnungen mit CloudWatch-Metriken.

  5. (Optional) Tags – Verwenden Sie diese Option, um Ihrer Arbeitsgruppe Tags hinzuzufügen. Weitere Informationen finden Sie unter Markieren von Athena-Ressourcen.

  6. Wählen Sie Create workgroup (Arbeitsgruppe erstellen) aus. Eine Meldung informiert Sie darüber, dass die Arbeitsgruppe erfolgreich erstellt wurde, und die Arbeitsgruppe wird in der Liste der Arbeitsgruppen angezeigt.

Öffnen des Notebook-Explorers und Wechseln der Arbeitsgruppen

Bevor Sie die soeben erstellte Spark-fähige Arbeitsgruppe verwenden können, müssen Sie zur Arbeitsgruppe wechseln. Um zwischen Spark-fähigen Arbeitsgruppen zu wechseln, können Sie die Option Workgroup (Arbeitsgruppe) im Notebook-Explorer oder Notebook-Editor verwenden.

Anmerkung

Vergewissern Sie sich bevor Sie anfangen, dass Ihr Browser Cookies von Drittanbietern nicht blockiert. Jeder Browser, der Cookies von Drittanbietern standardmäßig oder per Benutzereinstellung blockiert, verhindert das Starten von Notebooks. Weitere Informationen zum Verwalten von Cookies finden Sie unter:

So öffnen Sie den Notebook-Explorer und wechseln die Arbeitsgruppen
  1. Wählen Sie im Navigationsbereich Notebook explorer (Notebook-Explorer) aus.

  2. Verwenden Sie die Option Workgroup (Arbeitsgruppe) oben rechts in der Konsole, um die Spark-fähige Arbeitsgruppe auszuwählen, die Sie erstellt haben. Das Beispiel-Notebook wird in der Liste der Notebooks angezeigt.

    Sie können den Notebook-Explorer auf folgende Weise verwenden:

    • Wählen Sie den verknüpften Namen eines Notebooks, um das Notebook in einer neuen Sitzung zu öffnen.

    • Verwenden Sie das Menü Actions (Aktionen), um Ihr Notebook umzubenennen, zu löschen oder zu exportieren.

    • Um eine Notebook-Datei zu importieren, wählen Sie Import file (Datei importieren).

    • Um ein Notebook zu erstellen, wählen Sie Create notebook (Notebook erstellen) aus.

Ausführen des Beispiel-Notebooks

Das Beispiel-Notebook fragt Daten aus einem öffentlich zugänglichen Datensatz für Taxifahrten in New York City ab. Das Notizbuch enthält Beispiele, die zeigen, wie man mit Spark DataFrames, Spark SQL und dem AWS Glue Data Catalog arbeitet.

So führen Sie das Beispiel-Notebook aus
  1. Wählen Sie im Notebook-Explorer den verknüpften Namen des Beispiel-Notebooks aus.

    Dadurch wird eine Notebook-Sitzung mit Standardparametern gestartet und das Notebook im Notebook-Editor geöffnet. Eine Meldung informiert Sie darüber, dass eine neue Apache-Spark-Sitzung mit Standardparametern (maximal 20 DPUs) gestartet wurde.

  2. Um die Zellen der Reihe nach auszuführen und die Ergebnisse zu überwachen, wählen Sie einmal für jede Zelle des Notebooks die Schaltfläche Run (Ausführen) aus.

    • Scrollen Sie nach unten, um die Ergebnisse anzuzeigen und neue Zellen einzublenden.

    • Für die Zellen, die eine Berechnung enthalten, zeigt ein Fortschrittsbalken den abgeschlossenen Prozentsatz, die verstrichene Zeit und die verbleibende Zeit an.

    • Das Beispiel-Notebook erstellt eine Beispieldatenbank und -tabelle in Ihrem Konto. Die letzte Zelle entfernt diese in einem Schritt der Datenbereinigung.

Anmerkung

Wenn Sie Ordner-, Tabellen- oder Datenbanknamen im Beispiel-Notebook ändern, stellen Sie sicher, dass diese Änderungen in den von Ihnen verwendeten IAM-Rollen widergespiegelt werden. Andernfalls kann das Notebook aufgrund unzureichender Berechtigungen nicht ausgeführt werden.

Bearbeiten von Sitzungsdetails

Nachdem Sie eine Notebook-Sitzung gestartet haben, können Sie Sitzungsdetails wie Tabellenformat, Verschlüsselung, Leerlaufzeit der Sitzung und die maximale Anzahl der Datenverarbeitungseinheiten (DPUs), die Sie gleichzeitig verwenden möchten, bearbeiten. Bei einer DPU handelt es sich um ein relatives Maß der Rechenleistung, die aus 4 vCPUs Rechenkapazität und 16 GB Arbeitsspeicher besteht.

So bearbeiten Sie Sitzungsdetails
  1. Wählen Sie im Notebook-Editor aus dem Menü Session (Sitzung) oben rechts die Option Edit session (Sitzung bearbeiten) aus.

  2. Wählen Sie im Dialogfeld Sitzungsdetails bearbeiten im Abschnitt Spark-Parameter Werte für die folgenden Optionen aus oder geben Sie sie ein:

    • Zusätzliches Tabellenformat – Wählen Sie Linux Foundation Delta Lake, Apache Hudi, Apache Iceberg oder Benutzerdefiniert.

      • Für die Tabellenoptionen Delta, Hudi oder Iceberg werden Ihnen die erforderlichen Tabelleneigenschaften für das entsprechende Tabellenformat automatisch in den Optionen In Tabelle bearbeiten und In JSON bearbeiten zur Verfügung gestellt. Weitere Informationen zum Verwenden dieser Tabellenformate finden Sie unter Nicht-Hive-Tabellenformaten in Amazon Athena für Apache Spark verwenden.

      • Um Tabelleneigenschaften für die benutzerdefinierte oder andere Tabellenarten hinzuzufügen oder zu entfernen, verwenden Sie die Optionen In Tabelle bearbeiten und In JSON bearbeiten.

      • Wählen Sie für die Option In Tabelle bearbeiten die Option Eigenschaft hinzufügen aus, um eine Eigenschaft hinzuzufügen, oder wählen Sie Entfernen, um eine Eigenschaft zu entfernen. Verwenden Sie die Felder Schlüssel und Wert, um Eigenschaftsnamen und ihre Werte einzugeben.

      • Verwenden Sie für die Option In JSON bearbeiten den JSON-Texteditor, um die Konfiguration direkt zu bearbeiten.

        • Wählen Sie zum Kopieren des JSON-Textes in die Zwischenablage Kopieren aus.

        • Wählen Sie Löschen, um den gesamten Text aus dem JSON-Editor zu entfernen.

        • Wählen Sie das Einstellungssymbol (Zahnrad), um den Zeilenumbruch zu konfigurieren, oder wählen Sie ein Farbdesign für den JSON-Editor.

    • Spark-Verschlüsselung aktivieren – Wählen Sie diese Option, um Daten zu verschlüsseln, die auf die Festplatte geschrieben und über Spark-Netzwerkknoten gesendet werden. Weitere Informationen finden Sie unter Apache-Spark-Verschlüsselung aktivieren.

  3. Wählen Sie im Abschnitt Sitzungsparameter die Werte für die folgenden Optionen aus oder geben Sie sie ein:

    • Session idle timeout (Zeitüberschreitung bei Sitzungsleerlauf) – Wählen Sie einen Wert zwischen 1 und 480 Minuten aus oder geben Sie ihn ein. Der Standardwert ist 20.

    • Coordinator size (Größe des Koordinators) – Ein Koordinator ist ein spezieller Executor, der die Verarbeitungsarbeit orchestriert und andere Executors in einer Notebook-Sitzung verwaltet. Derzeit ist 1 DPU der Standardwert und der einzig mögliche Wert.

    • Executor size (Größe des Executors) – Ein Executor ist die kleinste Recheneinheit, die eine Notebook-Sitzung von Athena anfragen kann. Derzeit ist 1 DPU der Standardwert und der einzig mögliche Wert.

    • Max concurrent value (Maximaler gleichzeitiger Wert) – Die maximale Anzahl von DPUs, die gleichzeitig ausgeführt werden können. Der Standardwert ist 20, der Mindestwert ist 3 und der Höchstwert ist 60. Wenn Sie diesen Wert erhöhen, werden zusätzliche Ressourcen nicht automatisch zugewiesen. Stattdessen wird Athena versuchen, die Ressourcen bis zum angegebenen Höchstwert zuzuweisen, sofern die Rechenlast dies erfordert und die Ressourcen verfügbar sind.

  4. Wählen Sie Speichern.

  5. Wählen Sie bei der Aufforderung zur Confirm edit (Änderung bestätigen) die Option Confirm (Bestätigen) aus.

    Athena speichert Ihr Notebook und startet eine neue Sitzung mit den von Ihnen angegebenen Parametern. Ein Banner im Notebook-Editor informiert Sie darüber, dass eine neue Sitzung mit den geänderten Parametern gestartet wurde.

    Anmerkung

    Athena merkt sich Ihre Sitzungseinstellungen für dieses Notebook. Wenn Sie die Parameter einer Sitzung bearbeiten und dann die Sitzung beenden, verwendet Athena die Sitzungsparameter, die Sie beim nächsten Start einer Sitzung für das Notebook konfiguriert haben.

Anzeigen von Sitzungs- und Berechnungsdetails

Nachdem Sie das Notebook ausgeführt haben, können Sie Ihre Sitzungs- und Berechnungsdetails anzeigen.

So zeigen Sie Sitzungs- und Berechnungsdetails an
  1. Wählen Sie im Menü Session (Sitzung) oben rechts die Option View details (Details anzeigen) aus.

    • Auf der Registerkarte Current session (Aktuelle Sitzung) werden Informationen zur aktuellen Sitzung angezeigt, einschließlich Sitzungs-ID, Erstellungszeit, Status und Arbeitsgruppe.

    • Auf der Registerkarte History (Verlauf) werden die Sitzungs-IDs früherer Sitzungen aufgelistet. Um die Details einer vorherigen Sitzung anzuzeigen, wählen Sie die Registerkarte History (Verlauf) und wählen Sie dann eine Sitzungs-ID aus der Liste aus.

    • Der Abschnitt Calculations (Berechnungen) zeigt eine Liste der Berechnungen, die in der Sitzung ausgeführt wurden.

  2. Um die Details einer Berechnung anzuzeigen, wählen Sie die Berechnungs-ID aus.

  3. Auf der Seite Calculation details (Berechnungsdetails) können Sie Folgendes tun:

    • Den Code für die Berechnung finden Sie im Abschnitt Code.

    • Um die Ergebnisse der Berechnung anzuzeigen, wählen Sie die Registerkarte Results (Ergebnisse).

    • Um die angezeigten Ergebnisse im Textformat herunterzuladen, wählen Sie Download results (Ergebnisse herunterladen) aus.

    • Um Informationen zu den Berechnungsergebnissen in Amazon S3 anzuzeigen, wählen Sie View in S3 (In S3 anzeigen) aus.

Beenden einer Sitzung

So beenden Sie eine Notebook-Sitzung
  1. Wählen Sie im Notebook-Editor im Menü Session (Sitzung) oben rechts die Option Terminate (Beenden) aus.

  2. Wählen Sie bei der Aufforderung Confirm session termination (Beenden der Sitzung bestätigen) die Option Confirm (Bestätigen) aus. Ihr Notebook wird gespeichert und Sie kehren zum Notebook-Editor zurück.

Anmerkung

Mit dem Schließen der Notebook-Registerkarte im Notebook-Editor wird die Sitzung für ein aktives Notebook nicht automatisch beendet. Wenn Sie sicherstellen möchten, dass die Sitzung beendet wird, verwenden Sie die Optionen Session (Sitzung) und Terminate (Beenden).

Erstellen Ihres eigenen Notebooks

Nachdem Sie eine Spark-fähige Athena-Arbeitsgruppe erstellt haben, können Sie Ihr eigenes Notebook erstellen.

So erstellen Sie ein Notebook
  1. Wenn der Navigationsbereich in der Konsole nicht sichtbar ist, wählen Sie das Erweiterungsmenü auf der linken Seite.

  2. Wählen Sie im Navigationsbereich der Athena-Konsole den Notebook explorer (Notebook-Explorer) oder den Notebook editor (Notebook-Editor) aus.

  3. Führen Sie eine der folgenden Aktionen aus:

    • Wählen Sie im Notebook explorer (Notebook-Explorer) die Option Create notebook (Notebook erstellen) aus.

    • Wählen Sie im Notebook explorer (Notebook-Editor) die Option Create notebook (Notebook erstellen) oder klicken Sie auf das Plussymbol (+), um ein Notebook hinzuzufügen.

  4. Geben Sie im Dialogfeld Create notebook (Notebook erstellen) unter Notebook name (Notebook-Name) einen Namen ein.

  5. (Optional) Erweitern Sie die Sitzungsparameter und wählen Sie dann Werte für die folgenden Optionen aus, oder geben Sie diese ein:

    • Zusätzliches Tabellenformat – Wählen Sie Linux Foundation Delta Lake, Apache Hudi, Apache Iceberg oder Benutzerdefiniert.

      • Für die Tabellenoptionen Delta, Hudi oder Iceberg werden Ihnen die erforderlichen Tabelleneigenschaften für das entsprechende Tabellenformat automatisch in den Optionen In Tabelle bearbeiten und In JSON bearbeiten zur Verfügung gestellt. Weitere Informationen zum Verwenden dieser Tabellenformate finden Sie unter Nicht-Hive-Tabellenformaten in Amazon Athena für Apache Spark verwenden.

      • Um Tabelleneigenschaften für die benutzerdefinierte oder andere Tabellenarten hinzuzufügen oder zu entfernen, verwenden Sie die Optionen In Tabelle bearbeiten und In JSON bearbeiten.

      • Wählen Sie für die Option In Tabelle bearbeiten die Option Eigenschaft hinzufügen aus, um eine Eigenschaft hinzuzufügen, oder wählen Sie Entfernen, um eine Eigenschaft zu entfernen. Verwenden Sie die Felder Schlüssel und Wert, um Eigenschaftsnamen und ihre Werte einzugeben.

      • Verwenden Sie für die Option In JSON bearbeiten den JSON-Texteditor, um die Konfiguration direkt zu bearbeiten.

        • Wählen Sie zum Kopieren des JSON-Textes in die Zwischenablage Kopieren aus.

        • Wählen Sie Löschen, um den gesamten Text aus dem JSON-Editor zu entfernen.

        • Wählen Sie das Einstellungssymbol (Zahnrad), um den Zeilenumbruch zu konfigurieren, oder wählen Sie ein Farbdesign für den JSON-Editor.

    • Spark-Verschlüsselung aktivieren – Wählen Sie diese Option, um Daten zu verschlüsseln, die auf die Festplatte geschrieben und über Spark-Netzwerkknoten gesendet werden. Weitere Informationen finden Sie unter Apache-Spark-Verschlüsselung aktivieren.

  6. (Optional) Erweitern Sie die Session parameters (Sitzungsparameter) und wählen Sie dann Werte für die folgenden Optionen aus, oder geben Sie diese ein:

    • Session idle timeout (Zeitüberschreitung bei Sitzungsleerlauf) – wählen Sie einen Wert zwischen 1 und 480 Minuten aus oder geben Sie diesen ein. Der Standardwert ist 20.

    • Coordinator size (Größe des Koordinators) – Ein Koordinator ist ein spezieller Executor, der die Verarbeitungsarbeit orchestriert und andere Executors in einer Notebook-Sitzung verwaltet. Derzeit ist 1 DPU der Standardwert und der einzig mögliche Wert. Eine DPU (Data Processing Unit) ist ein relatives Maß für die Rechenleistung, die aus 4 vCPUs Rechenkapazität und 16 GB Arbeitsspeicher besteht.

    • Executor size (Größe des Executor) – Ein Executor ist die kleinste Recheneinheit, die eine Notebook-Sitzung von Athena anfragen kann. Derzeit ist 1 DPU der Standardwert und der einzig mögliche Wert.

    • Max concurrent value (Maximaler gleichzeitiger Wert) – Die maximale Anzahl von DPUs, die gleichzeitig ausgeführt werden können. Der Standardwert ist 20 und der Höchstwert ist 60. Wenn Sie diesen Wert erhöhen, werden zusätzliche Ressourcen nicht automatisch zugewiesen. Stattdessen wird Athena versuchen, die Ressourcen bis zum angegebenen Höchstwert zuzuweisen, sofern die Rechenlast dies erfordert und die Ressourcen verfügbar sind.

  7. Wählen Sie Erstellen. Ihr Notebook wird in einer neuen Sitzung im Notebook-Editor geöffnet.

Öffnen eines zuvor erstellten Notebooks

So öffnen Sie ein zuvor erstelltes Notebook
  1. Wenn der Navigationsbereich in der Konsole nicht sichtbar ist, wählen Sie das Erweiterungsmenü auf der linken Seite.

  2. Wählen Sie im Navigationsbereich der Athena-Konsole den Notebook editor (Notebook-Editor) oder den Notebook explorer (Notebook-Explorer) aus.

  3. Führen Sie eine der folgenden Aktionen aus:

    • Wählen Sie im Notebook editor (Notebook-Editor) ein Notebook aus der Liste Recent notebooks (Zuletzt verwendete Notebooks) oder Saved notebooks (Gespeicherte Notebooks) aus. Das Notebook öffnet sich in einer neuen Sitzung.

    • Wählen Sie im Notebook explorer (Notebook-Explorer) den Namen eines Notebooks aus der Liste aus. Das Notebook öffnet sich in einer neuen Sitzung.

Weitere Informationen zur Verwaltung Ihrer Notebook-Dateien finden Sie unter Verwalten von Notebook-Dateien.