Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Wichtige Funktionen und Konzepte
Protokollierung und Überwachung
AWS Glue hat mehrere Protokollierungs- und Überwachungsoptionen. AWS Glue Sendet standardmäßig Protokolle an die aws-glue
Protokollgruppe in Amazon CloudWatch. Diese Protokolle enthalten Informationen wie Start- und Endzeit, Konfigurationseinstellungen und eventuell aufgetretene Fehler oder Warnungen.
Darüber hinaus bieten AWS Glue Spark-ETL-Jobs die folgenden Optionen, die für eine erweiterte Überwachung aktiviert sein müssen:
-
Job-Metriken melden auftragsspezifische Metriken CloudWatch alle 30 Sekunden an den AWS Glue Namespace. Diese auftragsspezifischen Messwerte, wie z. B. verarbeitete Datensätze, Gesamtgröße der Eingabe-/Ausgabedaten und Laufzeit, bieten Einblicke in die Leistung eines Jobs. Sie können dabei helfen, Engpässe oder Möglichkeiten zur Optimierung von Konfigurationen zu identifizieren.
-
Durch die kontinuierliche Protokollierung werden Apache Spark-Jobprotokolle in Echtzeit an die
/aws-glue/jobs/logs-v2
Protokollgruppe in gestreamt. CloudWatch Mithilfe von Echtzeitprotokollen können Sie AWS Glue Jobs dynamisch überwachen, während sie ausgeführt werden. -
Die Spark-Benutzeroberfläche bietet eine Spark-History-Server-Weboberfläche zum Anzeigen von Informationen über den Spark-Job, wie z. B. die Ereigniszeitleiste jeder Phase, ein gerichtetes azyklisches Diagramm und Job-Umgebungsvariablen. Die persistenten Spark-UI-Ereignisprotokolle werden in Amazon S3 gespeichert, und Sie können sie in Echtzeit oder nach Abschluss des Auftrags verwenden.
-
Job Run Insights vereinfacht das Debuggen und Optimieren von Jobs, indem es auf häufig auftretende Spark-Ausnahmen wartet, eine Ursachenanalyse durchführt und Handlungsempfehlungen zur Behebung von Problemen bereitstellt. Die Erkenntnisse werden gespeichert in CloudWatch.
Automatisierung
AWS Glue bietet Ihnen zwei Hauptmethoden zur Automatisierung von ETL-Jobs: Trigger und Workflows.
AWS Glue löst aus
Wenn sie ausgelöst werden, starten AWS Glue Trigger bestimmte Jobs und Crawler. Ein Trigger kann bei Bedarf, auf der Grundlage eines vordefinierten Zeitplans oder auf der Grundlage bestimmter Ereignisse ausgelöst werden. Sie können Trigger verwenden, um eine Kette von abhängigen Jobs und Crawlern zu entwerfen. Weitere Informationen finden Sie unter AWS Glue Trigger.
AWS Glue Workflows
Für komplexere Workloads können Sie AWS Glue Workflows verwenden, um gerichtete azyklische Graphen zu erstellen und Abhängigkeiten zwischen einzelnen AWS Glue Entitäten (Triggern, Crawlern und Jobs) aufzubauen. Workflows bieten außerdem eine einheitliche Oberfläche, über die Sie Parameter gemeinsam nutzen, den Fortschritt überwachen und Probleme in allen zugehörigen Entitäten beheben können.
Die Einrichtung vieler verknüpfter Entitäten innerhalb von AWS Glue Workflows kann immer komplexer werden. Entwickler können AWS Glue Pläne
Weitere Informationen zu AWS Glue Blueprints und Workflows finden Sie unter Durchführen komplexer ETL-Aktivitäten mithilfe von Blueprints und Workflows in. AWS Glue
Orchestrierung von AWS Glue Jobs mit anderen Diensten AWS
Für mehr Automatisierungsoptionen AWS Glue lässt es sich in andere AWS Dienste wie AWS Lambda AWS Step Functions, und Amazon Managed Workflows for Apache Airflow (Amazon MWAA) integrieren.
Einen Vergleich der verschiedenen Orchestrierungsmethoden für AWS Glue ETL-Jobs finden Sie unter Aufbau einer betrieblich exzellenten Datenpipeline.
Auftrags-Lesezeichen
Job-Lesezeichen in AWS Glue werden verwendet, um den Fortschritt von ETL-Jobs zu verfolgen, wodurch verhindert wird, dass Daten in nachfolgenden Jobausführungen erneut verarbeitet werden müssen. Wenn Job-Lesezeichen aktiviert sind AWS Glue , wird eine Aufzeichnung der Daten geführt, die bereits verarbeitet wurden. Anschließend werden bei jedem Lauf nur die neuen Daten in der Datenquelle verarbeitet. Weitere Informationen finden Sie unter Verfolgen verarbeiteter Daten mithilfe von Job-Lesezeichen.