Protokollierung und Überwachung Automatisierung Auftrags-Lesezeichen

Wichtige Funktionen und Konzepte

Protokollierung und Überwachung

AWS Glue hat mehrere Protokollierungs- und Überwachungsoptionen. AWS Glue Sendet standardmäßig Protokolle an die aws-glue Protokollgruppe in Amazon CloudWatch. Diese Protokolle enthalten Informationen wie Start- und Endzeit, Konfigurationseinstellungen und eventuell aufgetretene Fehler oder Warnungen.

Darüber hinaus bieten AWS Glue Spark-ETL-Jobs die folgenden Optionen, die für eine erweiterte Überwachung aktiviert sein müssen:

Job-Metriken melden auftragsspezifische Metriken CloudWatch alle 30 Sekunden an den AWS Glue Namespace. Diese auftragsspezifischen Messwerte, wie z. B. verarbeitete Datensätze, Gesamtgröße der Eingabe-/Ausgabedaten und Laufzeit, bieten Einblicke in die Leistung eines Jobs. Sie können dabei helfen, Engpässe oder Möglichkeiten zur Optimierung von Konfigurationen zu identifizieren.
Durch die kontinuierliche Protokollierung werden Apache Spark-Jobprotokolle in Echtzeit an die /aws-glue/jobs/logs-v2 Protokollgruppe in gestreamt. CloudWatch Mithilfe von Echtzeitprotokollen können Sie AWS Glue Jobs dynamisch überwachen, während sie ausgeführt werden.
Die Spark-Benutzeroberfläche bietet eine Spark-History-Server-Weboberfläche zum Anzeigen von Informationen über den Spark-Job, wie z. B. die Ereigniszeitleiste jeder Phase, ein gerichtetes azyklisches Diagramm und Job-Umgebungsvariablen. Die persistenten Spark-UI-Ereignisprotokolle werden in Amazon S3 gespeichert, und Sie können sie in Echtzeit oder nach Abschluss des Auftrags verwenden.
Job Run Insights vereinfacht das Debuggen und Optimieren von Jobs, indem es auf häufig auftretende Spark-Ausnahmen wartet, eine Ursachenanalyse durchführt und Handlungsempfehlungen zur Behebung von Problemen bereitstellt. Die Erkenntnisse werden gespeichert in CloudWatch.

Automatisierung

AWS Glue bietet Ihnen zwei Hauptmethoden zur Automatisierung von ETL-Jobs: Trigger und Workflows.

AWS Glue löst aus

Wenn sie ausgelöst werden, starten AWS Glue Trigger bestimmte Jobs und Crawler. Ein Trigger kann bei Bedarf, auf der Grundlage eines vordefinierten Zeitplans oder auf der Grundlage bestimmter Ereignisse ausgelöst werden. Sie können Trigger verwenden, um eine Kette von abhängigen Jobs und Crawlern zu entwerfen. Weitere Informationen finden Sie unter AWS Glue Trigger.

AWS Glue Workflows

Für komplexere Workloads können Sie AWS Glue Workflows verwenden, um gerichtete azyklische Graphen zu erstellen und Abhängigkeiten zwischen einzelnen AWS Glue Entitäten (Triggern, Crawlern und Jobs) aufzubauen. Workflows bieten außerdem eine einheitliche Oberfläche, über die Sie Parameter gemeinsam nutzen, den Fortschritt überwachen und Probleme in allen zugehörigen Entitäten beheben können.

Die Einrichtung vieler verknüpfter Entitäten innerhalb von AWS Glue Workflows kann immer komplexer werden. Entwickler können AWS Glue Pläne für die gemeinsame Nutzung komplexer Daten-Pipelines mit Datenwissenschaftlern und Geschäftsanalysten erstellen. Diese Vorlagen ermöglichen die konsistente und wiederholbare Erstellung von AWS Glue Workflows, wobei die technischen Details weggelassen werden.

Weitere Informationen zu AWS Glue Blueprints und Workflows finden Sie unter Durchführen komplexer ETL-Aktivitäten mithilfe von Blueprints und Workflows in. AWS Glue

Orchestrierung von AWS Glue Jobs mit anderen Diensten AWS

Für mehr Automatisierungsoptionen AWS Glue lässt es sich in andere AWS Dienste wie AWS Lambda AWS Step Functions, und Amazon Managed Workflows for Apache Airflow (Amazon MWAA) integrieren.

Einen Vergleich der verschiedenen Orchestrierungsmethoden für AWS Glue ETL-Jobs finden Sie unter Aufbau einer betrieblich exzellenten Datenpipeline.

Auftrags-Lesezeichen

Job-Lesezeichen in AWS Glue werden verwendet, um den Fortschritt von ETL-Jobs zu verfolgen, wodurch verhindert wird, dass Daten in nachfolgenden Jobausführungen erneut verarbeitet werden müssen. Wenn Job-Lesezeichen aktiviert sind AWS Glue , wird eine Aufzeichnung der Daten geführt, die bereits verarbeitet wurden. Anschließend werden bei jedem Lauf nur die neuen Daten in der Datenquelle verarbeitet. Weitere Informationen finden Sie unter Verfolgen verarbeiteter Daten mithilfe von Job-Lesezeichen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Data Catalog

DataBrew