AWS Glue Anwendungsfälle und allgemeine Schritte

Aurora Postgre SQL -Kompatible Integration mit AWS Glue

AWS Glue ist ein vollständig verwalteter Service zum Extrahieren, Transformieren und Laden (ETL) zum Vorbereiten und Laden von Daten für Analysen. Sie können die Amazon Aurora SQL Postgre-Compatible Edition für alle Datenverarbeitungs- und Analyse-Workflows integrieren AWS Glue .

AWS Glue Anwendungsfälle und allgemeine Schritte

Die Integration von Aurora Postgre SQL -Compatible with AWS Glue unterstützt die folgenden Anwendungsfälle:

Data Warehousing und Analytics ‒ Nutzen Sie die AWS Glue Integration mit Aurora SQL Postgre-Compatible, um Data Warehousing- und Analyselösungen zu erstellen. AWS Glue kann Daten aus Aurora SQL Postgre-kompatiblen Datenbanken extrahieren und nach Ihren Anforderungen transformieren. Anschließend AWS Glue können die transformierten Daten für erweiterte Analysen und Berichte in ein Data Warehouse wie Amazon Redshift oder Amazon Athena geladen werden.
Erstellung von Data Lakes ‒ Wird verwendet AWS Glue , um Daten aus Aurora SQL Postgre-Compatible zu extrahieren und in einen in Amazon S3 gespeicherten Data Lake zu laden. Sie können diesen Data Lake dann für verschiedene Zwecke verwenden, z. B. für maschinelles Lernen, Datenexploration oder die Versorgung anderer Analysesysteme.
ETLPipelines ‒ Verwenden Sie den AWS Glue serverlosen ETL Dienst, um robuste Daten-Pipelines zu erstellen. Sie können Daten aus Aurora SQL Postgre-Compatible extrahieren und komplexe Transformationen mithilfe von Apache Spark oder durchführen. PySpark Sie können die verarbeiteten Daten in ein Ziel wie Amazon S3 oder Amazon Redshift laden, oder Sie können sie wieder in Aurora Postgre-Compatible laden. SQL
Datenkatalogisierung und Metadatenverwaltung ‒ Wird verwendet AWS Glue Data Catalog , um Metadaten aus Aurora SQL Postgre-kompatiblen Datenbanken und Tabellen automatisch zu crawlen und zu katalogisieren. AWS-Services wie Amazon Athena und Amazon Redshift Spectrum können dieses zentralisierte Metadaten-Repository zum Abfragen und Analysieren von Daten verwenden.
Datenvorbereitung für maschinelles Lernen ‒ Wird AWS Glue zur Vorbereitung von Daten aus Aurora SQL Postgre-kompatibel für maschinelles Lernen (ML) -Workloads verwendet. Die verarbeiteten Daten können in Amazon SageMaker AI oder andere ML-Services geladen werden, um Modelle zu trainieren und bereitzustellen.
Datenmigration und Replikation ‒ AWS Database Migration Service (AWS DMS) ist zwar der primäre Service für Datenbankmigrationen, Sie können ihn aber auch verwenden. AWS Glue Migrieren oder replizieren Sie Daten von Aurora SQL Postgre-Compatible in andere Datenspeicher wie Amazon S3, Amazon Redshift oder sogar andere Datenbank-Engines.

Ihr Unternehmen kann die Leistungsfähigkeit von AWS Datenintegrations- und Analysediensten mit der Skalierbarkeit, Leistung und Kompatibilität von Aurora SQL Postgre-Compatible nutzen. Mit diesen Anwendungsfällen können Sie robuste Daten-Pipelines aufbauen, komplexe Datentransformationen durchführen und andere AWS-Services für erweiterte Analysen und Berichte integrieren.

Gehen Sie wie folgt vor AWS Glue, um Aurora SQL Postgre-Compatible mit zu integrieren:

Melden Sie sich bei der an AWS Management Console, navigieren Sie zur AWS Glue Konsole und erstellen Sie eine. AWS Glue Data Catalog

Data Catalog ist ein zentrales Repository, das Metadaten zu Ihren Datenquellen speichert, einschließlich Aurora SQL Postgre-kompatibler Datenbanken und Tabellen.
Stellen Sie eine Verbindung her AWS Glue .

Navigieren Sie zur Seite Verbindungen und stellen Sie eine AWS Glue Verbindung her. Wählen Sie Aurora Postgre SQL -Compatible als Verbindungstyp aus und geben Sie den Aurora SQL Postgre-Compatible Cluster-Endpunkt, den Datenbanknamen sowie Ihren Datenbank-Benutzernamen und Ihr Passwort an.
Durchforsten Sie die Aurora SQL Postgre-kompatible Datenquelle.

Navigieren Sie zum Abschnitt Crawler und erstellen Sie einen Crawler, der so konfiguriert ist, dass er die von Ihnen erstellte Verbindung verwendet. Geben Sie die Datenbank- und Tabellennamen an, die Sie crawlen und in den Datenkatalog aufnehmen möchten, und führen Sie den Crawler aus.
Erstellen Sie einen Job und führen Sie ihn aus. AWS Glue ETL

Navigieren Sie zum Abschnitt Jobs und erstellen Sie einen ETL Job, um mithilfe des Datenkatalogs auf Daten aus der Aurora SQL Postgre-kompatiblen Datenbank zuzugreifen und diese abzufragen. Wählen Sie den Jobtyp entsprechend Ihren Anforderungen aus. Führen Sie im ETL Jobskript alle erforderlichen Transformationen oder Verarbeitungen durch und geben Sie den Zielort für die verarbeiteten Daten an. Der Zielort kann Amazon S3, Amazon Redshift oder eine andere Aurora SQL Postgre-kompatible Datenbank sein.

Eine ausführliche Anleitung finden Sie in der Dokumentation.AWS Glue

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

AWS DMS Integration

Amazon-Redshift-Integration