Schritt 1: Erstellen einer Datenbank Schritt 2: Stellen Sie eine Verbindung her Schritt 3: Erstellen Sie einen AWS Glue Crawler

Konvertierung von ETL-Prozessen AWS Glue in AWS Schema Conversion Tool

In den folgenden Abschnitten finden Sie eine Beschreibung einer Konvertierung, die AWS Glue API-Operationen in Python aufruft. Weitere Informationen finden Sie unter Programmieren von AWS Glue ETL-Skripts in Python im AWS Glue Developer Guide.

Themen

Schritt 1: Erstellen einer Datenbank
Schritt 2: Stellen Sie eine Verbindung her
Schritt 3: Erstellen Sie einen AWS Glue Crawler

Schritt 1: Erstellen einer Datenbank

Der erste Schritt besteht darin, mithilfe der AWS SDK-API eine neue Datenbank in einem AWS Glue Datenkatalog zu erstellen. Wenn Sie eine Tabelle im Datenkatalog definieren, fügen Sie sie einer Datenbank hinzu. Eine Datenbank wird verwendet, um die Tabellen zu organisieren AWS Glue.

Das folgende Beispiel demonstriert die create_database Methode der Python-API für AWS Glue.


response = client.create_database(
    DatabaseInput={
        'Name': 'database_name’,
        'Description': 'description',
        'LocationUri': 'string',
        'Parameters': {         
            'parameter-name': 'parameter value'
        }
    }
)

Wenn Sie Amazon Redshift verwenden, wird der Datenbankname wie folgt gebildet.


{redshift_cluster_name}_{redshift_database_name}_{redshift_schema_name}

Der vollständige Name des Amazon Redshift Redshift-Clusters für dieses Beispiel lautet wie folgt.


rsdbb03.apq1mpqso.us-west-2.redshift.amazonaws.com

Die folgende Abbildung zeigt ein Beispiel für einen gültigen Datenbanknamen. In diesem Fall ist rsdbb03 der Name, bei dem es sich um den ersten Teil des vollständigen Namens des Cluster-Endpunkts handelt. Die Datenbank trägt den Namen dev und das Schema ist ora_glue.


rsdbb03_dev_ora_glue

Schritt 2: Stellen Sie eine Verbindung her

Erstellen Sie mithilfe der AWS SDK-API eine neue Verbindung in einem Datenkatalog.

Das folgende Beispiel zeigt die Verwendung der create_connectionMethode der Python-API für AWS Glue.


response = client.create_connection(
    ConnectionInput={
        'Name': 'Redshift_abcde03.aabbcc112233.us-west-2.redshift.amazonaws.com_dev',
        'Description': 'Created from SCT',
        'ConnectionType': 'JDBC',
        'ConnectionProperties': {
            'JDBC_CONNECTION_URL': 'jdbc:redshift://aabbcc03.aabbcc112233.us-west-2.redshift.amazonaws.com:5439/dev',
            'USERNAME': 'user_name',
            'PASSWORD': 'password'
        },
        'PhysicalConnectionRequirements': {
            'AvailabilityZone': 'us-west-2c',
            'SubnetId': 'subnet-a1b23c45',
            'SecurityGroupIdList': [
                'sg-000a2b3c', 'sg-1a230b4c', 'sg-aba12c3d', 'sg-1abb2345'
            ]
        }
    }
)

In create_connection werden die folgenden Parameter verwendet:

Name(UTF-8-Zeichenfolge) — erforderlich. Für Amazon Redshift wird der Verbindungsname wie folgt gebildet:Redshift_<Endpoint-name>_<redshift-database-name>, zum Beispiel: Redshift_abcde03_dev
Description(UTF-8-Zeichenfolge) — Ihre Beschreibung der Verbindung.
ConnectionType(UTF-8-Zeichenfolge) — Erforderlich. Die Art der Verbindung. Derzeit wird nur JDBC unterstützt, SFTP wird nicht unterstützt.
ConnectionProperties(dict) — Erforderlich. Eine Liste von Schlüssel-Wert-Paaren, die als Parameter für diese Verbindung verwendet werden, einschließlich der JDBC-Verbindungs-URL, des Benutzernamens und des Kennworts.
PhysicalConnectionRequirements(dict) — Physikalische Verbindungsanforderungen, die Folgendes beinhalten:
- SubnetId(UTF-8-Zeichenfolge) — Die ID des Subnetzes, das von der Verbindung verwendet wird.
- SecurityGroupIdList(Liste) — Die von der Verbindung verwendete Sicherheitsgruppen-ID-Liste.
- AvailabilityZone(UTF-8-Zeichenfolge) — Erforderlich. Die Availability Zone, die den Endpunkt enthält. Dieser Parameter ist veraltet.

Schritt 3: Erstellen Sie einen AWS Glue Crawler

Als Nächstes erstellen Sie einen AWS Glue Crawler, um den Katalog zu füllen. AWS Glue Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler im Entwicklerhandbuch.AWS Glue

Der erste Schritt beim Hinzufügen eines Crawlers besteht darin, mithilfe der SDK-API eine neue Datenbank in einem Datenkatalog zu erstellen.AWS Bevor Sie beginnen, stellen Sie sicher, dass Sie zunächst alle früheren Versionen löschen, indem Sie den delete_crawler Vorgang ausführen.

Beim Erstellen des Crawlers gilt es einige Punkte zu berücksichtigen:

Verwenden Sie für Crawler-Namen das Format <redshift_node_name>_<redshift_database_name>_<redshift_shema_name>, z. B.: abcde03_dev_ora_glue
Verwenden Sie eine IAM-Rolle, die bereits vorhanden ist. Weitere Informationen zum Erstellen von IAM-Rollen finden Sie unter Erstellen von IAM-Rollen im IAM-Benutzerhandbuch.
Verwenden Sie den Namen der Datenbank, die Sie im vorherigen Schritt erstellt haben.
Verwenden Sie den erforderlichen Parameter ConnectionName.
Verwenden Sie für den Parameter path den Pfad des JDBC-Ziels, z. B.: dev/ora_glue/%

Im folgenden Beispiel wird ein vorhandener Crawler gelöscht und dann wird ein neuer Crawler mit der Python-API für AWS Glue erstellt:


response = client.delete_crawler(
    Name='crawler_name'
)

response = client.create_crawler(
    Name='crawler_name',
    Role= ‘IAM_role’,
    DatabaseName='database_name’,
    Description='string',
    Targets={
        'S3Targets': [
            {
                'Path': 'string',
                'Exclusions': [
                    'string',
                ]
            },
        ],
        'JdbcTargets': [
            {
                'ConnectionName': ‘ConnectionName’,
                'Path': ‘Include_path’,
                'Exclusions': [
                    'string',
                ]
            },
        ]
    },
    Schedule='string',
    Classifiers=[
        'string',
    ],
    TablePrefix='string',
    SchemaChangePolicy={
        'UpdateBehavior': 'LOG'|'UPDATE_IN_DATABASE',
        'DeleteBehavior': 'LOG'|'DELETE_FROM_DATABASE'|'DEPRECATE_IN_DATABASE'
    },
    Configuration='string'
)

Nach der Crawler-Erstellung führen Sie einen Crawler aus, der eine Verbindung zu einem oder mehreren Datenspeichern herstellt, die Datenstrukturen bestimmt und Tabellen in den Datenkatalog schreibt. Sie können Ihren Crawler nach einem Zeitplan ausführen, wie im Folgenden gezeigt.


response = client.start_crawler(
    Name='string'
)

In diesem Beispiel wird Amazon Redshift als Ziel verwendet. Amazon Redshift Redshift-Datentypen AWS Glue werden Datentypen auf folgende Weise zugeordnet, nachdem der Crawler ausgeführt wurde.

Amazon Redshift Redshift-Datentyp	AWS Glue Datentyp
smallint	smallint
Ganzzahl	int
bigint	bigint
Dezimalwert	decimal(18,0)
decimal(p,s)	decimal(p,s)
real	double
double precision	double
Boolean	Boolean
char	string
varchar	string
varchar(n)	string
date	date
timestamp	timestamp
timestamptz	Zeitstempel

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

ETL-Prozesse

Informatica ETL-Skripts