Erstellen eines Workflows - AWS Lake Formation

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erstellen eines Workflows

Bevor Sie beginnen, stellen Sie sicher, dass Sie der Rolle die erforderlichen Datenberechtigungen und Datenspeicherberechtigungen erteilt habenLakeFormationWorkflowRole. Auf diese Weise kann der Workflow Metadatentabellen im Datenkatalog erstellen und Daten an Zielorte in Amazon S3 schreiben. Weitere Informationen erhalten Sie unter (Optional) Erstellen einer IAM-Rolle für Workflows und Überblick über die Genehmigungen für Lake Formation .

Einen Workflow aus einem Blueprint erstellen
  1. Öffnen Sie die AWS Lake Formation Konsole unter https://console.aws.amazon.com/lakeformation/. Melden Sie sich als Data Lake-Administrator oder als Benutzer mit Dateningenieurrechten an. Weitere Informationen finden Sie unter Lake-Formation-Personas und IAM-Berechtigungen – Referenz.

  2. Wählen Sie im Navigationsbereich Blueprints und wählen Sie im Navigationsbereich Blueprints aus.

  3. Wählen Sie auf der Seite Einen Blueprint verwenden eine Kachel aus, um den Blueprint-Typ auszuwählen.

  4. Geben Sie unter Importquelle die Datenquelle an.

    Wenn Sie aus einer JDBC-Quelle importieren, geben Sie Folgendes an:

    • Datenbankverbindung — Wählen Sie eine Verbindung aus der Liste aus. Erstellen Sie zusätzliche Verbindungen mithilfe der AWS Glue Konsole. Der JDBC-Benutzername und das Passwort in der Verbindung bestimmen die Datenbankobjekte, auf die der Workflow Zugriff hat.

    • Quelldatenpfad — Geben Sie <database><schema><table><database><table>je nach Datenbankprodukt//oder/ein. Oracle Database und MySQL unterstützen kein Schema im Pfad. Sie können das Prozentzeichen (%) durch <schema> oder <table> ersetzen. Geben Sie beispielsweise für eine Oracle-Datenbank mit einem Systembezeichner (SID) von einorcl, orcl/% um alle Tabellen zu importieren, auf die der in der Verbindung angegebene Benutzer Zugriff hat.

      Wichtig

      In diesem Feld wird die Groß-/Kleinschreibung beachtet. Der Workflow schlägt fehl, wenn bei einer der Komponenten die Groß- und Kleinschreibung nicht übereinstimmt.

      Wenn Sie eine MySQL-Datenbank angeben, verwendet AWS Glue ETL standardmäßig den Mysql5-JDBC-Treiber, sodass MySQL8 nicht nativ unterstützt wird. Sie können das ETL-Jobskript bearbeiten, um einen customJdbcDriverS3Path Parameter zu verwenden, wie unter JDBC connectionType Values im AWS GlueDeveloper Guide beschrieben, um einen anderen JDBC-Treiber zu verwenden, der MySQL8 unterstützt.

    Wenn Sie aus einer Protokolldatei importieren, stellen Sie sicher, dass die Rolle, die Sie für den Workflow angeben (die „Workflow-Rolle“), über die erforderlichen IAM-Berechtigungen für den Zugriff auf die Datenquelle verfügt. Um beispielsweise AWS CloudTrail Protokolle zu importieren, muss der Benutzer beim Erstellen des Workflows über die cloudtrail:LookupEvents Berechtigungen cloudtrail:DescribeTrails und die Berechtigungen verfügen, um die Liste der CloudTrail Protokolle einzusehen, und die Workflow-Rolle muss über Berechtigungen für den CloudTrail Speicherort in Amazon S3 verfügen.

  5. Führen Sie eine der folgenden Aktionen aus:

    • Identifizieren Sie für den Blueprint-Typ Datenbank-Snapshot optional eine Teilmenge der zu importierenden Daten, indem Sie ein oder mehrere Ausschlussmuster angeben. Diese Ausschlussmuster sind Muster im UNIX-Stil. glob Sie werden als Eigenschaft der Tabellen gespeichert, die vom Workflow erstellt werden.

      Einzelheiten zu den verfügbaren Ausschlussmustern finden Sie im AWS GlueEntwicklerhandbuch unter Muster einschließen und ausschließen.

    • Geben Sie für den Blueprint-Typ Inkrementelle Datenbank die folgenden Felder an. Fügen Sie eine Zeile für jede zu importierende Tabelle hinzu.

      Tabellenname

      Zu importierende Tabelle. Muss alles in Kleinbuchstaben geschrieben sein.

      Lesezeichen-Schlüssel

      Kommagetrennte Liste von Spaltennamen, die die Lesezeichenschlüssel definieren. Wenn das Feld leer ist, wird der Primärschlüssel verwendet, um neue Daten zu ermitteln. Die Groß- und Kleinschreibung für jede Spalte muss mit der in der Datenquelle definierten Groß- und Kleinschreibung übereinstimmen.

      Anmerkung

      Der Primärschlüssel gilt nur dann als Standard-Lesezeichenschlüssel, wenn er sequentiell erhöht oder verringert wird (ohne Lücken). Wenn Sie den Primärschlüssel als Lesezeichenschlüssel verwenden möchten und dieser Lücken enthält, müssen Sie die Primärschlüsselspalte als Lesezeichenschlüssel benennen.

      Bestellung als Lesezeichen

      Wenn Sie Aufsteigend wählen, werden Zeilen mit Werten, die größer sind als die mit einem Lesezeichen versehenen Werte, als neue Zeilen identifiziert. Wenn Sie Absteigend wählen, werden Zeilen mit Werten, die kleiner sind als die mit einem Lesezeichen versehenen Werte, als neue Zeilen identifiziert.

      Partitionierungsschema

      (Optional) Liste der Partitionierungsschlüsselspalten, getrennt durch Schrägstriche (/). Beispiel: year/month/day.

      
                Der Abschnitt „Inkrementelle Daten“ der Konsole enthält die folgenden Felder: Tabellenname, Lesezeichenschlüssel, Lesezeichenreihenfolge, Partitionierungsschema. Sie können Zeilen hinzufügen oder entfernen, wobei jede Zeile für eine andere Tabelle ist.

      Weitere Informationen finden Sie im AWS GlueEntwicklerhandbuch unter Nachverfolgen verarbeiteter Daten mithilfe von Job-Bookmarks.

  6. Geben Sie unter Ziel importieren die Zieldatenbank, den Amazon S3 S3-Zielort und das Datenformat an.

    Stellen Sie sicher, dass die Workflow-Rolle über die erforderlichen Lake Formation Formation-Berechtigungen für die Datenbank und den Amazon S3 S3-Zielstandort verfügt.

    Anmerkung

    Derzeit unterstützen Blueprints die Verschlüsselung von Daten am Ziel nicht.

  7. Wählen Sie eine Importhäufigkeit.

    Mit der Option Benutzerdefiniert können Sie einen cron Ausdruck angeben.

  8. Unter Importoptionen:

    1. Geben Sie einen Workflow-Namen ein.

    2. Wählen Sie als Rolle die Rolle ausLakeFormationWorkflowRole, in der Sie erstellt haben(Optional) Erstellen einer IAM-Rolle für Workflows.

    3. Geben Sie optional ein Tabellenpräfix an. Das Präfix wird den Namen der Datenkatalogtabellen vorangestellt, die der Workflow erstellt.

  9. Wählen Sie Erstellen und warten Sie, bis die Konsole meldet, dass der Workflow erfolgreich erstellt wurde.

    Tipp

    Haben Sie die folgende Fehlermeldung erhalten?

    User: arn:aws:iam::<account-id>:user/<username> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/<rolename>...

    Wenn ja, überprüfen Sie, ob Sie sie <account-id>in allen Policen durch eine gültige AWS Kontonummer ersetzt haben.

Weitere Informationen finden Sie auch unter: