Creazione di un flusso di lavoro - AWS Lake Formation

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di un flusso di lavoro

Prima di iniziare, assicurati di aver concesso al ruolo le autorizzazioni necessarie per i dati e le autorizzazioni per la localizzazione dei dati. LakeFormationWorkflowRole In questo modo il flusso di lavoro può creare tabelle di metadati nel Data Catalog e scrivere dati nelle posizioni di destinazione in Amazon S3. Per ulteriori informazioni, consulta (Facoltativo) Crea un ruolo per i flussi di lavoro IAM e Panoramica delle autorizzazioni di Lake Formation .

Nota

Lake Formation utilizza GetTemplateInstance e InstantiateTemplate opera per creare flussi di lavoro a partire dai progetti. GetTemplateInstances Queste operazioni non sono disponibili al pubblico e vengono utilizzate solo internamente per creare risorse per conto dell'utente. Ricevi CloudTrail eventi per la creazione di flussi di lavoro.

Per creare un flusso di lavoro da un blueprint
  1. Apri la AWS Lake Formation console all'indirizzo https://console.aws.amazon.com/lakeformation/. Accedi come amministratore del data lake o come utente con autorizzazioni di data engineer. Per ulteriori informazioni, consulta Riferimento ai personaggi e alle IAM autorizzazioni di Lake Formation.

  2. Nel riquadro di navigazione, scegli Blueprint, quindi scegli Usa blueprint.

  3. Nella pagina Usa un blueprint, scegli un riquadro per selezionare il tipo di blueprint.

  4. In Origine di importazione, specifica l'origine dati.

    Se state importando da una JDBC fonte, specificate quanto segue:

    • Connessione al database: scegliere una connessione dall'elenco. Crea connessioni aggiuntive utilizzando il AWS Glue console. Il nome JDBC utente e la password nella connessione determinano gli oggetti del database a cui il flusso di lavoro ha accesso.

    • Percorso dei dati di origine: immettere <database>/<schema>/<table> oppure <database>/<table>, a seconda del prodotto del database. Oracle Database e My SQL non supportano lo schema nel percorso. È possibile sostituire il carattere percentuale (%) con <schema> oppure <table>. Ad esempio, per un database Oracle con un identificatore di sistema (SID) diorcl, immettere orcl/% per importare tutte le tabelle a cui ha accesso l'utente indicato nella connessione.

      Importante

      Questo campo distingue tra maiuscole e minuscole. Il flusso di lavoro avrà esito negativo in caso di mancata corrispondenza tra maiuscole e minuscole per uno qualsiasi dei componenti.

      Se si specifica un SQL database My, AWS Glue ETL utilizza il JDBC driver Mysql5 per impostazione predefinita, quindi My SQL8 non è supportato in modo nativo. È possibile modificare lo script di ETL lavoro per utilizzare un customJdbcDriverS3Path parametro, come descritto in JDBC connectionType Valori nella Guida per gli AWS Glue sviluppatori, per utilizzare un driver diverso JDBC che supporti My. SQL8

    Se state importando da un file di registro, assicuratevi che il ruolo specificato per il flusso di lavoro (il «ruolo del flusso di lavoro») disponga delle IAM autorizzazioni necessarie per accedere all'origine dati. Ad esempio, per importare AWS CloudTrail i log, l'utente deve disporre cloudtrail:LookupEvents delle autorizzazioni cloudtrail:DescribeTrails e per visualizzare l'elenco dei CloudTrail log durante la creazione del flusso di lavoro e il ruolo del flusso di lavoro deve disporre delle autorizzazioni sulla posizione in CloudTrail Amazon S3.

  5. Esegui una di queste operazioni:

    • Per il tipo di blueprint Database snapshot, identifica facoltativamente un sottoinsieme di dati da importare specificando uno o più modelli di esclusione. Questi modelli di esclusione sono modelli in stile Unix. glob Vengono memorizzati come proprietà delle tabelle create dal flusso di lavoro.

      Per i dettagli sui modelli di esclusione disponibili, consulta Includi ed escludi i modelli nella Guida per gli AWS Glue sviluppatori.

    • Per il tipo di blueprint del database incrementale, specificare i seguenti campi. Aggiungere una riga per ogni tabella da importare.

      Nome tabella

      Tabella da importare. Deve essere tutto minuscolo.

      Tasti per segnalibri

      Elenco delimitato da virgole di nomi di colonne che definiscono le chiavi dei segnalibri. Se vuoto, la chiave primaria viene utilizzata per determinare nuovi dati. Le maiuscole e le minuscole per ogni colonna devono corrispondere a quelle definite nell'origine dati.

      Nota

      La chiave primaria si qualifica come chiave predefinita per i segnalibri solo se è crescente o decrescente in sequenza (senza spazi vuoti). Se desideri utilizzare la chiave primaria come chiave del segnalibro e presenta degli spazi vuoti, devi denominare la colonna della chiave primaria come chiave del segnalibro.

      Ordine dei segnalibri

      Quando scegli Crescente, le righe con valori superiori ai valori aggiunti ai segnalibri vengono identificate come nuove righe. Quando scegli Decrescente, le righe con valori inferiori ai valori contrassegnati dai segnalibri vengono identificate come nuove righe.

      Schema di partizionamento

      (Facoltativo) Elenco delle colonne chiave di partizionamento, delimitate da barre (/). Esempio:. year/month/day

      La sezione dei dati incrementali della console include questi campi: nome della tabella, chiavi dei segnalibri, ordine dei segnalibri, schema di partizionamento. È possibile aggiungere o rimuovere righe, dove ogni riga appartiene a una tabella diversa.

      Per ulteriori informazioni, consulta Tracciamento dei dati elaborati utilizzando i Job Bookmarks nella AWS Glue Developer Guide.

  6. In Import target, specifica il database di destinazione, la posizione Amazon S3 di destinazione e il formato dei dati.

    Assicurati che il ruolo del workflow disponga delle autorizzazioni Lake Formation richieste sul database e sulla posizione di destinazione Amazon S3.

    Nota

    Attualmente, i blueprint non supportano la crittografia dei dati sulla destinazione.

  7. Scegli una frequenza di importazione.

    È possibile specificare un'cronespressione con l'opzione Personalizzata.

  8. In Opzioni di importazione:

    1. Inserisci un nome per il flusso di lavoro.

    2. Per ruolo, scegli il ruolo LakeFormationWorkflowRole in cui hai creato(Facoltativo) Crea un ruolo per i flussi di lavoro IAM.

    3. Specificate facoltativamente un prefisso per la tabella. Il prefisso viene aggiunto ai nomi delle tabelle del catalogo dati create dal flusso di lavoro.

  9. Scegli Crea e attendi che la console segnali che il flusso di lavoro è stato creato correttamente.

    Suggerimento

    Hai ricevuto il seguente messaggio di errore?

    User: arn:aws:iam::<account-id>:user/<username> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/<rolename>...

    In tal caso, verifica di averlo sostituito <account-id> con un numero di AWS conto valido in tutte le politiche.