Fase 8: Utilizzare un blueprint per creare un flusso di lavoro - AWS Lake Formation

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Fase 8: Utilizzare un blueprint per creare un flusso di lavoro

Per leggere CloudTrail i log, comprenderne la struttura, creare le tabelle appropriate nel Data Catalog, dobbiamo impostare un flusso di lavoro composto da AWS Glue crawler, job, trigger e workflow. I progetti di Lake Formation semplificano questo processo.

Il flusso di lavoro genera i job, i crawler e i trigger che rilevano e inseriscono i dati nel tuo data lake. Crei un flusso di lavoro basato su uno dei blueprint predefiniti di Lake Formation.

  1. Nella console di Lake Formation, nel pannello di navigazione, scegli Blueprints, quindi scegli Usa blueprint.

  2. Nella pagina Usa un blueprint, in Tipo di blueprint, scegli. AWS CloudTrail

  3. In Importa fonte, scegli una CloudTrail fonte e una data di inizio.

  4. In Import target, specifica questi parametri:

    Database di destinazione lakeformation_cloudtrail
    Posizione di archiviazione di destinazione s3://<yourName>-datalake-cloudtrail
    Formato dei dati Parquet
  5. Per la frequenza di importazione, scegli Esegui su richiesta.

  6. In Opzioni di importazione, specificate questi parametri:

    Nome del flusso di lavoro lakeformationcloudtrailtest
    Ruolo IAM LakeFormationWorkflowRole
    Prefisso della tabella cloudtrailtest
    Nota

    Deve essere in minuscolo.

  7. Scegli Crea e attendi che la console segnali che il flusso di lavoro è stato creato correttamente.

    Suggerimento

    Hai ricevuto il seguente messaggio di errore?

    User: arn:aws:iam::<account-id>:user/<datalake_administrator_user> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/LakeFormationWorkflowRole...

    In tal caso, verifica di aver sostituito <account-id>nella politica in linea per l'utente amministratore del data lake un numero di AWS account valido.