AWS Glue: Come funziona - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Glue: Come funziona

AWS Glue utilizza altri servizi AWS per orchestrare i processi di estrazione, trasformazione e caricamento (ETL) per creare data warehouse e data lake e generare flussi di output. AWS Glue richiama le operazioni API per trasformare i dati, creare log di runtime, archiviare la logica dei processi e creare notifiche che aiutano a monitorare l'esecuzione dei processi. La console AWS Glue si connette a questi servizi in un'applicazione gestita, in modo che tu possa concentrarti sulla creazione e sul monitoraggio del lavoro ETL. La console esegue le operazioni amministrative e di sviluppo del processo per tuo conto. Devi fornire le credenziali e altre proprietà a AWS Glue per accedere alle origini dati e scrivere nelle destinazioni dati.

AWS Glue si occupa di effettuare il provisioning delle risorse necessarie per l'esecuzione del carico di lavoro e di gestire tali risorse. Non devi creare l'infrastruttura per uno strumento ETL, perché l'operazione viene eseguita da AWS Glue. Quando sono necessarie risorse, per ridurre i tempi di avvio, AWS Glue usa un'istanza del pool di istanze attivo per eseguire il carico di lavoro.

Con AWS Glue crei i processi usando le definizioni di tabella nel catalogo dati. I processi consistono in script che contengono la logica di programmazione che esegue la trasformazione. Per avviare i processi, in base a una pianificazione o come risultato di un evento specificato, potrai utilizzare i trigger. Puoi decidere dove conservare i dati dell'obiettivo e quale origine dati popola l'obiettivo. Con il tuo input, AWS Glue genera il codice necessario per trasformare i dati dall'origine alla destinazione. Puoi anche fornire script nella console AWS Glue o usare l'API per elaborare i dati.

Origini dati e destinazioni

AWS Glue per Spark consente di leggere e scrivere dati da più sistemi e database, tra cui:

  • Amazon S3

  • Amazon DynamoDB

  • Amazon Redshift

  • Amazon Relational Database Service (Amazon RDS)

  • Database accessibili da JDBC di terze parti

  • MongoDB e Amazon DocumentDB (compatibile con MongoDB)

  • Altri connettori del marketplace e plug-in Apache Spark

Flussi di dati

AWS Glue per Spark può trasmettere dati dai seguenti sistemi:

  • Flusso di dati Amazon Kinesis

  • Apache Kafka

AWS Glue è disponibile in diverse regioni AWS. Per ulteriori informazioni, consulta la sezione relativa a regioni ed endpoint AWS nella Riferimenti generali di Amazon Web Services.

Processi ETL serverless eseguiti in isolamento

AWS Glue esegue i processi ETL in un ambiente serverless con un motore a scelta tra Spark e Ray. AWS Glue esegue questi processi su risorse virtuali di cui effettua il provisioning e che gestisce nel proprio account di servizio.

AWS Glue ha gli scopi seguenti:

  • Isolare i dati dei clienti.

  • Proteggere i dati dei clienti in transito e quelli memorizzati.

  • Accedere ai dati dei clienti solo in risposta alle richieste dei clienti, utilizzando le credenziali contestuali e temporanee o con il consenso del cliente ai ruoli IAM nel suo account.

Durante il provisioning di un processo ETL, fornisci origini dati di input e destinazioni dati di output nel Virtual Private Cloud (VPC). Inoltre, puoi fornire il ruolo IAM, l'ID VPC, l'ID sottorete e il gruppo di sicurezza che sono necessari per accedere alle origini dati e alle destinazioni. Per ogni tupla (ID account del cliente, ruolo IAM, ID di sottorete e gruppo di sicurezza), AWS Glue crea un nuovo ambiente isolato a livello di rete e di gestione da tutti gli altri ambienti all'interno dell'account di servizio AWS Glue.

AWS Glue crea interfacce di rete elastiche nella sottorete usando indirizzi IP privati. I processi utilizzano queste interfacce di rete elastiche per accedere alle origini dati e alle destinazioni dati. Il traffico in uscita e all'interno dell'ambiente di esecuzione del processo è regolato dal VPC e dalle policy di rete con un'eccezione: le chiamate effettuate alle librerie AWS Glue possono indirizzare il traffico verso operazioni API AWS Glue tramite il VPC AWS Glue. Tutte le chiamate API AWS Glue vengono registrate, pertanto i proprietari dei dati possono controllare l'accesso API abilitando AWS CloudTrail, che fornisce i log di controllo all'account.

Gli ambienti gestiti da AWS Glue che eseguono i processi ETL sono protetti con le stesse prassi di sicurezza seguite da altri servizi AWS. Per una panoramica delle procedure e delle responsabilità di sicurezza condivise, consulta il whitepaper sull'introduzione ai processi di sicurezza di AWS.