Processi ETL serverless eseguiti in isolamento

AWS Glue: Come funziona

AWS Glue utilizza altri AWS servizi per orchestrare i processi ETL (estrazione, trasformazione e caricamento) per creare data warehouse e data lake e generare flussi di output. AWS Glue chiama le operazioni API per trasformare i dati, creare log di runtime, archiviare la logica dei processi e creare notifiche per aiutarti a monitorare le esecuzioni dei processi. Il AWS Glue la console collega questi servizi a un'applicazione gestita, in modo che possiate concentrarvi sulla creazione e sul monitoraggio del vostro lavoro ETL. La console esegue le operazioni amministrative e di sviluppo del processo per tuo conto. Fornisci credenziali e altre proprietà a AWS Glue per accedere alle tue fonti di dati e scrivere sulle tue destinazioni di dati.

AWS Glue si occupa del provisioning e della gestione delle risorse necessarie per eseguire il carico di lavoro. Non è necessario creare l'infrastruttura per uno strumento ETL perché AWS Glue lo fa per te. Quando sono necessarie risorse, per ridurre i tempi di avvio, AWS Glue utilizza un'istanza dal relativo pool di istanze caldo per eseguire il carico di lavoro.

Con AWS Glue, crei lavori utilizzando le definizioni delle tabelle nel tuo Data Catalog. I lavori sono costituiti da script che contengono le istruzioni per eseguire le attività di trasformazione dei dati desiderate. Per avviare i processi, in base a una pianificazione o come risultato di un evento specificato, potrai utilizzare i trigger. Puoi decidere dove conservare i dati dell'obiettivo e quale origine dati popola l'obiettivo. In base ai tuoi input, AWS Glue trasforma i dati dal formato di origine a quello di destinazione. In alternativa, puoi anche fornire script personalizzati in AWS Glue console o API per elaborare i dati in base ai requisiti specifici.

Origini dati e destinazioni

AWS Glue for Spark ti consente di leggere e scrivere dati da più sistemi e database, tra cui:

Amazon S3
Amazon DynamoDB
Amazon Redshift
Amazon Relational Database Service (Amazon RDS)
Database accessibili da JDBC di terze parti
MongoDB e Amazon DocumentDB (compatibile con MongoDB)
Altri connettori del marketplace e plug-in Apache Spark

Flussi dei dati

AWS Glue for Spark può trasmettere dati dai seguenti sistemi:

Flusso di dati Amazon Kinesis
Apache Kafka

AWS Glue è disponibile in diverse AWS regioni. Per ulteriori informazioni, consulta la sezione relativa a regioni ed endpoint AWS nella Riferimenti generali di Amazon Web Services.

Argomenti

Processi ETL serverless eseguiti in isolamento

AWS Glue esegue i processi ETL in un ambiente senza server con un motore a scelta, Spark o Ray. AWS Glue esegue questi lavori su risorse virtuali che fornisce e gestisce nel proprio account di servizio.

AWS Glue è progettato per eseguire le seguenti operazioni:

Isolare i dati dei clienti.
Proteggere i dati dei clienti in transito e quelli memorizzati.
Accedere ai dati dei clienti solo in risposta alle richieste dei clienti, utilizzando le credenziali contestuali e temporanee o con il consenso del cliente ai ruoli IAM nel suo account.

Durante il provisioning di un processo ETL, fornisci origini dati di input e destinazioni dati di output nel Virtual Private Cloud (VPC). Inoltre, puoi fornire il ruolo IAM, l'ID VPC, l'ID sottorete e il gruppo di sicurezza che sono necessari per accedere alle origini dati e alle destinazioni. Per ogni tupla (ID account cliente, ruolo IAM, ID di sottorete e gruppo di sicurezza), AWS Glue crea un nuovo ambiente isolato a livello di rete e di gestione da tutti gli altri ambienti interni AWS Glue account di servizio.

Puoi creare e configurare AWS Glue risorse come Cataloghi di dati, Offerte di lavoro e Crawler all'interno del tuo account. AWS Queste risorse vengono quindi associate al ruolo IAM e alle impostazioni di rete (sottorete e gruppo di sicurezza) specificate durante il processo di creazione.

AWS Glue crea interfacce di rete elastiche nella sottorete utilizzando indirizzi IP privati. I processi utilizzano queste interfacce di rete elastiche per accedere alle origini dati e alle destinazioni dati. Il traffico in entrata, in uscita e all'interno dell'ambiente di esecuzione del lavoro è regolato dal VPC e dalle politiche di rete, con un'eccezione: le chiamate effettuate a AWS Glue le librerie possono inoltrare il traffico a AWS Glue operazioni API tramite AWS Glue VPC. Tutti AWS Glue Le chiamate API vengono registrate; pertanto, i proprietari dei dati possono verificare l'accesso alle API abilitando AWS CloudTrail, che fornisce i log di controllo all'account.

AWS Glue gli ambienti gestiti che eseguono i processi ETL sono protetti con le stesse pratiche di sicurezza seguite da altri servizi. AWS Per una panoramica delle pratiche e delle responsabilità condivise in materia di sicurezza, consultate il white paper Introduzione ai processi AWS di sicurezza.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Che cos'è AWS Glue?

Concetti