Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Che cos'è AWS Glue?
AWS Glue è un servizio di integrazione dei dati senza server che consente agli utenti di analisi di scoprire, preparare, spostare e integrare facilmente i dati provenienti da più fonti. Puoi usarlo per analisi, machine learning e sviluppo di applicazioni. Include anche strumenti aggiuntivi di produttività e gestione dei dati per la creazione, l'esecuzione di processi e l'implementazione di flussi di lavoro aziendali.
Con AWS Glue, puoi scoprire e connetterti a più di 70 fonti di dati diverse e gestire i tuoi dati in un catalogo di dati centralizzato. Puoi creare, eseguire e monitorare visivamente le pipeline di estrazione, trasformazione e caricamento (ETL) per caricare i dati nei tuoi data lake. Inoltre, puoi cercare e interrogare immediatamente i dati catalogati utilizzando Amazon Athena, Amazon e EMR Amazon Redshift Spectrum.
AWS Glue consolida le principali funzionalità di integrazione dei dati in un unico servizio. Queste includono il rilevamento dei dati, la modernizzazioneETL, la pulizia, la trasformazione e la catalogazione centralizzata. È anche serverless, per cui non esiste alcuna infrastruttura da gestire. Con un supporto flessibile per tutti i carichi di lavoro, ad esempioETL, e lo streaming in un unico servizioELT, AWS Glue supporta gli utenti con diversi carichi di lavoro e tipi di utenti.
Inoltre, AWS Glue semplifica l'integrazione dei dati nell'architettura. Si integra con i servizi AWS di analisi e i data lake Amazon S3. AWS Glue dispone di interfacce di integrazione e strumenti per la creazione di lavori facili da usare per tutti gli utenti, dagli sviluppatori agli utenti aziendali, con soluzioni su misura per diverse competenze tecniche.
Grazie alla possibilità di scalare su richiesta, AWS Glue ti aiuta a concentrarti su attività ad alto valore che massimizzano il valore dei tuoi dati. È scalabile per qualunque dimensione di dati e supporta tutti i tipi di dati e varianti di schemi. Per aumentare l'agilità e ottimizzare i costi, AWS Glue offre disponibilità elevata integrata e pay-as-you fatturazione immediata.
Per informazioni sui prezzi, consulta AWS Glue prezzi
AWS Glue Studio
AWS Glue Studio è un'interfaccia grafica che semplifica la creazione, l'esecuzione e il monitoraggio dei lavori di integrazione dei dati in AWS Glue. Puoi comporre visivamente flussi di lavoro di trasformazione dei dati ed eseguirli senza problemi sul motore serverless basato su Apache Spark in ETL AWS Glue.
Con AWS Glue Studio, puoi creare e gestire lavori che raccolgono, trasformano e puliscono i dati. Puoi anche usare AWS Glue Studio per risolvere i problemi e modificare gli script di lavoro.
Argomenti
AWS Glue caratteristiche
AWS Glue le funzionalità rientrano in tre categorie principali:
-
Rilevamento e organizzazione dei dati
-
Trasformazione, preparazione e pulizia dei dati per l'analisi
-
Creazione e monitoraggio di pipeline di dati
Rilevamento e organizzazione dei dati
-
Unifica e cerca in più archivi di dati: archivia, indicizza e cerca su più fonti di dati e sink catalogando tutti i tuoi dati. AWS
-
Scopri automaticamente i dati: usa AWS Glue crawler per dedurre automaticamente le informazioni sullo schema e integrarle nel tuo. AWS Glue Data Catalog
-
Gestione di schemi e autorizzazioni: convalida e controllo dell'accesso a database e tabelle.
-
Connettiti a un'ampia varietà di fonti di dati: accedi a più fonti di dati, sia in locale che in locale AWS, utilizzando AWS Glue connessioni per creare il tuo data lake.
Trasformazione, preparazione e pulizia dei dati per l'analisi
-
Trasforma visivamente i dati con un'interfaccia Job Canvas: definisci il ETL processo nel Visual Job Editor e genera automaticamente il codice per estrarre, trasformare e caricare i dati.
-
Crea ETL pipeline complesse con una semplice pianificazione dei lavori: Invoke AWS Glue lavori in base a una pianificazione, su richiesta o in base a un evento.
-
Pulizia e trasformazione dei dati in streaming in transito: possibilità di consumo dati continuo e pulizia e trasformazione dei dati in transito. In tal modo, i dati sono disponibili per l'analisi in pochi secondi nell'archivio dei dati di destinazione.
-
Deduplicazione e pulizia dei dati con machine learning integrato: pulizia e preparazione dei dati per l'analisi senza diventare esperti di machine learning, utilizzando la funzione
FindMatches
. Questa funzione deduplica e trova registri non perfettamente corrispondenti tra loro. -
Quaderni di lavoro integrati: AWS Glue i job notebooks forniscono notebook serverless con una configurazione minima in AWS Glue in modo da poter iniziare rapidamente.
-
Modifica, esegui il debug e testa il ETL codice: con AWS Glue sessioni interattive, puoi esplorare e preparare i dati in modo interattivo. È possibile esplorare, sperimentare ed elaborare i dati in modo interattivo utilizzando il notebook IDE o il notebook di propria scelta.
-
Definisci, rileva e correggi i dati sensibili: AWS Glue il rilevamento dei dati sensibili consente di definire, identificare ed elaborare i dati sensibili nella pipeline di dati e nel data lake.
Creazione e monitoraggio di pipeline di dati
-
Scalabilità automatica in base al carico di lavoro: aumento o riduzione delle risorse in modo dinamico in base al carico di lavoro. In tal modo, i processi vengono assegnati agli operatori solo quando necessario.
-
Automatizza i lavori con trigger basati su eventi: avvia i crawler o AWS Glue lavori con trigger basati su eventi e progetta una catena di lavori e crawler dipendenti.
-
Esegui e monitora i lavori: esegui AWS Glue lavori con un motore a tua scelta, Spark o Ray. Monitorali con strumenti di monitoraggio automatizzati, AWS Glue job run insights, e AWS CloudTrail. Migliora il monitoraggio dei processi supportati da Spark con l'interfaccia utente di Apache Spark.
-
Definisci i flussi di lavoro ETL e le attività di integrazione: definisci i flussi di lavoro ETL e le attività di integrazione per più crawler, job e trigger.
Scopri le innovazioni in AWS Glue
Scopri le ultime innovazioni AWS Glue e scopri in che modo i clienti utilizzano AWS Glue per consentire la preparazione dei dati in modalità self-service in tutta l'organizzazione.
Scopri come i clienti AWS Glue vanno oltre la configurazione tradizionale e come si configurano AWS Glue per il monitoraggio del lavoro e delle prestazioni.
Nozioni di base su AWS Glue
Ti consigliamo di iniziare con le sezioni seguenti:
Accesso AWS Glue
Puoi creare, visualizzare e gestire i tuoi AWS Glue lavori utilizzando le seguenti interfacce:
-
AWS Glue console: fornisce un'interfaccia web per creare, visualizzare e gestire AWS Glue lavori. Per accedere alla console, vedere AWS Glue
. -
AWS Glue Studio— Fornisce un'interfaccia grafica per creare e modificare i AWS Glue lavori visivamente. Per ulteriori informazioni, consulta Creazione di ETL lavori visivi con AWS Glue Studio.
-
AWS Glue sezione del AWS CLI Reference: fornisce AWS CLI comandi che è possibile utilizzare con AWS Glue. Per ulteriori informazioni, vedere AWS CLI Reference for AWS Glue.
-
AWS Glue API— Fornisce un API riferimento completo per gli sviluppatori. Per ulteriori informazioni, consulta AWS Glue API.
Servizi correlati
Utenti di AWS Glue utilizzano anche:
-
AWS Lake Formation— Un servizio che è un livello di autorizzazione che fornisce un controllo granulare degli accessi alle risorse del AWS Glue Data Catalog.
-
AWS Glue DataBrew— Uno strumento visivo di preparazione dei dati che è possibile utilizzare per pulire e normalizzare i dati senza scrivere alcun codice.