Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Panoramica sull'utilizzo AWS Glue

Modalità Focus
Panoramica sull'utilizzo AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Con AWS Glue, memorizzi i metadati in. AWS Glue Data Catalog Puoi utilizzare questi metadati per orchestrare i processi ETL che trasformano le origini dati e caricano il data warehouse o il data lake. I passaggi seguenti descrivono il flusso di lavoro generale e alcune delle scelte che si effettuano quando si lavora con AWS Glue.

Nota

È possibile seguire i passaggi riportati di seguito oppure creare un flusso di lavoro che esegua automaticamente i passaggi da 1 a 3. Per ulteriori informazioni, consulta Esecuzione di attività ETL complesse utilizzando progetti e flussi di lavoro in AWS Glue.

  1. Compila il file AWS Glue Data Catalog con le definizioni delle tabelle.

    Nella console, per gli archivi dati persistenti, è possibile aggiungere un crawler per popolare AWS Glue Data Catalog. Puoi avviare la procedura guidata Add crawler (Aggiungi crawler) dall'elenco delle tabelle o dall'elenco dei crawler. Puoi scegliere uno o più datastore a cui accede il tuo crawler. Puoi anche creare una pianificazione per determinare la frequenza di esecuzione del crawler. Per i flussi di dati, è possibile creare manualmente la definizione della tabella e definire le proprietà del flusso.

    Facoltativamente, puoi fornire un classificatore personalizzato che ricava lo schema dei dati. Puoi creare classificatori personalizzati usando un pattern grok. Tuttavia, AWS Glue fornisce classificatori integrati che vengono utilizzati automaticamente dai crawler se un classificatore personalizzato non riconosce i dati. Quando definisci un crawler, non devi necessariamente selezionare un classificatore. Per ulteriori informazioni sui classificatori in AWS Glue, consulta Definizione e gestione dei classificatori.

    Il crawling di alcuni tipi di datastore richiede una connessione che fornisce l'autenticazione e le informazioni sull'ubicazione. Se necessario, è possibile creare una connessione che fornisca le informazioni richieste nel AWS Glue console.

    Il crawler legge il datastore e crea definizioni dei dati e tabelle denominate nel AWS Glue Data Catalog. Queste tabelle sono organizzate in un database di tua scelta. Puoi inoltre popolare il catalogo dati con tabelle create manualmente. Con questo metodo, fornisci lo schema e altri metadati per creare le definizioni di tabelle nel catalogo dati. Poiché questo metodo può essere un po' noioso e suscettibile di errori, spesso è meglio avere un crawler che crea le definizioni di tabella.

    Per ulteriori informazioni sulla compilazione di definizioni AWS Glue Data Catalog di tabelle, vedereCreazione di tabelle.

  2. Definisci un processo che descrive la trasformazione dei dati dall'origine alla destinazione.

    Di solito, per creare un processo, devi effettuare le seguenti scelte:

    • Scegliete una tabella tra AWS Glue Data Catalog quelle da utilizzare come fonte del lavoro. Il processo utilizza questa definizione di tabella per accedere alla tua origine dati e interpretare il formato dei dati.

    • Scegli una tabella o una posizione tra AWS Glue Data Catalog quelle da utilizzare come destinazione del lavoro. Il processo utilizza queste informazioni per accedere al tuo datastore.

    • Raccontare AWS Glue per generare uno script per trasformare la fonte in destinazione. AWS Glue genera il codice per richiamare le trasformazioni integrate per convertire i dati dallo schema di origine al formato dello schema di destinazione. Queste trasformazioni eseguono le operazioni quali copiare i dati, rinominare le colonne e filtrare i dati per trasformare i dati in base alle esigenze. È possibile modificare questo script in AWS Glue console.

    Per ulteriori informazioni sulla definizione dei lavori in AWS Glue, consulta Creazione di lavori ETL visivi con AWS Glue Studio.

  3. Esegui il tuo processo per trasformare i dati.

    Puoi eseguire il processo on demand oppure avviarlo in base a uno dei seguenti tipi di trigger:

    • Trigger basato su una pianificazione cron.

    • Un trigger basato su eventi; ad esempio, il completamento con successo di un altro lavoro può avviare un AWS Glue lavoro.

    • Trigger che avvia un processo on demand.

    Per ulteriori informazioni sui trigger in AWS Glue, consulta Avvio di lavori e crawler utilizzando i trigger.

  4. Monitora i crawler pianificati e i processi attivati.

    Usa il AWS Glue console per visualizzare quanto segue:

    • Dettagli ed errori dell'esecuzione del processo.

    • Dettagli ed errori dell'esecuzione del crawler.

    • Eventuali notifiche relative a AWS Glue attività

    Per ulteriori informazioni sul monitoraggio dei crawler e dei lavori in AWS Glue, consulta Monitoraggio AWS Glue.

PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.