Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Nozioni di base su AWS Glue Data Catalog
AWS Glue Data Catalog È il tuo archivio di metadati tecnici persistente. È un servizio gestito che puoi utilizzare per archiviare, annotare e condividere i metadati nel Cloud. AWS Per ulteriori informazioni, consulta AWS Glue Data Catalog.
La AWS Glue console e alcune interfacce utente sono state aggiornate di recente. |
Panoramica
Puoi utilizzare questo tutorial per creare il tuo primo catalogo dati AWS Glue, che utilizza un bucket Amazon S3 come origine dati.
In questo tutorial, verranno eseguite le operazioni seguenti tramite la console AWS Glue:
-
Creare un database
-
Creare una tabella
-
Utilizza un bucket Amazon S3 come origine dei dati
Dopo aver completato questi passaggi, avrai utilizzato correttamente un bucket Amazon S3 come origine dati per popolare il catalogo dati AWS Glue.
Fase 1: crea un database
Per iniziare, accedi AWS Management Console e apri la AWS Glueconsole
Per creare un database utilizzando la console AWS Glue:
-
Nella console AWS Glue, scegli Databases (Database) dal menu a sinistra Data catalog (Catalogo dati).
-
Scegli Aggiungi database.
-
Nella pagina Crea database, immetti un nome per il database. Nella sezione Posizione - facoltativa, imposta la posizione dell'URI che i client di Catalogo dati devono utilizzare. Se la ignori, puoi continuare con la creazione del database.
-
(Facoltativo). Inserisci una descrizione per il database.
-
Scegliere Crea database.
Congratulazioni, hai appena configurato il tuo primo database usando la console AWS Glue. Il nuovo database verrà visualizzato nell'elenco dei database disponibili. È possibile modificare il database scegliendo il nome del database dal pannello di controllo Databases (Database).
Fasi successive
Altri modi per creare un database:
Hai appena creato un database utilizzando la console AWS Glue, ma esistono altri modi per creare un database:
-
È possibile utilizzare i crawler per creare automaticamente un database e delle tabelle. Per configurare un database utilizzando i crawler, consulta Uso di crawler nella console AWS Glue.
-
Puoi usare i AWS CloudFormation modelli. Vedi Creazione di AWS Glue risorse mediante AWS Glue Data Catalog modelli.
-
Puoi creare un database anche utilizzando il plugin Operazioni API del database AWS Glue.
Per creare un database utilizzando il plugin dell’operazione
create
, strutturare la richiesta includendo i parametriDatabaseInput
(obbligatori).Ad esempio:
-
Di seguito sono riportati esempi di come è possibile utilizzare la CLI, Boto3 o DDL per definire una tabella basata sullo stesso file flights_data.csv dal bucket S3 utilizzato nel tutorial.
Per ulteriori informazioni sui tipi di dati, sulla struttura e sulle operazioni API del database, consulta API database.
Fasi successive
Nella sezione successiva, creerai una tabella e la aggiungerai al database.
Puoi anche esplorare le impostazioni e le autorizzazioni per il catalogo dati. Consulta Uso delle impostazioni dei cataloghi dati nella console AWS Glue.
Fase 2: Creare una tabella
In questa fase, utilizzerai la console AWS Glue per creare una tabella.
-
Nella console AWS Glue, scegli Tables (Tabelle) dal menu a sinistra.
-
Scegli Aggiungi tabella.
-
Imposta le proprietà della tabella inserendo un nome per la tabella in Table details (Dettagli della tabella).
-
Nella sezione Databases (Database), scegli il database creato nella fase 1 dal menu a discesa.
-
Nella sezione Add a data store (Aggiungi un datastore), per impostazione predefinita il tipo di origine sarà S3.
-
Per Data is located in (I dati si trovano in), scegli Specified path in another account (Percorso specificato in un altro account).
-
Copia e incolla il percorso per il campo di input Include path (Percorso di inclusione):
s3://crawler-public-us-west-2/flight/2016/csv/
-
Nella sezione Data format (Formato dei dati), per Classification (Classificazione), scegli CSV e per Delimiter (Delimitatore), scegli comma (,) (virgola [,]). Scegli Next (Successivo).
-
Ti viene chiesto di definire uno schema. Uno schema definisce la struttura e il formato di un registro di dati. Scegli Add column (Aggiungi colonna). (Per ulteriori informazioni, consulta Registri degli schemi).
-
Specifica le proprietà della colonna:
-
Inserisci un nome per la colonna.
-
Per Column type (Tipo di colonna), 'string' è già selezionata per impostazione predefinita.
-
Per Column number (Numero di colonna), '1' è già selezionato per impostazione predefinita.
-
Scegli Aggiungi.
-
-
Ti viene richiesto di aggiungere indici di partizione. Si tratta di un'opzione facoltativa. Per saltare questo passaggio, scegli Next (Successivo).
-
Viene visualizzato un riepilogo delle proprietà della tabella. Se tutto appare come previsto, scegli Crea. In caso contrario, scegli Back (Indietro) e modifica in base alle necessità.
Congratulazioni, hai creato manualmente una tabella in modo corretto e l'hai associata a un database. La tabella appena creata apparirà nel pannello di controllo Tables (Tabelle). Dal pannello di controllo, puoi modificare e gestire le tabelle.
Per ulteriori informazioni, consulta Utilizzo di tabelle nella console AWS Glue.
Passaggi successivi
Fasi successive
Ora che il catalogo dati è popolato, è possibile iniziare a creare i processi in AWS Glue. Vedi Creazione di lavori ETL visivi con AWS Glue Studio.
Oltre a utilizzare la console, esistono altri modi per definire le tabelle nel catalogo dati, tra cui:
-
Utilizzando Boto3 o AWS CLI il linguaggio di definizione dei dati (DDL)
-
Di seguito sono riportati esempi di come è possibile utilizzare la CLI, Boto3 o DDL per definire una tabella basata sullo stesso file flights_data.csv dal bucket S3 utilizzato nel tutorial.
Consulta la documentazione su come strutturare un comando. AWS CLI L'esempio della CLI contiene la sintassi JSON per il valore "aws glue create-table --table-input".