Scoperta e catalogazione dei dati in AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Scoperta e catalogazione dei dati in AWS Glue

AWS Glue Data Catalog Si tratta di un repository centralizzato che archivia i metadati relativi ai set di dati dell'organizzazione. Funge da indice della posizione, dello schema e delle metriche di runtime delle fonti di dati. I metadati vengono archiviati in tabelle di metadati, in cui ogni tabella rappresenta un singolo archivio dati.

È possibile popolare il Data Catalog utilizzando un crawler, che analizza automaticamente le fonti di dati ed estrae i metadati. Un crawler può connettersi a fonti di dati interne (basate) ed esterne.AWS AWS

Per ulteriori informazioni sulle fonti di dati supportate, consulta Quali datastore posso sottoporre a crawling?

Puoi anche creare tabelle nel Data Catalog manualmente definendo la struttura della tabella, lo schema e la struttura di partizionamento in base ai tuoi requisiti specifici.

Per ulteriori informazioni sulla creazione manuale di tabelle di metadati, consulta. Definizione manuale dei metadati

Puoi utilizzare le informazioni contenute nel Data Catalog per creare e monitorare i tuoi job ETL. Il Data Catalog si integra con altri servizi di AWS analisi, fornendo una visione unificata delle fonti di dati che semplifica la gestione e l'analisi dei dati.

  • Amazon Athena: archivia e interroga i metadati delle tabelle nel Data Catalog per i dati di Amazon S3 tramite SQL.

  • AWS Lake Formation — Definisci e gestisci centralmente politiche di accesso ai dati dettagliate e verifica l'accesso ai dati.

  • Amazon EMR: accedi alle fonti di dati definite nel Data Catalog per l'elaborazione di big data.

  • Amazon SageMaker — Crea, addestra e distribuisci modelli di machine learning in modo rapido e sicuro.

Caratteristiche principali del Data Catalog

Di seguito sono riportati gli aspetti chiave del Data Catalog.

Archivio di metadati

Il Data Catalog funge da archivio centrale di metadati, in cui vengono archiviate informazioni sulla posizione, lo schema e le proprietà delle fonti di dati. Questi metadati sono organizzati in database e tabelle, in modo simile a un tradizionale catalogo di database relazionali.

Rilevabilità automatica dei dati

Crawler di AWS Glue s è in grado di scoprire e catalogare automaticamente fonti di dati nuove o aggiornate, riducendo il sovraccarico legato alla gestione manuale dei metadati e garantendo la permanenza del Data Catalog. up-to-date Catalogando le fonti di dati, il Data Catalog consente agli utenti e alle applicazioni di scoprire e comprendere più facilmente le risorse di dati disponibili all'interno dell'organizzazione, promuovendo il riutilizzo e la collaborazione dei dati.

Il Data Catalog supporta un'ampia gamma di fonti di dati, tra cui Amazon S3, Amazon RDS, Amazon Redshift, Apache Hive e altre ancora. Può dedurre e archiviare automaticamente i metadati da queste fonti utilizzando s. Crawler di AWS Glue

Per ulteriori informazioni, consulta Utilizzo dei crawler per popolare il Data Catalog .

Gestione dello schema

Il Data Catalog acquisisce e gestisce automaticamente lo schema delle fonti di dati, inclusi l'inferenza dello schema, l'evoluzione e il controllo delle versioni. Puoi aggiornare lo schema e le partizioni nel Data Catalog utilizzando i job ETL. AWS Glue

Ottimizzazione delle tabelle

Per migliorare le prestazioni di lettura da parte di servizi di AWS analisi come Amazon Athena e Amazon EMR e i processi AWS Glue ETL, il Data Catalog offre la compattazione gestita (un processo che compatta piccoli oggetti Amazon S3 in oggetti più grandi) per le tabelle Iceberg nel Data Catalog. Puoi utilizzare AWS Glue console AWS CLI, AWS Lake Formation console o AWS API per abilitare o disabilitare la compattazione per le singole tabelle Iceberg presenti nel Data Catalog.

Per ulteriori informazioni, consulta Ottimizzazione delle tabelle Iceberg.

Statistiche delle colonne

Puoi calcolare statistiche a livello di colonna per le tabelle del Data Catalog in formati di dati come Parquet, ORC, JSON, ION, CSV e XML senza configurare pipeline di dati aggiuntive. Le statistiche delle colonne consentono di comprendere i profili di dati ottenendo informazioni dettagliate sui valori all'interno di una colonna. Il Data Catalog supporta la generazione di statistiche per valori di colonna come valore minimo, valore massimo, valori nulli totali, valori distinti totali, lunghezza media dei valori e occorrenze totali di valori reali.

Per ulteriori informazioni, consulta Ottimizzazione delle prestazioni delle query utilizzando le statistiche delle colonne.

Lineaggio dei dati

Il Data Catalog registra le trasformazioni e le operazioni eseguite sui dati, fornendo informazioni sulla derivazione dei dati. Queste informazioni sulla derivazione sono utili per il controllo, la conformità e la comprensione della provenienza dei dati.

Integrazione con altri servizi AWS

Il Data Catalog si integra perfettamente con altri AWS servizi, come Amazon Athena AWS Lake Formation, Amazon Redshift Spectrum e Amazon EMR. Questa integrazione consente di interrogare e analizzare i dati su vari archivi di dati utilizzando un unico livello di metadati coerente.

Sicurezza e controllo degli accessi

AWS Glue si integra AWS Lake Formation per supportare un controllo granulare degli accessi alle risorse di Data Catalog, che consente di gestire le autorizzazioni e l'accesso sicuro alle risorse di dati in base alle politiche e ai requisiti dell'organizzazione. AWS Glue si integra con AWS Key Management Service (AWS KMS) per crittografare i metadati archiviati nel Data Catalog.