Generazione automatica di statistiche sulle colonne - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Generazione automatica di statistiche sulle colonne

La generazione automatica di statistiche sulle colonne consente di pianificare e calcolare automaticamente le statistiche su nuove tabelle in. AWS Glue Data Catalog Quando abiliti la generazione automatica di statistiche, il Data Catalog rileva nuove tabelle con formati di dati specifici come Parquet,,, JSON CSV XMLORC, e Apache IcebergION, insieme ai relativi bucket path individuali. Con una configurazione unica del catalogo, Data Catalog genera statistiche per queste tabelle.

Gli amministratori di Data Lake possono configurare la generazione delle statistiche selezionando il catalogo predefinito nella console Lake Formation e abilitando le statistiche delle tabelle utilizzando l'Optimization configurationopzione. Quando crei nuove tabelle o aggiorni tabelle esistenti nel Data Catalog, il Data Catalog raccoglie il numero di valori distinti (NDVs) per le tabelle Apache Iceberg e statistiche aggiuntive come il numero di valori nulli, la lunghezza massima, minima e media per altri formati di file supportati su base settimanale.

Se hai configurato la generazione di statistiche a livello di tabella o se hai precedentemente eliminato le impostazioni di generazione delle statistiche per una tabella, tali impostazioni specifiche della tabella hanno la precedenza sulle impostazioni predefinite del catalogo per la generazione automatica delle statistiche sulle colonne.

L'attività di generazione automatica delle statistiche analizza il 20% dei record nelle tabelle per calcolare le statistiche. La generazione automatica di statistiche sulle colonne garantisce che il Data Catalog disponga delle statistiche più recenti che possono essere utilizzate da motori di query come Amazon Athena e Amazon Redshift Spectrum per migliorare le prestazioni delle query e potenziali risparmi sui costi. Consente di pianificare la generazione di statistiche utilizzando AWS Glue APIs o la console, fornendo un processo automatizzato senza intervento manuale.