Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Generazione di statistiche sulle colonne in base a una pianificazione
Segui questi passaggi per configurare una pianificazione per la generazione di statistiche sulle colonne AWS Glue Data Catalog utilizzando la AWS Glue console AWS CLI, l'o l'CreateColumnStatisticsTaskSettingsoperazione.
- Console
-
Per generare statistiche delle colonne utilizzando la console
-
Accedi alla AWS Glue console all'indirizzo https://console.aws.amazon.com/glue/
. -
Seleziona le tabelle del Catalogo dati.
-
Scegliere una tabella dall'elenco.
-
Scegli la scheda Statistiche delle colonne nella sezione inferiore della pagina Tabelle.
-
Puoi anche scegliere Genera in base alla pianificazione nella colonna Statistiche delle azioni.
-
Nella pagina Genera statistiche in base alla pianificazione, configura una pianificazione ricorrente per l'esecuzione dell'attività di statistica delle colonne scegliendo la frequenza e l'ora di inizio. Puoi scegliere che la frequenza sia oraria, giornaliera, settimanale o definire un'espressione cron per specificare la pianificazione.
Un'espressione cron è una stringa che rappresenta uno schema di pianificazione, composta da 6 campi separati da spazi: * * * * * <minute><hour><day of month><month><day of week><year>Ad esempio, per eseguire un'attività ogni giorno a mezzanotte, l'espressione cron sarebbe: 0 0 *? *
Per ulteriori informazioni, consulta le espressioni Cron.
Quindi, scegli l'opzione colonna per generare statistiche.
-
Tutte le colonne: scegli questa opzione per generare statistiche per tutte le colonne della tabella.
-
Colonne selezionate: scegli questa opzione per generare statistiche per colonne specifiche. È possibile selezionare le colonne dall'elenco a discesa.
-
Scegli un IAM ruolo o crea un ruolo esistente con le autorizzazioni per generare statistiche. AWS Glue assume questo ruolo per generare statistiche sulle colonne.
Un approccio più rapido consiste nel lasciare che la AWS Glue console crei un ruolo per te. Il ruolo che crea è specifico per la generazione di statistiche sulle colonne e include la politica
AWSGlueServiceRole
AWS gestita più la politica in linea richiesta per l'origine dati specificata.Se specifichi un ruolo esistente per la generazione di statistiche sulle colonne, assicurati che includa la
AWSGlueServiceRole
politica o un ruolo equivalente (o una versione limitata di questa politica), oltre alle politiche in linea richieste.-
(Facoltativo) Scegli quindi una configurazione di sicurezza per abilitare la crittografia dei dati inattivi per i log.
-
(Facoltativo) È possibile scegliere una dimensione del campione indicando solo una percentuale specifica di righe dalla tabella per generare statistiche. Il valore predefinito è Tutte le righe. Utilizzate le frecce su e giù per aumentare o diminuire il valore percentuale.
Includi tutte le righe nella tabella per calcolare statistiche accurate. Utilizza righe di esempio per generare statistiche delle colonne solo quando i valori approssimativi sono accettabili.
-
Scegliete Genera statistiche per eseguire l'attività di generazione delle statistiche sulle colonne.
-
- AWS CLI
-
È possibile utilizzare l' AWS CLI esempio seguente per creare una pianificazione per la generazione di statistiche sulle colonne. Il nome del database, il nome della tabella e il ruolo sono parametri obbligatori, mentre i parametri facoltativi sono schedule, catalog-id column-name-list, sample-size e security-configuration.
aws glue create-column-statistics-task-settings \ --database-name '
database_name
' \ --table-nametable_name
\ --role 'arn:aws:iam::123456789012
:role/stats-role
' \ --schedule 'cron(0 0-5 14 * * ?)
' \ --column-name-list 'col-1
' \ --catalog-id '123456789012
' \ --sample-size '10.0
' \ --security-configuration 'test-security
'È possibile generare statistiche StartColumnStatisticsTaskRunsulle colonne anche chiamando l'operazione.