Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Caratteristiche e concetti importanti
Registrazione di log e monitoraggio
AWS Glue dispone di diverse opzioni di registrazione e monitoraggio. Per impostazione predefinita, AWS Glue invia i log al gruppo di aws-glue
log in Amazon CloudWatch. Questi log includono informazioni come l'ora di inizio e di fine, le impostazioni di configurazione ed eventuali errori o avvisi che potrebbero essersi verificati.
Inoltre, i job AWS Glue Spark ETL forniscono le seguenti opzioni, che devono essere abilitate per il monitoraggio avanzato:
-
Job metrics riporta le metriche specifiche del lavoro nel AWS Glue namespace ogni 30 secondi. CloudWatch Queste metriche specifiche del processo, come i record elaborati, la dimensione totale dei dati di input/output e il tempo di esecuzione, forniscono informazioni dettagliate sulle prestazioni di un lavoro. Possono aiutare a identificare i punti deboli o le opportunità di ottimizzare le configurazioni.
-
La registrazione continua invia i log dei job di Apache Spark in tempo reale al gruppo di log in entrata.
/aws-glue/jobs/logs-v2
CloudWatch Utilizzando i log in tempo reale, è possibile monitorare dinamicamente i lavori mentre sono in esecuzione. AWS Glue -
L'interfaccia utente di Spark fornisce un'interfaccia web del server di cronologia Spark per visualizzare le informazioni sul job Spark, come la cronologia degli eventi di ogni fase, un grafico aciclico diretto e le variabili dell'ambiente di lavoro. I log degli eventi persistenti dell'interfaccia utente Spark sono archiviati in Amazon S3 e puoi utilizzarli in tempo reale o dopo il completamento del processo.
-
Job run insights semplifica il debug e l'ottimizzazione dei job ascoltando le eccezioni Spark più comuni, eseguendo l'analisi della causa principale e fornendo azioni consigliate per risolvere i problemi. Le informazioni vengono archiviate in. CloudWatch
Automazione
AWS Glue offre due modi principali per automatizzare i lavori ETL: trigger e flussi di lavoro.
AWS Glue fattori scatenanti
Quando vengono attivati, AWS Glue i trigger avviano job e crawler specifici. Un trigger può essere attivato su richiesta, in base a una pianificazione predefinita o in base a eventi specifici. È possibile utilizzare i trigger per progettare una catena di job e crawler dipendenti. Per ulteriori informazioni, consulta i trigger.AWS Glue
AWS Glue flussi di lavoro
Per carichi di lavoro più complessi, puoi utilizzare i AWS Glue flussi di lavoro per creare grafici aciclici diretti e creare dipendenze tra AWS Glue entità separate (trigger, crawler e job). I flussi di lavoro forniscono anche un'interfaccia unificata in cui è possibile condividere parametri, monitorare l'avanzamento e risolvere i problemi tra le entità associate.
La configurazione di molte entità associate all'interno dei AWS Glue flussi di lavoro può diventare sempre più complessa. Gli sviluppatori possono creare AWS Glue progetti
Per ulteriori informazioni su AWS Glue blueprint e flussi di lavoro, consulta Esecuzione di attività ETL complesse utilizzando blueprint e flussi di lavoro in. AWS Glue
Orchestrazione dei lavori con altri servizi AWS Glue AWS
Per ulteriori opzioni di automazione, AWS Glue si integra con altri AWS servizi AWS Lambda AWS Step Functions, come Amazon Managed Workflows for Apache Airflow (Amazon MWAA).
Segnalibri di processo
I Job bookmark in AWS Glue vengono utilizzati per tenere traccia dell'avanzamento dei job ETL, evitando così la necessità di rielaborare i dati nelle successive esecuzioni dei job. Quando i segnalibri dei lavori sono abilitati, AWS Glue mantiene un record di dati che sono già stati elaborati. Quindi, ad ogni esecuzione, elabora solo i nuovi dati nella fonte dati. Per ulteriori informazioni, consulta Tracciamento dei dati elaborati utilizzando i segnalibri dei lavori.