Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Configurazione del rilevamento delle anomalie nei lavori AWS Glue ETL
Per iniziare con il rilevamento delle anomalie in AWS Glue Studio, apri un job di AWS Glue Studio e fai clic su Evaluate Data Quality Transform.
Abilitando questa funzionalità, AWS Glue Data Quality analizzerà i dati nel tempo per rilevare anomalie. Fornisce preziose statistiche e osservazioni sui dati, consentendoti di intervenire su eventuali anomalie identificate.
Consulta la documentazione sul rilevamento delle anomalie per comprendere il funzionamento interno di questa funzionalità.
Abilitare il rilevamento delle anomalie
Per abilitare il rilevamento delle anomalie in AWS Glue Studio:
-
Scegli il nodo Qualità dei dati nel processo, quindi scegli la scheda Rilevamento delle anomalie. Attiva l'opzione Abilita il rilevamento delle anomalie.
-
Definisci i dati da monitorare per rilevare eventuali anomalie scegliendo Aggiungi analizzatore. È possibile compilare due campi: Statistiche e Dati.
-
Le statistiche sono informazioni sulla forma e altre proprietà dei dati. Puoi scegliere una o più statistiche alla volta oppure scegliere Tutte le statistiche. Le statistiche includono: completezza, unicità, media, somma StandardDeviation, entropia e altro. DistinctValuesCount UniqueValueRatio Per ulteriori dettagli, consulta la documentazione di Analyzers.
-
I dati sono le colonne del set di dati. Puoi scegliere colonne singole oppure sceglierle tutte.
-
-
Scegli Aggiungi ambito di rilevamento delle anomalie per salvare le modifiche. Dopo aver aggiunto gli analizzatori, puoi visualizzarli nella sezione Ambito di rilevamento delle anomalie.
Puoi anche utilizzare il menu Operazioni per modificare gli analizzatori oppure scegliere la scheda Editor del set di regole e modificare l'analizzatore direttamente nel blocco note dell'editor del set di regole. Vedrai gli analizzatori che hai salvato in base a tutte le regole che hai creato.
Rules = [ ] Analyzers = [ Completeness “id” ]
Una volta configurati il set di regole e gli analizzatori aggiornati, AWS Glue Data Quality monitora continuamente i flussi di dati in entrata. Può segnalare potenziali anomalie tramite avvisi o interruzioni del lavoro, a seconda delle impostazioni. Questo monitoraggio proattivo aiuta a garantire la qualità e l'integrità dei dati in tutte le pipeline di dati.
Nella prossima sezione, imparerai come monitorare efficacemente le anomalie identificate dal sistema. Imparerai anche come visualizzare e analizzare le statistiche dei dati raccolte da AWS Glue Data Quality. Inoltre, capirai come fornire feedback al modello di machine learning che alimenta la funzionalità di rilevamento delle anomalie. Questo ciclo di feedback è fondamentale per migliorare la precisione del modello e garantire che sia in grado di rilevare efficacemente le anomalie in linea con i requisiti aziendali e i modelli di dati specifici.