Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Visualizzazione dei punteggi e delle anomalie sulla qualità dei dati
In questa sezione, esploreremo la dashboard sulla qualità dei dati e le diverse funzionalità che fornisce.
Visualizza e comprendi metriche e tendenze di alto livello sulla qualità dei dati
Una volta che il tuo lavoro ha avuto successo, scegli la scheda Data Quality per visualizzare i punteggi e le anomalie sulla qualità dei dati.
I seguenti componenti della scheda Qualità dei dati forniscono informazioni utili.
-
Scegli la scheda Qualità dei dati per visualizzare le metriche sulla qualità dei dati.
-
Seleziona un ID di esecuzione del lavoro specifico per visualizzare il punteggio di qualità dei dati.
-
Questo riquadro mostra tre informazioni importanti. Puoi sceglierle per accedere a tabelle specifiche per visualizzare anomalie, statistiche sui dati o regole.
-
Punteggio di qualità dei dati quando le regole sono configurate.
-
Numero di statistiche raccolte da Rules and Analyzers.
-
Numero totale di anomalie rilevate.
-
-
Questo grafico di tendenza mostra l'andamento della qualità dei dati nel tempo. Puoi passare il mouse sulla tendenza e andare a un momento specifico in cui i punteggi di qualità dei dati sono peggiorati.
-
Le tendenze delle anomalie nel tempo ti mostreranno il numero di anomalie rilevate nel tempo.
-
Schede:
-
La scheda Regole è la scheda predefinita che mostra l'elenco di tutte le regole e lo stato. Evaluated Rules è utile nel caso di regole dinamiche per visualizzare il valore effettivo a cui è stata valutata la regola.
-
La scheda Statistiche elenca tutte le statistiche, consentendoti di visualizzare le metriche e le tendenze nel tempo.
-
La scheda Anomalie mostra l'elenco delle anomalie rilevate.
-
Visualizzazione delle anomalie e algoritmo di rilevamento delle anomalie di addestramento
Richiamate per l'immagine qui sopra:
-
Quando vengono rilevate delle anomalie, fai clic sull'anomalia o seleziona la scheda Anomalie
-
AWS Glue Data Quality fornisce una spiegazione dettagliata dell'anomalia, del valore effettivo, dell'intervallo previsto
-
AWS Glue Data Quality mostra una linea di tendenza. Presenta il valore effettivo, una tendenza derivata in base ai valori effettivi (linea rossa), il limite superiore e il limite inferiore
-
AWS Glue Data Quality consiglia regole di qualità dei dati che possono essere utilizzate per catturare i modelli futuri. Puoi copiare tutte le regole che ti vengono consigliate e applicarle al tuo nodo di qualità dei dati per acquisire questi modelli in modo efficace.
-
Puoi fornire input al modello di machine learning (ML) per escludere valori anomali, assicurando che le esecuzioni future rilevano le anomalie con precisione. Se non escludi esplicitamente le anomalie, AWS Glue Data Quality le considererà automaticamente come parte del modello per le previsioni future. È importante notare che solo l'ultima esecuzione rifletterà gli input del modello forniti. Ad esempio, se sei tornato indietro ed hai escluso punti anomali da alcune esecuzioni precedenti, il modello non rifletterà tali modifiche a meno che non visualizzi e aggiorni gli input del modello nell'ultima esecuzione. Il modello continuerà a utilizzare gli input forniti in precedenza fino a quando non verranno apportate le modifiche necessarie nell'ultima esecuzione. Gestendo attivamente l'esclusione dei valori anomali, è possibile affinare la comprensione da parte del modello ML di ciò che costituisce un'anomalia per i modelli e i requisiti di dati specifici, con conseguente rilevamento delle anomalie più accurato nel tempo.
Visualizzazione delle statistiche dei dati nel tempo e fornitura di input di formazione
A volte, potresti voler visualizzare le statistiche o i profili di dati e vedere come procedono nel tempo. Per fare ciò, scegli Statistiche o apri la scheda Statistiche. È quindi possibile visualizzare le ultime statistiche sui dati raccolte da AWS Glue Data Quality.
Facendo clic su Visualizza tendenze viene mostrato l'andamento di ciascuna statistica nel tempo.
-
È possibile selezionare la statistica per una colonna specificata
-
È possibile visualizzare l'andamento delle tendenze
-
È possibile selezionare valori anomali e scegliere di escluderli o includerli. Fornendo questo feedback, l'algoritmo escluderà o includerà i punti dati anomali identificati e riqualificherà il modello. Questo processo di riqualificazione garantisce un rilevamento accurato delle anomalie in futuro, man mano che il modello impara dal feedback fornito su quali valori devono essere considerati anomali o meno.
Grazie a questo ciclo di feedback, hai la possibilità di affinare la comprensione da parte dell'algoritmo di ciò che costituisce un'anomalia per i tuoi modelli di dati specifici e i tuoi requisiti aziendali. Escludendo i valori che non devono essere contrassegnati come anomalie o includendo i valori che non sono stati rilevati, il modello riaddestrato migliorerà la distinzione tra punti dati previsti e punti dati realmente anomali.