Configurazione del rilevamento delle anomalie e generazione di informazioni - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione del rilevamento delle anomalie e generazione di informazioni

Qualità dei dati AWS Glue (DQ) valuta i dati in base alle regole di qualità pertinenti che scrivi e fornisce informazioni e osservazioni sui dati nel tempo in modo da consentire interventi immediati. DQ, dal momento che esegue la scansione dei dati, calcola parametri statistici, come il numero massimo o minimo di righe, quindi li confronta con le espressioni di soglia.

Alcuni dei vantaggi del rilevamento delle anomalie di Qualità dei dati includono:

  • la scansione automatica continua dei dati

  • il rilevamento di anomalie che possono indicare un evento imprevisto o un'anomalia statistica

  • i suggerimenti di regole per intervenire sulle osservazioni segnalate dal rilevamento di anomalie di Qualità dei dati

Ciò è utile se:

  • desideri rilevare automaticamente le anomalie nei dati, senza dover scrivere la qualità di questi ultimi

  • desideri profilare i dati e visualizzarne le rappresentazioni visive

  • desideri tenere traccia del modo in cui i dati cambiano nel tempo

Quali osservazioni posso visualizzare sui miei dati?

DQ identifica i valori anomali nelle statistiche sui dati raccolte, le modifiche nei formati dei dati, le deviazioni dei dati e le modifiche allo schema. Sulla base delle osservazioni, DQ consiglia regole di qualità dei dati che gli utenti possono rendere operative con facilità. Le statistiche includono completezza, unicità, media, somma StandardDeviation, entropia e. DistinctValuesCount UniqueValueRatio

Abilitazione del rilevamento delle anomalie in AWS Glue Studio

Per abilitare il rilevamento delle anomalie, puoi aprire un processo AWS Glue Studio e attivare "Abilita il rilevamento anomalie". L'attivazione di questa opzione abilita il rilevamento delle anomalie sui dati analizzandoli nel tempo e fornendo statistiche e osservazioni su cui è possibile intervenire.

Per abilitare il rilevamento delle anomalie in AWS Glue Studio:
  1. Scegli il nodo Qualità dei dati nel processo, quindi scegli la scheda Rilevamento delle anomalie. Attiva "Abilita il rilevamento anomalie".

    La schermata mostra l'interruttore "Abilita il rilevamento anomalie" attivo.
  2. Definisci i dati da monitorare per rilevare eventuali anomalie scegliendo Aggiungi analizzatore. È possibile compilare due campi: Statistiche e Dati.

    Le statistiche corrispondono alle informazioni sulla forma e su altre proprietà dei dati. È possibile scegliere una o più statistiche per volta oppure scegliere Tutte le statistiche. Le statistiche includono: completezza, unicità, media, somma, StandardDeviation entropia e. DistinctValuesCount UniqueValueRatio

    I dati corrispondono alle colonne del set di dati. Puoi scegliere colonne singole oppure sceglierle tutte.

    La schermata mostra i campi per Statistiche e Dati. Puoi scegliere quali statistiche applicare al tuo set di dati e su quali colonne.
  3. Scegli Aggiungi ambito di rilevamento delle anomalie per salvare le modifiche. Dopo aver creato gli analizzatori, puoi visualizzarli nella sezione Ambito di rilevamento delle anomalie.

    Puoi anche utilizzare il menu Operazioni per modificare gli analizzatori oppure scegliere la scheda Editor del set di regole e modificare l'analizzatore direttamente nel blocco note dell'editor del set di regole. Visualizzerai gli analizzatori che hai salvato appena sotto le regole che hai creato.

    Rules = [ ] Analyzers = [ Completeness “id” ]

    Grazie al set di regole aggiornato e agli analizzatori, Qualità dei dati monitora continuamente i dati in entrata, segnalando eventuali anomalie tramite avvisi o interruzioni dei processi (a seconda delle impostazioni).

Nota

Le osservazioni vengono generate quando nel set di dati vengono osservati almeno tre valori per ogni statistica sui dati. Se non ci sono osservazioni visibili, significa che Qualità dei dati non dispone di dati sufficienti per generare un'osservazione. Dopo diverse esecuzioni del processo, Qualità dei dati può fornire informazioni sui dati, mostrandole nella sezione Osservazioni.

Gli analizzatori generano osservazioni tramite il rilevamento di anomalie nei dati e forniscono consigli per la creazione progressiva di regole. Puoi visualizzare le osservazioni scegliendo la scheda Qualità dei dati. Le osservazioni sono specifiche per ogni esecuzione del processo. È possibile visualizzare il nodo Qualità dei dati e l'esecuzione del processo specifici nella parte superiore della sezione Osservazioni. Scegli un nuovo nodo o una nuova esecuzione del processo per visualizzarne le osservazioni specifiche.

La schermata mostra la scheda Qualità dei dati per un processo e le osservazioni presentate per l'esecuzione del processo.

Osservazione: ogni informazione si basa su un'esecuzione del processo ben precisa e configurata dai set di regole e dagli analizzatori specificati.

Parametri correlati: quando vengono generate le osservazioni, la colonna Parametri correlati mostra la regola e i valori effettivi previsti, nonché i limiti inferiori e superiori.

Suggerimenti di regole: successivamente, AWS Glue consiglia anche le regole per risolvere il problema. Ogni regola suggerita può essere copiata facendo clic sull'icona di copia. È possibile copiare tutte le regole suggerite facendo clic sull'icona di copia accanto a ciascuna di esse, quindi su Applica regole copiate.

Dati monitorati: la colonna Dati monitorati fornisce la colonna o la riga che è stata monitorata e che ha attivato l'osservazione.

Dopo la generazione di un'osservazione e il suggerimento di una regola, puoi applicare tale regola al nodo di qualità dei dati. Per farlo:

  1. Fai clic sull'icona di copia accanto a ogni suggerimento di regola. In questo modo il suggerimento relativo alla regola verrà aggiunto a un blocco note che potrai recuperare in un secondo momento.

  2. Fai clic su Applica i suggerimenti di regole. Si apre così il blocco note in cui è possibile visualizzare le regole copiate in precedenza.

  3. Scegli Copia regole.

  4. Scegli Applica all'editor del set di regole. Si apre così l'editor del set di regole in cui è possibile incollare le regole copiate.

  5. Incolla le regole copiate nell'editor del set di regole.