Generatore di regole di qualità dei dati - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Generatore di regole di qualità dei dati

Con il generatore di regole Data Quality Definition Language (DQDL), puoi creare regole di qualità dei dati per valutare i tuoi dati. Inizia selezionando un tipo di regola, quindi specifica i parametri nell'editor delle regole. Durante il processo di creazione, l'editor delle regole mostra anche eventuali errori e avvisi.

La Guida di DQDL fornisce una documentazione completa su come costruire regole utilizzando la sintassi DQDL, i tipi di regole integrati e gli esempi.

Nodo Evaluate Data Quality (Valuta la qualità dei dati)

Quando si lavora con il nodo di trasformazione Valuta la qualità dei dati e il generatore di regole DQDL, è possibile espandere lo spazio di lavoro.

  • Per espandere la scheda Trasforma fino a riempire l'intero schermo, fai clic sull'icona di espansione nell'angolo in alto a destra del pannello dei dettagli del nodo.

  • Per espandere l'editor delle regole DQDL, fai clic sull'icona << per espandere l'editor delle regole e comprimere le schede Tipi di regole e Schema.

    La schermata mostra un diagramma del processo con il nodo Valuta la qualità dei dati.

Componenti

Esistono 26 tipi di regole incorporati in AWS Glue Studio. Ogni tipo di regola riporta una descrizione e vari esempi di come possono essere utilizzati.

Tipi di regole di qualità dei dati

AWS Glue Studio fornisce tipi di regole integrati per semplificare la creazione di una regola. Per ulteriori informazioni sui tipi di regole, consulta Riferimento ai tipi di regole DQDL.

Schema

La scheda Schema mostra i nomi delle colonne e il tipo di dati del nodo principale. Vengono visualizzati gli schemi di più nodi. È possibile visualizzare lo schema di input, effettuare una ricerca per nome della colonna e inserire la colonna nell'editor delle regole.

La schermata mostra l'editor di regole con una regola completa utilizzando il tipo di regola Completezza.

Editor delle regole

L'editor delle regole è un editor di testo in cui è possibile scrivere e modificare le regole. Se si seleziona un tipo di regola dal generatore di regole DQDL, questo verrà aggiunto all'editor delle regole. È quindi possibile specificare parametri, aggiungere e modificare le regole in base alle esigenze modificando il testo. AWS Glue Studio convalida le regole nell'editor delle regole e mostra errori e avvisi, se presenti.

Errori e avvertenze

Se una regola non segue la sintassi delle regole DQDL, l'editor delle regole mostra diversi indicatori visivi che segnalano la presenza di un errore:

  • L'editor delle regole mostra un'icona di errore e un colore rosso sulla riga con l'errore.

  • Il numero di errori viene mostrato accanto all'icona rossa di errore.

  • Quando scegli la riga con l'errore, nella parte inferiore dell'editor delle regole vengono mostrate una descrizione e la sua posizione (riga e colonna).

Lo screenshot mostra l'editor delle regole DQDL con indicatori di errore sulla riga 1 e il numero di errori nella parte inferiore dell'editor. Di seguito è riportata la descrizione dell'errore.

Operazioni di qualità dei dati

Per impostazione predefinita, questa operazione non è selezionata e l'esecuzione del processo sarà completata anche se le regole di qualità dei dati hanno esito negativo.

Scegli tra le seguenti operazioni. È possibile utilizzare le operazioni per pubblicare i risultati su CloudWatch o interrompere i processi in base a criteri specifici. Le operazioni sono disponibili solo dopo aver creato una regola.

  • Pubblica i risultati su CloudWatch: quando esegui un processo, aggiungi i risultati a CloudWatch.

  • Processo fallito quando la qualità dei dati fallisce: se le regole sulla qualità dei dati falliscono, anche il processo fallisce di conseguenza.

Output di trasformazione della qualità dei dati

  • Dati originali: scegli di emettere i dati di input originali. Questa opzione è ideale se si desidera interrompere il processo quando vengono rilevati problemi di qualità.

  • Risultati della qualità dei dati: scegli di visualizzare le regole configurate per l'output e il loro stato di riuscita o non riuscita. Questa opzione è utile se desideri eseguire un'operazione personalizzata.

Impostazioni di output della qualità dei dati

Imposta la posizione dei risultati della qualità dei dati specificando la posizione Amazon S3 come destinazione dell'output della qualità dei dati.