AWS Glue Qualità dei dati - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Glue Qualità dei dati

AWS Glue La qualità dei dati consente di misurare e monitorare la qualità dei dati in modo da poter prendere buone decisioni aziendali. Basato su un DeeQu framework open source, AWS Glue Data Quality offre un'esperienza gestita e senza server. AWS Glue Data Quality funziona con Data Quality Definition Language (DQDL), un linguaggio specifico del dominio utilizzato per definire le regole di qualità dei dati. Per ulteriori informazioni sui tipi di regole supportati DQDL e sui tipi di regole supportati, consultaRiferimento al linguaggio di definizione della qualità dei dati (DQDL).

Per informazioni aggiuntive sul prodotto e sui prezzi, consulta la pagina del servizio Qualità dei dati di AWS Glue.

Vantaggi e funzionalità principali

I vantaggi e le caratteristiche principali di AWS Glue Data Quality includono:

  • Serverless: non è necessaria alcuna installazione, applicazione di patch o manutenzione.

  • Inizia subito: AWS Glue Data Quality analizza rapidamente i tuoi dati e crea regole di qualità dei dati per te. È possibile iniziare con due clic: "Crea regole sulla qualità dei dati → Regole suggerite".

  • Rileva problemi di qualità dei dati: utilizza l'apprendimento automatico (ML) per rilevare anomalie e problemi di qualità hard-to-detect dei dati.

  • Improvvisa le tue regole: con più di 25 regole out-of-the-box DQ da cui partire, puoi creare regole adatte alle tue esigenze specifiche.

  • Valuta la qualità e prendi decisioni aziendali con fiducia: una volta valutate le regole, ottieni un punteggio di qualità dei dati che fornisce una panoramica dello stato dei tuoi dati. Utilizza il punteggio di qualità dei dati per prendere decisioni aziendali con fiducia.

  • Concentrati sui dati errati: AWS Glue Data Quality ti aiuta a identificare i record esatti che hanno causato il calo dei punteggi di qualità. Identificali, mettili in quarantena e correggili facilmente.

  • Pagamento in base al consumo: non sono necessarie licenze annuali per utilizzare AWS Glue Data Quality.

  • Nessun vincolo: AWS Glue Data Quality è basato sull'open source DeeQu e ti consente di mantenere le regole che stai creando in un linguaggio aperto.

  • Controlli della qualità dei dati: puoi applicare i controlli della qualità dei dati sulle pipeline Data Catalog e sulle AWS Glue ETL pipeline, consentendoti di gestire la qualità dei dati a riposo e in transito.

  • Rilevamento della qualità dei dati basato su ML: utilizza l'apprendimento automatico (ML) per rilevare anomalie e problemi di qualità dei dati. hard-to-detect

  • Linguaggio aperto per esprimere regole: garantisce che le regole sulla qualità dei dati siano redatte in modo coerente e semplice. Gli utenti aziendali possono esprimere facilmente le regole sulla qualità dei dati in un linguaggio semplice e comprensibile. Per gli ingegneri, questo linguaggio offre la flessibilità necessaria per generare codice, implementare un controllo coerente delle versioni e automatizzare le implementazioni.

Come funziona

Esistono due punti di accesso per AWS Glue Data Quality: the AWS Glue Data Catalog e jobs. AWS Glue ETL Questa sezione fornisce una panoramica dei casi d'uso e delle AWS Glue funzionalità supportate da ciascun punto di ingresso.

Qualità dei dati per AWS Glue Data Catalog

AWS Glue Data Quality valuta gli oggetti archiviati in e offre ai AWS Glue Data Catalog non programmatori un modo semplice per impostare regole di qualità dei dati. Queste figure includono amministratori di dati e analisti aziendali.

È possibile scegliere questa opzione per i seguenti casi d'uso:

  • Desideri eseguire attività relative alla qualità dei dati su set di dati che hai già catalogato in AWS Glue Data Catalog.

  • Ti occupi di governance dei dati e devi identificare o valutare i problemi di qualità dei dati nel tuo data lake su base continuativa.

È possibile gestire la qualità dei dati per Catalogo dati utilizzando le seguenti interfacce:

  • La console di gestione AWS Glue

  • AWS Glue APIs

Per iniziare a usare AWS Glue Data Quality for the AWS Glue Data Catalog seeNozioni di base su AWS Glue Data Quality per Data Catalog.

Qualità dei dati per i AWS Glue ETL lavori

AWS Glue Data Quality for AWS Glue ETL jobs consente di eseguire attività proattive sulla qualità dei dati. Le attività proattive ti aiutano a identificare e filtrare i dati errati prima di caricare un set di dati nel tuo data lake.

Puoi scegliere la qualità dei dati per i ETL lavori per i seguenti casi d'uso:

  • Vuoi incorporare attività relative alla qualità dei dati nei tuoi ETL lavori

  • Vuoi scrivere codice che definisca le attività relative alla qualità dei dati negli ETL script

  • Vuoi gestire la qualità dei dati che fluiscono nelle tue pipeline di dati visive

È possibile gestire la qualità dei dati per i ETL lavori utilizzando le seguenti interfacce:

  • AWS Glue Studio, AWS Glue Studio notebook e sessioni interattive AWS Glue

  • AWS Glue librerie per lo scripting ETL

  • AWS Glue APIs

Per iniziare a utilizzare la qualità dei dati per i ETL lavori, consulta il Tutorial: Guida introduttiva alla qualità dei dati nella Guida per l'AWS Glue Studio utente.

Confronto della qualità dei dati per il Data Catalog con la qualità dei dati per i ETL lavori

Questa tabella fornisce una panoramica delle funzionalità supportate da ogni punto di ingresso di AWS Glue Data Quality.

Funzionalità Qualità dei dati per Catalogo dati Qualità dei dati per i ETL lavori
Origini dati Amazon S3, Amazon RedshiftJDBC, fonti compatibili con Data Catalog e formati di data lake transazionali come Apache Iceberg, Apache Hudi e Delta Lake. Tieni presente che se le tabelle sono AWS Lake Formation gestite, Iceberg, Delta e le tabelle non sono supportate. HUDI Amazon Athena le viste catalogate in non AWS Glue Data Catalog sono supportate. Tutte le fonti di dati supportate da AWS Glue, inclusi connettori personalizzati e connettori di terze parti.
Suggerimenti di regole di Qualità dei dati Supportato Non supportato
Crea ed esegui DQDL regole Supportato Supportato
Dimensionamento automatico Non supportato Supportata
AWS Glue Supporto Flex Non supportato Supportata
Pianificazione Supportato durante la valutazione delle regole di Qualità dei dati e tramite Step Functions. Supportato durante l'utilizzo di Step Functions e flussi di lavoro.
Identificazione dei record che non hanno superato i controlli di qualità dei dati Non supportato Supportata
Integrazione con Amazon EventBridge Supportato Supportato
Integrazione con Cloudwatch AWS Supportato Supportato
Scrittura dei risultati di qualità dei dati in Amazon S3 Supportato Supportato
Qualità incrementale dei dati Supportato tramite predicati pushdown Supportato tramite segnalibri AWS Glue
AWS CloudFormation supporto Supportato Supportato
Rilevamento delle anomalie basato su ML Non supportato Supportata
Regole dinamiche Non supportato Supportata

Considerazioni

Prendi in considerazione i seguenti elementi prima di utilizzare AWS Glue Data Quality:

Terminologia

L'elenco seguente definisce i termini correlati alla qualità AWS Glue dei dati.

Linguaggio di definizione della qualità dei dati (DQDL)

Linguaggio specifico del dominio che puoi utilizzare per scrivere regole di qualità AWS Glue dei dati.

Per saperne di piùDQDL, consulta la guida. Riferimento al linguaggio di definizione della qualità dei dati (DQDL)

qualità dei dati

Descrive in che modo un set di dati soddisfa il suo scopo specifico. AWS Glue Data Quality valuta le regole rispetto a un set di dati per misurare la qualità dei dati. Ogni regola verifica caratteristiche particolari come la freschezza o l'integrità dei dati. Per quantificare la qualità dei dati, è possibile utilizzare un punteggio di qualità dei dati.

punteggio di qualità dei dati

La percentuale di regole sulla qualità dei dati che vengono rispettate (risultano vere) quando si valuta un set di regole con Data Quality. AWS Glue

regola

Un'DQDLespressione che controlla i dati per una caratteristica specifica e restituisce un valore booleano. Per ulteriori informazioni, consulta Struttura delle regole.

analyzer

Un'DQDLespressione che raccoglie statistiche sui dati. Un analizzatore raccoglie statistiche sui dati che possono essere utilizzate dagli algoritmi ML per rilevare anomalie e hard-to-detect problemi di qualità dei dati nel tempo.

set di regole

Una AWS Glue risorsa che comprende una serie di regole sulla qualità dei dati. Un set di regole deve essere associato a una tabella in AWS Glue Data Catalog. Quando salvi un set di regole, AWS Glue assegna un Amazon Resource Name (ARN) al set di regole.

punteggio di qualità dei dati

La percentuale di regole di qualità dei dati che vengono approvate (risultano vere) quando si valuta un set di regole con AWS Glue Data Quality.

osservazione

Informazioni non confermate generate da AWS Glue analizzando le statistiche sui dati raccolte da regole e analizzatori nel tempo.

Limiti

AWS Glue Limiti del servizio Data Quality:

  • Puoi avere 2.000 regole in un set di regole. Se i tuoi set di regole sono più grandi, ti consigliamo di suddividerli in più set di regole.

  • La dimensione del set di regole è di 65 KB. Se i tuoi set di regole sono più grandi, ti consigliamo di suddividerli in più set di regole.

  • AWS Glue Data Quality raccoglie statistiche quando crei una regola o un analizzatore. L'archiviazione di queste statistiche non comporta alcun costo. Tuttavia, esiste un limite di 100.000 statistiche per account e tali statistiche verranno conservate per un massimo di due anni.

Note di rilascio per AWS Glue la qualità dei dati

Questo argomento descrive le funzionalità introdotte in AWS Glue Data Quality.

Disponibilità generale: nuove funzionalità

Le seguenti nuove funzionalità sono disponibili con la disponibilità generale di AWS Glue Data Quality:

  • La capacità di identificare quali record non hanno superato i controlli di qualità dei dati è ora supportata in AWS Glue Studio

  • Nuovi tipi di regole sulla qualità dei dati, come la convalida dell'integrità referenziale dei dati tra due set di dati, il confronto dei dati tra due set di dati e il controllo dei tipi di dati

  • Esperienza utente migliorata in AWS Glue Data Catalog

  • Supporto per Apache Iceberg, Apache Hudi e Delta Lake

  • Supporto per Amazon Redshift

  • Notifica semplificata con Amazon EventBridge

  • AWS CloudFormation supporto per la creazione di set di regole

  • Miglioramenti delle prestazioni: opzione di memorizzazione nella ETL cache AWS Glue Studio per prestazioni più rapide nella valutazione della qualità dei dati

27 novembre 2023 (anteprima)

12 marzo 2024

26 giugno 2024

  • DQDLmiglioramenti

    • DQDLora supporta la clausola where in modo da poter filtrare i dati prima di applicare le regole DQ

7 agosto 2024

  • Il rilevamento delle anomalie e le regole dinamiche sono ora disponibili a livello generale