FileUniqueness - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

FileUniqueness

File Uniqueness ti consente di garantire che non vi siano file duplicati nei dati che hai ricevuto dai tuoi produttori di dati.

Raccoglie le seguenti statistiche sui dati

  1. numero totale di file nella cartella

  2. Il rapporto di unicità dei file

Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00

Trova file duplicati in una cartella:

FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1

Deduzione dei nomi delle cartelle direttamente dai frame di dati per rilevare i duplicati:

Non è sempre necessario fornire un percorso di file. Ad esempio, quando si crea la regola nel AWS Glue Data Catalog, potrebbe essere difficile trovare le cartelle utilizzate dalle tabelle del catalogo. AWS Glue Data Quality può trovare le cartelle o i file specifici utilizzati per popolare il tuo frame di dati.

FileUniqueness > 0.5 FileUniqueness with threshold = 1

Ci sono alcune considerazioni:

  1. In AWS GlueETL, devi avere EvaluateDataQualityTransform subito dopo una trasformazione di Amazon S3 o AWS Glue Data Catalog.

  2. Questa regola non funzionerà nelle sessioni interattive di AWS Glue.