Qualità dei dati in Amazon DataZone - Amazon DataZone

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Qualità dei dati in Amazon DataZone

Le metriche sulla qualità dei dati in Amazon ti DataZone aiutano a comprendere i diversi parametri di qualità come la completezza, la tempestività e l'accuratezza delle tue fonti di dati. Amazon DataZone si integra con AWS Glue Data Quality e offre API per integrare metriche di qualità dei dati da soluzioni di qualità dei dati di terze parti. Gli utenti dei dati possono vedere come le metriche sulla qualità dei dati cambiano nel tempo per gli asset sottoscritti. Per creare ed eseguire le regole sulla qualità dei dati, puoi utilizzare il tuo strumento di qualità dei dati preferito, come AWS Glue data quality. Con le metriche sulla qualità dei dati di Amazon DataZone, i consumatori di dati possono visualizzare i punteggi di qualità dei dati per gli asset e le colonne, contribuendo a creare fiducia nei dati che utilizzano per le decisioni.

Prerequisiti e modifiche ai ruoli IAM

Se utilizzi le policy AWS gestite DataZone di Amazon, non ci sono passaggi di configurazione aggiuntivi e queste policy gestite vengono aggiornate automaticamente per supportare la qualità dei dati. Se utilizzi le tue politiche per i ruoli che concedono ad Amazon DataZone le autorizzazioni necessarie per interagire con i servizi supportati, devi aggiornare le politiche allegate a questi ruoli per abilitare il supporto per la lettura delle informazioni sulla qualità dei dati di AWS Glue in AWS politica gestita: AmazonDataZoneGlueManageAccessRolePolicy e abilitare il supporto per le API delle serie temporali in and. AWS politica gestita: AmazonDataZoneDomainExecutionRolePolicy AWS politica gestita: AmazonDataZoneFullUserAccess

Abilitare la qualità dei dati per le risorse AWS Glue

Amazon DataZone estrae le metriche sulla qualità dei dati da AWS Glue per fornire un contesto in un determinato momento, ad esempio durante una ricerca nel catalogo di dati aziendali. Gli utenti dei dati possono vedere come i parametri di qualità dei dati cambiano nel tempo per gli asset sottoscritti. I produttori di dati possono acquisire i punteggi di qualità dei dati di AWS Glue in base a una pianificazione. Il catalogo di dati DataZone aziendali di Amazon può anche visualizzare metriche sulla qualità dei dati provenienti da sistemi di terze parti tramite API per la qualità dei dati. Per ulteriori informazioni, consulta AWS Glue Data Quality e Guida introduttiva a AWS Glue Data Quality for the Data Catalog.

Puoi abilitare i parametri di qualità dei dati per i tuoi DataZone asset Amazon nei seguenti modi:

  • Utilizza il Data Portal o le DataZone API di Amazon per abilitare la qualità dei dati per la tua sorgente dati AWS Glue tramite il portale dati Amazon durante la creazione di una nuova fonte di DataZone dati Glue o la modifica di un'origine dati AWS Glue esistente.

    Per ulteriori informazioni sull'abilitazione della qualità dei dati per una fonte di dati tramite il portale, consulta Crea ed esegui un'origine DataZone dati Amazon per AWS Glue Data Catalog eGestisci le fonti di DataZone dati Amazon esistenti.

    Nota

    Puoi utilizzare il Data Portal per abilitare la qualità dei dati solo per le tue risorse di inventario AWS Glue. In questa versione di Amazon, l' DataZone abilitazione della qualità dei dati per Amazon Redshift o per asset di tipo personalizzato tramite il portale dati non è supportata.

    Puoi anche utilizzare le API per abilitare la qualità dei dati per le tue fonti di dati nuove o esistenti. Puoi farlo richiamando CreateDataSourceo UpdateDataSourcee impostando il autoImportDataQualityResult parametro su «True».

    Dopo aver abilitato la qualità dei dati, puoi eseguire l'origine dati su richiesta o in base alla pianificazione. Ogni esecuzione può includere fino a 100 parametri per risorsa. Non è necessario creare moduli o aggiungere metriche manualmente quando si utilizza una fonte di dati per la qualità dei dati. Quando la risorsa viene pubblicata, gli aggiornamenti apportati al modulo sulla qualità dei dati (fino a 30 punti dati per regola storica) si riflettono nell'elenco destinato ai consumatori. Successivamente, ogni nuova aggiunta di metriche alla risorsa viene aggiunta automaticamente all'elenco. Non è necessario ripubblicare la risorsa per rendere disponibili ai consumatori gli ultimi punteggi.

Abilitazione della qualità dei dati per tipi di asset personalizzati

Puoi utilizzare le DataZone API di Amazon per abilitare la qualità dei dati per qualsiasi tuo asset di tipo personalizzato. Per ulteriori informazioni, consulta gli argomenti seguenti:

I passaggi seguenti forniscono un esempio di utilizzo di API o CLI per importare parametri di terze parti per i tuoi asset in Amazon: DataZone

  1. Richiama l'API come seguePostTimeSeriesDataPoints:

    aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \

    con il seguente payload:

    "domainId": "dzd_5oo7xzoqltu8mf", "entityId": "4wyh64k2n8czaf", "entityType": "ASSET", "form": { "content": "{\n \"evaluations\" : [ {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingState\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCity\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"BillingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n \"details\" : {\n \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n },\n \"applicableFields\" : [ \"biLlingcountry\" ],\n \"status\" : \"FAIL\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n \"details\" : { },\n \"applicableFields\" : [ \"Billingstreet\" ],\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 88.0,\n \"evaluationsCount\" : 8\n}", "formName": "shortschemaruleset", "id": "athp9dyw75gzhj", "timestamp": 1.71700477757E9, "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "typeRevision": "8" }, "formName": "shortschemaruleset" }

    È possibile ottenere questo payload richiamando l'azione: GetFormType

    aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
  2. Invoca l'DeleteTimeSeriesDataPointsAPI come segue:

    aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \