Qualité des données sur Amazon DataZone - Amazon DataZone

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Qualité des données sur Amazon DataZone

Les indicateurs de qualité des données d'Amazon vous DataZone aident à comprendre les différents indicateurs de qualité tels que l'exhaustivité, l'actualité et l'exactitude de vos sources de données. Amazon DataZone s'intègre à AWS Glue Data Quality et propose des API pour intégrer les indicateurs de qualité des données issus de solutions de qualité des données tierces. Les utilisateurs des données peuvent voir comment les indicateurs de qualité des données évoluent au fil du temps pour les actifs auxquels ils ont souscrit. Pour créer et appliquer les règles de qualité des données, vous pouvez utiliser l'outil de qualité des données de votre choix, tel que AWS Glue data quality. Grâce aux indicateurs de qualité des données d'Amazon DataZone, les consommateurs de données peuvent visualiser les scores de qualité des données pour les actifs et les colonnes, ce qui contribue à renforcer la confiance dans les données qu'ils utilisent pour prendre des décisions.

Conditions préalables et modifications des rôles IAM

Si vous utilisez les politiques AWS gérées DataZone d'Amazon, aucune étape de configuration supplémentaire n'est requise et ces politiques gérées sont automatiquement mises à jour pour garantir la qualité des données. Si vous utilisez vos propres politiques pour les rôles qui accordent à Amazon les autorisations requises pour interagir avec DataZone les services pris en charge, vous devez mettre à jour les politiques associées à ces rôles afin de permettre la lecture des informations sur la qualité des données de AWS Glue dans le AWS politique gérée : AmazonDataZoneGlueManageAccessRolePolicy et de permettre la prise en charge des API de séries chronologiques dans le AWS politique gérée : AmazonDataZoneDomainExecutionRolePolicy et leAWS politique gérée : AmazonDataZoneFullUserAccess.

Permettre la qualité des données pour les actifs AWS de Glue

Amazon DataZone extrait les indicateurs de qualité des données de AWS Glue afin de fournir du contexte à un moment donné, par exemple lors d'une recherche dans un catalogue de données commerciales. Les utilisateurs des données peuvent voir comment les indicateurs de qualité des données évoluent au fil du temps pour les actifs auxquels ils ont souscrit. Les producteurs de données peuvent ingérer les scores de qualité des données de AWS Glue selon un calendrier. Le catalogue de données Amazon DataZone Business peut également afficher des indicateurs de qualité des données provenant de systèmes tiers via des API de qualité des données. Pour plus d'informations, voir AWS Glue Data Quality et Getting started with AWS Glue Data Quality pour le catalogue de données.

Vous pouvez activer les mesures de qualité des données pour vos DataZone actifs Amazon de différentes manières :

  • Utilisez le Data Portal ou les DataZone API Amazon pour garantir la qualité des données de votre source de données AWS Glue via le portail de données Amazon, soit lors de la création d'une nouvelle source de DataZone données Glue, soit lors de la modification d'une source de données AWS Glue existante.

    Pour plus d'informations sur l'activation de la qualité des données pour une source de données via le portail, consultez Créez et exécutez une source DataZone de données Amazon pour AWS Glue Data Catalog etGérez les sources de DataZone données Amazon existantes.

    Note

    Vous pouvez utiliser le portail de données pour activer la qualité des données uniquement pour vos actifs d'inventaire AWS Glue. Dans cette version d'Amazon, l' DataZone activation de la qualité des données pour Amazon Redshift ou de types personnalisés de ressources via le portail de données n'est pas prise en charge.

    Vous pouvez également utiliser les API pour améliorer la qualité des données pour vos sources de données nouvelles ou existantes. Vous pouvez le faire en invoquant le CreateDataSourceou UpdateDataSourceet en réglant le autoImportDataQualityResult paramètre sur « Vrai ».

    Une fois la qualité des données activée, vous pouvez exécuter la source de données à la demande ou selon un calendrier. Chaque exécution peut générer jusqu'à 100 mesures par actif. Il n'est pas nécessaire de créer des formulaires ou d'ajouter des métriques manuellement lors de l'utilisation d'une source de données pour garantir la qualité des données. Lorsque l'actif est publié, les mises à jour apportées au formulaire de qualité des données (jusqu'à 30 points de données par règle d'historique) sont reflétées dans la liste destinée aux consommateurs. Par la suite, chaque nouvel ajout de métriques à l'actif est automatiquement ajouté à la liste. Il n'est pas nécessaire de republier la ressource pour mettre les derniers scores à la disposition des consommateurs.

Permettre la qualité des données pour les types d'actifs personnalisés

Vous pouvez utiliser les DataZone API Amazon pour garantir la qualité des données pour tous vos types d'actifs personnalisés. Pour plus d’informations, consultez les ressources suivantes :

Les étapes suivantes fournissent un exemple d'utilisation d'API ou de CLI pour importer des métriques tierces pour vos actifs sur Amazon DataZone :

  1. Appelez l'PostTimeSeriesDataPointsAPI comme suit :

    aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \

    avec la charge utile suivante :

    { "domainIdentifier": "dzd_bqqlk3nz21zp2f", "entityIdentifier": "4nwl5ew0dsu27b", "entityType": "ASSET", "forms": [ { "content": "{\n \"evaluationsCount\" : 11,\n \"evaluations\" : [ {\n \"description\" : \"IsComplete \\\"Id\\\"\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"Id\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"Uniqueness \\\"Id\\\" > 0.95\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Uniqueness\",\n \"COLUMN_NAME\" : \"Id\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnLength \\\"Id\\\" = 18\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"MinimumLength,MaximumLength\",\n \"COLUMN_NAME\" : \"Id,Id\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"IsComplete \\\"IsDeleted\\\"\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"IsDeleted\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"Completeness \\\"Type\\\" >= 0.59\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"Type\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnValues \\\"Type\\\" in [\\\"Customer - Direct\\\",\\\"Customer - Channel\\\"] with threshold >= 0.8\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"\",\n \"COLUMN_NAME\" : \"\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnLength \\\"Type\\\" <= 18\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"MaximumLength\",\n \"COLUMN_NAME\" : \"Type\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnLength \\\"ParentId\\\" <= 18\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"MaximumLength\",\n \"COLUMN_NAME\" : \"ParentId\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"Completeness \\\"AnnualRevenue\\\" >= 0.28\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Completeness\",\n \"COLUMN_NAME\" : \"AnnualRevenue\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"StandardDeviation \\\"AnnualRevenue\\\" between 1658483123.39 and 1833060294.28\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"StandardDeviation\",\n \"COLUMN_NAME\" : \"AnnualRevenue\"\n },\n \"status\" : \"PASS\"\n }, {\n \"description\" : \"ColumnValues \\\"AnnualRevenue\\\" between 29999999 and 5600000001\",\n \"details\" : {\n \"STATISTIC_NAME\" : \"Minimum,Maximum\",\n \"COLUMN_NAME\" : \"AnnualRevenue,AnnualRevenue\"\n },\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 1.0\n}", "formName": "GREAT_EXPECTATION_NEW", "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "timestamp": 1608969556 } ] }
  2. Appelez l'DeleteTimeSeriesDataPointsAPI comme suit :

    aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \