Créez et exécutez une source DataZone de données Amazon pour AWS Glue Data Catalog - Amazon DataZone

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Créez et exécutez une source DataZone de données Amazon pour AWS Glue Data Catalog

Dans Amazon DataZone, vous pouvez créer une source de AWS Glue Data Catalog données afin d'importer les métadonnées techniques des tables de base de données AWS Glue. Pour ajouter une source de données pour le AWS Glue Data Catalog, la base de données source doit déjà exister dans AWS Glue.

Lorsque vous créez et gérez une source de AWS Glue données, vous ajoutez des actifs de la AWS Glue base de données source à l'inventaire de votre DataZone projet Amazon. Vous pouvez exécuter vos sources de AWS Glue données selon un calendrier défini ou à la demande pour créer ou mettre à jour les métadonnées techniques de vos actifs. Lors de l'exécution des sources de données, vous pouvez éventuellement choisir de publier vos actifs dans le DataZone catalogue Amazon afin de les rendre accessibles à tous les utilisateurs du domaine. Vous pouvez également publier les actifs de l'inventaire de votre projet après avoir modifié leurs métadonnées commerciales. Les utilisateurs du domaine peuvent rechercher et découvrir vos actifs publiés, et demander des abonnements à ces actifs.

Pour ajouter une source AWS Glue de données
  1. Accédez au portail de DataZone données Amazon URL et connectez-vous à l'aide de l'authentification unique (SSO) ou de vos AWS informations d'identification. Si vous êtes un DataZone administrateur Amazon, vous pouvez accéder à la DataZone console Amazon à l'adresse https://console.aws.amazon.com/datazone et vous connecter avec l' Compte AWS endroit où le domaine a été créé, puis choisir Open data portal.

  2. Choisissez Sélectionner un projet dans le volet de navigation supérieur et sélectionnez le projet auquel vous souhaitez ajouter la source de données.

  3. Accédez à l'onglet Données du projet.

  4. Choisissez Sources de données dans le volet de navigation de gauche, puis choisissez Créer une source de données.

  5. Configurez les champs suivants :

    • Nom : nom de la source de données.

    • Description — Description de la source de données.

  6. Sous Type de source de données, sélectionnez AWS Glue.

  7. Sous Sélectionnez un environnement, spécifiez l'environnement dans lequel vous souhaitez publier les AWS Glue tables.

  8. Sous Sélection des données, fournissez une AWS Glue base de données et entrez vos critères de sélection de table. Par exemple, si vous choisissez Inclure et entrez*corporate, la base de données inclura toutes les tables sources qui se terminent par le motcorporate.

    Vous pouvez choisir une AWS Glue base de données dans la liste déroulante ou saisir un nom de base de données. La liste déroulante inclut deux bases de données : la base de données de publication et la base de données d'abonnement de l'environnement. Si vous souhaitez importer des actifs d'une base de données qui n'est pas créée par l'environnement, vous devez saisir le nom de la base de données au lieu de le sélectionner dans le menu déroulant.

    Vous pouvez ajouter plusieurs règles d'inclusion et d'exclusion pour les tables d'une même base de données. Vous pouvez également ajouter plusieurs bases de données à l'aide du bouton Ajouter une autre base de données.

  9. Sous Qualité des données, vous pouvez choisir d'activer la qualité des données pour cette source de données. Dans ce cas, Amazon DataZone importe vos résultats de qualité des données AWS Glue existants dans votre DataZone catalogue Amazon. Par défaut, Amazon DataZone importe les 100 derniers rapports de qualité existants sans date d'expiration depuis AWS Glue.

    Les indicateurs de qualité des données d'Amazon vous DataZone aident à comprendre l'exhaustivité et l'exactitude de vos sources de données. Amazon DataZone extrait ces indicateurs de qualité des données de AWS Glue afin de fournir du contexte à un moment donné, par exemple lors d'une recherche dans un catalogue de données commerciales. Les utilisateurs des données peuvent voir comment les indicateurs de qualité des données évoluent au fil du temps pour les actifs auxquels ils ont souscrit. Les producteurs de données peuvent ingérer les scores de qualité des données de AWS Glue selon un calendrier. Le catalogue de données Amazon DataZone Business peut également afficher des indicateurs de qualité des données provenant de systèmes tiers grâce à la qualité des donnéesAPIs. Pour plus d’informations, consultez Qualité des données sur Amazon DataZone.

  10. Choisissez Suivant.

  11. Pour les paramètres de publication, choisissez si les actifs sont immédiatement détectables dans le catalogue de données commerciales. Si vous les ajoutez uniquement à l'inventaire, vous pourrez choisir les conditions d'abonnement ultérieurement et les publier dans le catalogue de données commerciales.

  12. Pour la génération automatique de noms commerciaux, choisissez si vous souhaitez générer automatiquement des métadonnées pour les actifs lors de leur importation depuis la source.

  13. (Facultatif) Pour les formulaires de métadonnées, ajoutez des formulaires pour définir les métadonnées collectées et enregistrées lorsque les actifs sont importés dans Amazon DataZone. Pour de plus amples informations, veuillez consulter Création d'un formulaire de métadonnées dans Amazon DataZone.

  14. Pour la préférence Exécuter, choisissez quand exécuter la source de données.

    • Exécuter selon un calendrier : spécifiez les dates et heures d'exécution de la source de données.

    • Exécuter à la demande : vous pouvez lancer manuellement des exécutions de sources de données.

  15. Choisissez Suivant.

  16. Vérifiez la configuration de votre source de données et choisissez Create.

Note

Lorsqu'une source de données AWS Glue est créée, Amazon DataZone crée les autorisations « lecture seule » de Lake Formation pour le IAM rôle de l'environnement utilisé pour créer la source de données afin d'accéder à toutes les tables des bases de données AWS Glue utilisées dans la source de données. Vous pouvez suivre l'état de ces subventions dans les sources de données sur la page de détails de votre environnement. Amazon DataZone ajoute les AWS balises suivantes à la base de données AWS Glue lorsqu'il accorde l'accès au IAM rôle de l'environnement de publication : DataZoneDiscoverable_${domainId}: true

Pour les environnements créés avant la version actuelle d'Amazon DataZone, les membres du projet ne pourront pas voir les tables attribuées dans Amazon Athena.