Amazon DataZone QuickStart avec les données Amazon Redshift - Amazon DataZone

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Amazon DataZone QuickStart avec les données Amazon Redshift

Étape 1 - Création du DataZone domaine Amazon et du portail de données

Suivez la procédure ci-dessous pour créer un DataZone domaine Amazon. Pour plus d'informations sur DataZone les domaines Amazon, consultez DataZone Terminologie et concepts d'Amazon.

  1. Accédez à la DataZone console Amazon à l'adresse https://console.aws.amazon.com/datazone, connectez-vous, puis choisissez Create domain.

    Note

    Si vous souhaitez utiliser un DataZone domaine Amazon existant pour ce flux de travail, choisissez Afficher les domaines, puis choisissez le domaine que vous souhaitez utiliser, puis passez à l'étape 2 de création d'un projet de publication.

  2. Sur la page Créer un domaine, entrez des valeurs pour les champs suivants :

    • Nom : spécifiez le nom de votre domaine. Dans le cadre de ce flux de travail, vous pouvez appeler ce domaineMarketing.

    • Description : spécifiez une description de domaine facultative.

    • Chiffrement des données : vos données sont cryptées par défaut à l'aide d'une clé qui vous AWS appartient et qui est gérée pour vous. Pour cette procédure pas à pas, vous pouvez conserver les paramètres de chiffrement des données par défaut.

      Pour plus d'informations sur l'utilisation des clés gérées par le client, consultezLe chiffrement des données est au repos pour Amazon DataZone. Si vous utilisez votre propre clé KMS pour le chiffrement des données, vous devez inclure l'instruction suivante dans votre clé par défautAmazonDataZoneDomainExecutionRole.

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
    • Accès au service : choisissez l'option Utiliser un rôle de service personnalisé, puis choisissez-la dans le AmazonDataZoneDomainExecutionRolemenu déroulant.

    • Sous Configuration rapide, choisissez Configurer ce compte pour la consommation et la publication de données. Cette option active les DataZone plans Amazon intégrés du lac de données et de l'entrepôt de données, et configure les autorisations et les ressources requises pour effectuer les autres étapes de ce flux de travail. Pour plus d'informations sur les DataZone plans Amazon, consultez DataZone Terminologie et concepts d'Amazon.

    • Conservez les champs restants sous Détails des autorisations et Tags inchangés, puis choisissez Créer un domaine.

  3. Une fois le domaine créé avec succès, choisissez-le et, sur la page de résumé du domaine, notez l'URL du portail de données pour ce domaine. Vous pouvez utiliser cette URL pour accéder à votre portail de DataZone données Amazon afin d'effectuer les autres étapes de ce flux de travail.

Note

Dans la version actuelle d'Amazon DataZone, une fois le domaine créé, l'URL générée pour le portail de données ne peut pas être modifiée.

La création d'un domaine peut prendre plusieurs minutes. Attendez que le statut du domaine soit défini sur Disponible avant de passer à l'étape suivante.

Étape 2 - Création du projet de publication

La section suivante décrit les étapes de création du projet de publication dans ce flux de travail.

  1. Une fois l'étape 1 terminée, accédez au portail de DataZone données Amazon à l'aide de l'URL du portail de données et connectez-vous à l'aide de vos informations d'identification unique (SSO) ou AWS IAM.

  2. Choisissez Créer un projet, spécifiez le nom du projet. Par exemple, pour ce flux de travail SalesDataPublishingProject, vous pouvez le nommer, laisser les autres champs inchangés, puis choisir Créer.

Étape 3 - Création de l'environnement

La section suivante décrit les étapes de création d'un environnement dans ce flux de travail.

  1. Une fois que vous avez terminé l'étape 2, dans le portail de DataZone données Amazon, choisissez le SalesDataPublishingProject projet que vous avez créé à l'étape précédente, puis choisissez l'onglet Environnements, puis choisissez Create environment.

  2. Sur la page Créer un environnement, spécifiez ce qui suit, puis choisissez Créer un environnement.

    • Nom : spécifiez le nom de l'environnement. Pour cette procédure pas à pas, vous pouvez l'Default data warehouse environmentappeler.

    • Description : spécifiez une description de l'environnement.

    • Profil d'environnement : choisissez le profil d'DataWarehouseProfileenvironnement.

    • Indiquez le nom de votre cluster Amazon Redshift, le nom de la base de données et l'ARN secret du cluster Amazon Redshift dans lequel vos données sont stockées.

      Note

      Assurez-vous que votre secret dans AWS Secrets Manager inclut les balises suivantes (clé/valeur) :

      • Pour le cluster Amazon Redshift - datazone.rs.cluster : <cluster_name:database name>

        Pour le groupe de travail Amazon Redshift Serverless - datazone.rs.workgroup : <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      Pour plus d'informations, consultez Stockage des informations d'identification de base de données dans AWS Secrets Manager.

      L'utilisateur de base de données que vous indiquez dans le Gestionnaire AWS des Secrets doit disposer des autorisations de superutilisateur.

Étape 4 - Produire des données pour publication

La section suivante décrit les étapes de production des données destinées à être publiées dans ce flux de travail.

  1. Une fois l'étape 3 terminée, dans le portail de DataZone données Amazon, choisissez le SalesDataPublishingProject projet, puis, dans le panneau de droite, sous Outils d'analyse, choisissez Amazon Redshift. Cela ouvre l'éditeur de requêtes Amazon Redshift en utilisant les informations d'identification de votre projet pour l'authentification.

  2. Pour cette procédure pas à pas, vous utilisez le script de requête Create Table as Select (CTAS) pour créer une nouvelle table que vous souhaitez publier sur Amazon. DataZone Dans votre éditeur de requêtes, exécutez ce script CTAS pour créer une mkt_sls_table table que vous pouvez publier et rendre disponible pour la recherche et l'abonnement.

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    Assurez-vous que la table mkt_sls_table est correctement créée. Vous disposez désormais d'un actif de données qui peut être publié dans le DataZone catalogue Amazon.

Étape 5 - Collectez les métadonnées depuis Amazon Redshift

La section suivante décrit les étapes de collecte de métadonnées à partir d'Amazon Redshift.

  1. Une fois l'étape 4 terminée, dans le portail de DataZone données Amazon, choisissez le SalesDataPublishingProject projet, puis l'onglet Données, puis choisissez Sources de données.

  2. Choisissez la source créée dans le cadre du processus de création de l'environnement.

  3. Choisissez Exécuter à côté du menu déroulant Action, puis cliquez sur le bouton d'actualisation. Une fois l'exécution de la source de données terminée, les actifs sont ajoutés à l' DataZone inventaire Amazon.

Étape 6 - Organiser et publier la ressource de données

La section suivante décrit les étapes de conservation et de publication de la ressource de données dans ce flux de travail.

  1. Une fois l'étape 5 terminée, dans le portail de DataZone données Amazon, choisissez le SalesDataPublishingProject projet, puis l'onglet Données, choisissez les données d'inventaire et localisez le mkt_sls_table tableau.

  2. Ouvrez la page de détails de l'mkt_sls_tableactif pour voir les noms commerciaux générés automatiquement. Cliquez sur l'icône de métadonnées générées automatiquement pour afficher les noms générés automatiquement pour les actifs et les colonnes. Vous pouvez accepter ou rejeter chaque nom individuellement ou choisir Accepter tout pour appliquer les noms générés. Vous pouvez également éventuellement ajouter le formulaire de métadonnées disponible à votre ressource et sélectionner des termes du glossaire pour classer vos données.

  3. Choisissez Publier pour publier la mkt_sls_table ressource.

Étape 7 - Création du projet pour l'analyse des données

La section suivante décrit les étapes de création du projet pour l'analyse des données dans ce flux de travail.

  1. Une fois l'étape 6 terminée, dans le portail de DataZone données Amazon, choisissez Create project.

  2. Dans la page Créer un projet, spécifiez le nom du projet. Par exemple, pour ce flux de travail MarketingDataAnalysisProject, vous pouvez le nommer, laisser les autres champs inchangés, puis choisir Créer.

Étape 8 - Création d'un environnement pour l'analyse des données

La section suivante décrit les étapes de création d'un environnement pour l'analyse des données dans ce flux de travail.

  1. Une fois que vous avez terminé l'étape 7, dans le portail de DataZone données Amazon, choisissez le MarketingDataAnalysisProject projet que vous avez créé à l'étape précédente, puis choisissez l'onglet Environnements, puis choisissez Ajouter un environnement.

  2. Sur la page Créer un environnement, spécifiez ce qui suit, puis choisissez Créer un environnement.

    • Nom : spécifiez le nom de l'environnement. Pour cette procédure pas à pas, vous pouvez l'Default data warehouse environmentappeler.

    • Description : spécifiez une description de l'environnement.

    • Profil d'environnement : choisissez le profil d'DataWarehouseProfileenvironnement.

    • Indiquez le nom de votre cluster Amazon Redshift, le nom de la base de données et l'ARN secret du cluster Amazon Redshift dans lequel vos données sont stockées.

      Note

      Assurez-vous que votre secret dans AWS Secrets Manager inclut les balises suivantes (clé/valeur) :

      • Pour le cluster Amazon Redshift - datazone.rs.cluster : <cluster_name:database name>

        Pour le groupe de travail Amazon Redshift Serverless - datazone.rs.workgroup : <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      Pour plus d'informations, consultez Stockage des informations d'identification de base de données dans AWS Secrets Manager.

      L'utilisateur de base de données que vous indiquez dans le Gestionnaire AWS des Secrets doit disposer des autorisations de superutilisateur.

    • Pour cette procédure pas à pas, conservez les autres champs inchangés.

Étape 9 - Rechercher dans le catalogue de données et s'abonner aux données

La section suivante décrit les étapes de recherche dans le catalogue de données et d'abonnement aux données.

  1. Une fois l'étape 8 terminée, dans le portail de DataZone données Amazon, recherchez des actifs de données à l'aide de mots clés (par exemple, « catalogue » ou « ventes ») dans la barre de recherche du portail de données.

    Si nécessaire, appliquez des filtres ou effectuez un tri. Une fois que vous avez localisé la ressource Product Sales Data, vous pouvez la choisir pour ouvrir la page de détails de la ressource.

  2. Sur la page de détails de la ressource Product Sales Data, choisissez S'abonner.

  3. Dans la boîte de dialogue, choisissez votre projet client dans la liste déroulante, indiquez le motif de la demande d'accès, puis choisissez S'abonner.

Étape 10 - Approuver la demande d'abonnement

La section suivante décrit les étapes d'approbation de la demande d'abonnement dans ce flux de travail.

  1. Une fois l'étape 9 terminée, dans le portail de DataZone données Amazon, choisissez le SalesDataPublishingProjectprojet avec lequel vous avez publié votre ressource.

  2. Choisissez l'onglet Données, puis Données publiées, puis Demandes entrantes.

  3. Choisissez le lien de demande de consultation, puis sélectionnez Approuver.

Étape 11 - Création d'une requête et analyse des données dans Amazon Redshift

Maintenant que vous avez publié avec succès une ressource dans le DataZone catalogue Amazon et que vous vous y êtes abonné, vous pouvez l'analyser.

  1. Dans le portail de DataZone données Amazon, sur le panneau de droite, cliquez sur le lien Amazon Redshift. Cela ouvre l'éditeur de requêtes Amazon Redshift en utilisant les informations d'identification du projet pour l'authentification.

  2. Vous pouvez désormais exécuter une requête (instruction select) sur la table abonnée. Vous pouvez cliquer sur le tableau (three-vertical-dots option) et choisir l'aperçu pour afficher l'instruction sélectionnée sur l'écran de l'éditeur. Exécutez la requête pour voir les résultats.