Automatisez l'ingestion de AWS données depuis Data Exchange vers Amazon S3 - Recommandations AWS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Automatisez l'ingestion de AWS données depuis Data Exchange vers Amazon S3

Créé par Adnan Alvee (AWS) et Manikanta Gona () AWS

Technologies : analyse ; DataLakes

Environnement : Production

AWSservices : Amazon S3 ; Amazon CloudWatch ; AWS Lambda ; Amazon SNS

Récapitulatif

Ce modèle fournit un AWS CloudFormation modèle qui vous permet d'ingérer automatiquement les données de AWS Data Exchange dans votre lac de données dans Amazon Simple Storage Service (Amazon S3). 

AWSData Exchange est un service qui facilite l'échange sécurisé d'ensembles de données basés sur des fichiers dans le AWS cloud. AWSLes ensembles de données Data Exchange sont basés sur des abonnements. En tant qu'abonné, vous pouvez également accéder aux révisions des ensembles de données lorsque les fournisseurs publient de nouvelles données. 

Le AWS CloudFormation modèle crée un événement Amazon CloudWatch Events et une fonction AWS Lambda. L'événement surveille toute mise à jour de l'ensemble de données auquel vous êtes abonné. En cas de mise à jour, CloudWatch lance une fonction Lambda qui copie les données dans le compartiment S3 que vous spécifiez. Lorsque les données ont été copiées avec succès, Lambda vous envoie une notification Amazon Simple Notification Service SNS (Amazon).

Conditions préalables et limitations

Prérequis

  • Un AWS compte actif

  • Abonnement à un ensemble de AWS données dans Data Exchange

Limites

  • Le AWS CloudFormation modèle doit être déployé séparément pour chaque ensemble de données souscrit dans AWS Data Exchange.

Architecture

Pile technologique cible

  • AWSLambda

  • Amazon S3

  • AWS Data Exchange

  • Amazon CloudWatch

  • Amazon SNS

Architecture cible

CloudWatch lance une fonction Lambda pour copier les données dans le compartiment S3 et envoyer une notification AmazonSNS.

Automatisation et mise à l'échelle

Vous pouvez utiliser le AWS CloudFormation modèle plusieurs fois pour les ensembles de données que vous souhaitez ingérer dans le lac de données.

Outils

  • AWSData Exchange : un service qui permet AWS aux clients d'échanger facilement et en toute sécurité des ensembles de données basés sur des fichiers dans le AWS cloud. En tant qu'abonné, vous pouvez trouver et vous abonner à des centaines de produits proposés par des fournisseurs de données qualifiés. Vous pouvez ensuite télécharger rapidement l'ensemble de données ou le copier sur Amazon S3 pour l'utiliser dans divers services d'AWSanalyse et d'apprentissage automatique. Toute personne possédant un AWS compte peut s'abonner à AWS Data Exchange.

  • AWSLambda : service de calcul qui vous permet d'exécuter du code sans provisionner ni gérer de serveurs. AWSLambda exécute votre code uniquement lorsque cela est nécessaire et évolue automatiquement, de quelques requêtes par jour à des milliers par seconde. Vous ne payez que pour le temps de calcul que vous consommez ; il n'y a aucun frais lorsque votre code n'est pas en cours d'exécution. Avec AWS Lambda, vous pouvez exécuter du code pour pratiquement n'importe quel type d'application ou de service principal sans aucune administration. AWSLambda exécute votre code sur une infrastructure informatique à haute disponibilité et gère toutes les ressources de calcul, y compris la maintenance des serveurs et des systèmes d'exploitation, le provisionnement des capacités et le dimensionnement automatique, la surveillance du code et la journalisation.

  • Amazon S3 — Stockage pour Internet. Vous pouvez utiliser Amazon S3 pour stocker et récupérer n'importe quelle quantité de données, n'importe quand et depuis n'importe quel emplacement sur le Web.

  • Amazon CloudWatch Events — Fournit un flux en temps quasi réel d'événements système décrivant les modifications apportées aux AWS ressources. À l'aide de règles simples que vous pouvez configurer rapidement, vous pouvez associer des événements et les acheminer vers une ou plusieurs fonctions ou flux cibles. CloudWatch Events prend conscience des changements opérationnels au fur et à mesure qu'ils se produisent. Il répond à ces changements opérationnels et prend les mesures correctives nécessaires, en envoyant des messages pour répondre à l'environnement, en activant des fonctions, en apportant des modifications et en capturant des informations d'état. Vous pouvez également utiliser les CloudWatch événements pour planifier des actions automatisées qui se déclenchent automatiquement à certains moments à l'aide d'expressions cron ou rate.

  • Amazon SNS — Un service Web qui permet aux applications, aux utilisateurs finaux et aux appareils d'envoyer et de recevoir instantanément des notifications depuis le cloud. Amazon SNS propose des rubriques (canaux de communication) pour la messagerie push à haut débit. many-to-many Grâce aux SNS rubriques Amazon, les éditeurs peuvent distribuer des messages à un grand nombre d'abonnés pour un traitement parallèle, notamment les files d'attente Amazon Simple Queue Service (AmazonSQS), les fonctions AWS Lambda HTTP et les webhooks /S. Vous pouvez également utiliser Amazon SNS pour envoyer des notifications aux utilisateurs finaux par mobileSMS, push et e-mail.

Épopées

TâcheDescriptionCompétences requises

Abonnez-vous à un ensemble de données.

Dans la console AWS Data Exchange, abonnez-vous à un ensemble de données. Pour obtenir des instructions, consultez le lien dans la section « Ressources connexes ».

Général AWS

Notez les attributs de l'ensemble de données.

Notez la AWS région, l'ID et l'ID de révision de l'ensemble de données. Vous en aurez besoin pour le AWS CloudFormation modèle à l'étape suivante.

Général AWS
TâcheDescriptionCompétences requises

Créez un compartiment et un dossier S3.

Si vous possédez déjà un lac de données dans Amazon S3, créez un dossier pour stocker les données à ingérer depuis AWS Data Exchange. Si vous déployez le modèle à des fins de test, créez un nouveau compartiment S3 et notez le nom du compartiment et le préfixe de dossier pour l'étape suivante.

Général AWS

Déployez le AWS CloudFormation modèle.

Déployez le AWS CloudFormation modèle fourni en pièce jointe à ce modèle. Configurez les paramètres suivants pour qu'ils correspondent aux paramètres de votre AWS compte, de votre ensemble de données et de compartiment S3 : AWS région du jeu de données, ID de révision, nom du compartiment S3 (par exemple, DOC - EXAMPLE -BUCKET), préfixe de dossier (par exemple, myfolder/) et e-mail de notification. SNS Vous pouvez attribuer n'importe quel nom au paramètre Nom du jeu de données. Lorsque vous déployez le modèle, il exécute une fonction Lambda pour ingérer automatiquement le premier ensemble de données disponible dans le jeu de données. L'ingestion ultérieure a ensuite lieu automatiquement, au fur et à mesure que de nouvelles données arrivent dans l'ensemble de données.

Général AWS

Ressources connexes

Pièces jointes

Pour accéder au contenu supplémentaire associé à ce document, décompressez le fichier suivant : attachment.zip