Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Données agrégées dans Amazon DynamoDB pour les prévisions de machine learning dans Athena
Créé par Sachin Doshi (AWS) et Peter Molnar () AWS
Référentiel de code : utilisez les prédictions ML sur les données Amazon DynamoDB avec Amazon Athena | Environnement : Production | Technologies : apprentissage automatique et intelligence artificielle ; bases de données ; système sans serveur |
Charge de travail : Open source | AWSservices : Amazon Athena ; Amazon DynamoDB ; Lambda AWS ; Amazon ; Amazon SageMaker QuickSight |
Récapitulatif
Ce modèle vous montre comment créer des agrégations complexes de données de l'Internet des objets (IoT) dans une table Amazon DynamoDB à l'aide d'Amazon Athena. Vous apprendrez également à enrichir les données grâce à l'inférence d'apprentissage automatique (ML) à l'aide d'Amazon SageMaker et à interroger des données géospatiales à l'aide d'Athena. Vous pouvez utiliser ce modèle comme base pour créer une solution de prévision ML répondant aux exigences de votre organisation.
À des fins de démonstration, ce modèle utilise un exemple de scénario d'une entreprise qui exploite un service de covoiturage et souhaite prédire le nombre optimal de scooters à déployer pour les clients de différents quartiers urbains. L'entreprise utilise un modèle de machine learning préformé qui prédit la demande des clients pour l'heure suivante en fonction des quatre dernières heures. Le scénario utilise un ensemble de données public du Bureau de l'innovation et de la technologie civiques
Conditions préalables et limitations
Un actif Compte AWS
Autorisations permettant de créer une AWS CloudFormation pile avec AWS Identity and Access Management (IAM) des rôles pour les éléments suivants :
Compartiment Amazon Simple Storage Service (Amazon S3)
Athena
DynamoDB
SageMaker
AWS Lambda
Architecture
Pile technologique
Amazon QuickSight
Amazon S3
Athena
DynamoDB
Lambda
SageMaker
Architecture cible
Le schéma suivant montre une architecture permettant de créer des agrégations complexes de données dans DynamoDB à l'aide des fonctionnalités d'interrogation d'Athena, d'une fonction Lambda, du stockage Amazon S3, d'un point de terminaison et d'un tableau de bord. SageMaker QuickSight
Le schéma suivant illustre le flux de travail suivant :
Une table DynamoDB ingère les données IoT transmises par un parc de scooters.
Une fonction Lambda charge la table DynamoDB avec les données ingérées.
Une requête Athena crée une nouvelle table DynamoDB pour les données géospatiales qui représentent les quartiers urbains.
L'emplacement de la requête est enregistré dans un compartiment S3.
Une fonction Athena interroge l'inférence d'apprentissage automatique à partir du point de SageMaker terminaison qui héberge le modèle d'apprentissage automatique préentraîné.
Athena interroge les données directement depuis les tables DynamoDB et agrège les données à des fins d'analyse.
Un utilisateur affiche le résultat des données analysées dans un QuickSight tableau de bord.
Outils
Services AWS
Amazon Athena est un service de requête interactif qui vous permet d'analyser les données directement dans Amazon S3 en utilisant la norme. SQL
Amazon DynamoDB est un service SQL sans base de données entièrement géré qui fournit des performances rapides, prévisibles et évolutives.
Amazon SageMaker est un service de machine learning géré qui vous aide à créer et à former des modèles de machine learning, puis à les déployer dans un environnement hébergé prêt pour la production.
Amazon Simple Storage Service (Amazon S3) est un service de stockage d'objets basé sur le cloud qui vous permet de stocker, de protéger et de récupérer n'importe quel volume de données.
Amazon QuickSight est un service de business intelligence (BI) à l'échelle du cloud qui vous permet de visualiser, d'analyser et de rapporter vos données dans un tableau de bord unique.
AWS Lambda est un service de calcul qui vous aide à exécuter du code sans avoir à allouer ni à gérer des serveurs. Il exécute votre code uniquement lorsque cela est nécessaire et évolue automatiquement, de sorte que vous ne payez que pour le temps de calcul que vous utilisez.
Référentiel de code
Le code de ce modèle est disponible dans le référentiel GitHub Utiliser les prédictions ML sur les données Amazon DynamoDB avec Amazon Athena
Table DynamoDB
Une fonction Lambda pour charger le tableau avec les données pertinentes
Un SageMaker point de terminaison pour les demandes d'inférence, avec le XGBoost modèle préentraîné stocké dans Amazon S3
Un groupe de travail Athéna nommé
V2EngineWorkGroup
Named Athena interroge pour consulter les fichiers de formes géospatiaux et prévoir la demande de scooters
Connecteur Amazon Athena DynamoDB prédéfini qui permet à Athena de communiquer avec DynamoDB et AWS SAM utilise () pour créer l'application en référence au connecteur AWS Serverless Application Model DynamoDB
Épopées
Tâche | Description | Compétences requises |
---|---|---|
Créez une CloudFormation pile. |
Remarque : la création de ces ressources par la CloudFormation pile peut prendre de 15 à 20 minutes. | AWS DevOps |
Vérifiez le CloudFormation déploiement. | Pour vérifier que les exemples de données du CloudFormation modèle sont chargés dans DynamoDB, procédez comme suit :
| Développeur d'applications |
Tâche | Description | Compétences requises |
---|---|---|
Créez une table Athena avec des données géospatiales. | Pour charger les fichiers de géolocalisation dans Athena, procédez comme suit :
La requête crée une nouvelle table pour les données géospatiales qui représentent les quartiers urbains. La table de données est créée à partir de fichiers de GIS formes. L' Pour le code Python permettant de traiter les fichiers de formes et de produire cette table, consultez la section Traitement géospatial des GIS fichiers de formes avec Amazon | Ingénieur de données |
Tâche | Description | Compétences requises |
---|---|---|
Déclarez une fonction dans Athena à interroger. SageMaker |
| Scientifique des données, Ingénieur de données |
Prédisez la demande de scooters par quartier à partir des données agrégées de DynamoDB. | Vous pouvez désormais utiliser Athena pour interroger des données transactionnelles directement depuis DynamoDB, puis agréger les données à des fins d'analyse et de prévision. Cela n'est pas facile à réaliser en interrogeant directement une base de données DynamoDB SQL No.
La SQL déclaration effectue les opérations suivantes :
| Développeur d'applications, data scientist |
Vérifiez la sortie. | La table en sortie inclut le voisinage, la longitude et la latitude du centre de gravité du voisinage. Il inclut également le nombre de véhicules prévus pour l'heure suivante. La requête produit les prédictions pour un moment sélectionné. Vous pouvez faire des prédictions pour tout autre moment en modifiant l'expression Si votre table DynamoDB contient un flux de données en temps réel, remplacez l'horodatage par. | Développeur d'applications, data scientist |
Tâche | Description | Compétences requises |
---|---|---|
Supprimez des ressources. |
| Développeur d'applications, AWS DevOps |