Sources de données et intégration - Amazon SageMaker

Sources de données et intégration

Vous disposez de plusieurs options pour importer vos données dans Amazon SageMaker Feature Store. Feature Store propose un appel d'API unique pour l'ingestion de données, appelé PutRecord, grâce auquel vous pouvez intégrer des données par lots ou à partir de sources de streaming. Vous pouvez aussi utiliser Amazon SageMaker Data Wrangler pour concevoir des fonctions et les intégrer ensuite dans votre Feature Store.

Intégration à partir de sources de streaming

Vous pouvez utiliser des sources de streaming, telles que Kafka ou Kinesis, comme source de données. Les fonctions qui en sont extraites sont transmises directement au Feature Store en ligne pour l'entraînement, l'inférence ou la création de fonctions. Les enregistrements peuvent être envoyés au Feature Store en appelant l'appel d'API PutRecord synchrone. Comme il s'agit d'un appel d'API synchrone, vous pouvez envoyer de petits lots de mises à jour dans un seul appel d'API. Vous pouvez ainsi actualiser les valeurs de fonctions régulièrement et les publier dès qu'une mise à jour est détectée. Celles-ci sont également appelées fonctions de streaming.

Data Wrangler avec Feature Store

Data Wrangler est une fonction de Studio qui fournit une solution de bout en bout pour importer, préparer, transformer, caractériser et analyser des données. Data Wrangler vous permet de concevoir vos fonctions et de les intégrer dans un Feature Store. 

Dans Studio, après avoir interagi avec Data Wrangler, choisissez l'onglet Export (Exportation), puis Export Step (Étape d'exportation), et enfin Feature Store, comme le montre la capture d'écran suivante. Un bloc-notes Jupyter est alors exporté, qui contient tout le code source nécessaire pour créer un groupe de fonctions Feature Store, qui ajoute les fonctions de Data Wrangler à un Feature Store hors ligne ou en ligne.

Une fois le groupe de fonctions créé, vous pouvez sélectionner et joindre des données entre plusieurs groupes de fonctions pour créer de nouvelles fonctions techniques dans Data Wrangler, puis exporter votre jeu de données dans un compartiment S3. 

Pour de plus amples informations sur l'exportation vers Feature Store, veuillez consulter Export to SageMaker Feature Store (Exportation vers SageMaker Feature Store).