Concepts liés à Feature Store - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Concepts liés à Feature Store

Nous listons les termes courants utilisés dans Amazon SageMaker Feature Store, suivis d'exemples de diagrammes pour visualiser quelques concepts :

  • Magasin de fonctionnalités : couche de stockage et de gestion des données pour les fonctionnalités de machine learning (ML). Fait office d'unique source de vérité pour stocker, récupérer, supprimer, suivre, partager et découvrir des fonctionnalités, et en contrôler l'accès. Dans l'exemple de diagramme suivant, le magasin de fonctionnalités est un magasin pour vos groupes de fonctionnalités, qui contient vos données ML et fournit des services supplémentaires.

  • Magasin en ligne : magasin à faible latence et haute disponibilité pour un groupe de fonctionnalités, qui permet la recherche en temps réel d'enregistrements. Le magasin en ligne permet d'accéder rapidement au dernier enregistrement via l'API GetRecord.

  • Magasin hors connexion : stocke des données historiques dans votre compartiment Amazon S3. Le magasin hors connexion est utilisé lorsque des lectures à faible latence (inférieure à une seconde) ne sont pas nécessaires. Par exemple, le magasin hors connexion peut être utilisé pour stocker et utiliser des fonctionnalités à des fins d'exploration, d'entraînement de modèle et d'inférence par lots.

  • Groupe de fonctionnalités : ressource principale de Feature Store qui contient les données et les métadonnées utilisées pour l'entraînement ou la prédiction avec un modèle ML. Un groupe de fonctionnalités est un groupement logique de fonctionnalités utilisé pour décrire des enregistrements. Dans l'exemple de diagramme suivant, un groupe de fonctionnalités contient vos données ML.

  • Fonctionnalité : propriété utilisée comme l'une des entrées pour entraîner ou prédire à l'aide de votre modèle ML. Dans l'API Feature Store, une fonctionnalité est un attribut d'un enregistrement. Dans l'exemple de diagramme suivant, une fonctionnalité décrit une colonne de votre table de données ML.

  • Définition de fonctionnalité : comprend un nom et l'un des types de données : Integral, String ou Fractional. Un groupe de fonctionnalités contient une liste de définitions de fonctionnalités. Pour plus d'informations sur les types de données Feature Store, consultez Types de données.

  • Enregistrement : collection de valeurs de fonctionnalités pour un identificateur d'enregistrement unique. La combinaison d'un identificateur d'enregistrement et de valeurs d'horodatage d'événement identifie de manière unique un enregistrement dans un groupe de fonctionnalités. Dans l'exemple de diagramme suivant, un enregistrement est une ligne de votre table de données ML.

  • Nom d'identificateur d'enregistrement : il s'agit du nom de la fonctionnalité qui identifie les enregistrements. Il doit faire référence à l'un des noms d'une fonctionnalité définie dans les définitions de fonctionnalités du groupe de fonctionnalités. Chaque groupe de fonctionnalités est défini par un nom d'identificateur d'enregistrement.

  • Heure d'événement : horodatage que vous fournissez correspondant au moment où l'événement d'enregistrement s'est produit. Tous les enregistrements d'un groupe de fonctionnalités doivent avoir une heure d'événement correspondante. Le magasin en ligne contient uniquement l'enregistrement correspondant à la dernière heure d'événement, tandis que le magasin hors connexion contient tous les enregistrements historiques. Pour plus d'informations sur les formats d'heure d'événement, consultez Types de données.

  • Ingestion : ajout de nouveaux enregistrements à un groupe de fonctionnalités. L'ingestion est généralement réalisée via l'API PutRecord.

Schéma d'aperçu des concepts

L'exemple de diagramme suivant conceptualise quelques concepts liés à Feature Store :

Le magasin de fonctionnalités contient vos groupes de fonctionnalités et un groupe de fonctionnalités contient vos données ML. Dans l'exemple de diagramme, le groupe d'entités d'origine contient une table de données comportant trois entités (chacune décrivant une colonne) et deux enregistrements (lignes).

  • La définition d'une entité décrit le nom de la fonction et le type de données des valeurs des entités associées aux enregistrements.

  • Un enregistrement contient les valeurs des caractéristiques et est identifié de manière unique par son identifiant d'enregistrement et doit inclure l'heure de l'événement.

Schémas d'ingestion

L'ingestion consiste à ajouter un ou plusieurs enregistrements à un groupe d'entités existant. Les boutiques en ligne et hors ligne sont mises à jour différemment en fonction des différents cas d'utilisation du stockage.

Exemple d'ingestion dans la boutique en ligne

La boutique en ligne permet de consulter les dossiers en temps réel et ne conserve que le plus grand nombre d' up-to-dateenregistrements. Une fois qu'un enregistrement est ingéré dans une boutique en ligne existante, la boutique en ligne mise à jour ne conserve que l'enregistrement indiquant l'heure du dernier événement.

Dans l'exemple de schéma suivant, la boutique en ligne d'origine contient une table de données ML avec un enregistrement. Un enregistrement est ingéré avec le même nom d'identifiant d'enregistrement que l'enregistrement d'origine, et l'enregistrement ingéré a une date d'événement antérieure à celle de l'enregistrement d'origine. Comme la boutique en ligne mise à jour ne conserve que l'heure du dernier événement, la boutique en ligne mise à jour contient l'enregistrement d'origine.

Exemple d'ingestion dans le magasin hors ligne

Le magasin hors ligne fait office de recherche historique des enregistrements et conserve tous les enregistrements. Une fois qu'un nouvel enregistrement est ingéré dans un magasin hors ligne existant, le magasin hors ligne mis à jour conserve le nouvel enregistrement.

Dans l'exemple de diagramme suivant, le magasin hors ligne d'origine contient une table de données ML avec un enregistrement. Un enregistrement est ingéré avec le même nom d'identifiant d'enregistrement que l'enregistrement d'origine, et l'enregistrement ingéré possède une date d'événement antérieure à celle de l'enregistrement d'origine. Comme le magasin hors ligne mis à jour conserve tous les enregistrements, le magasin hors ligne mis à jour contient les deux enregistrements.