Le magasin hors connexion - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Le magasin hors connexion

Le magasin hors connexion est utilisé pour les données historiques lorsqu'il n'est pas nécessaire de les récupérer en moins d'une seconde. Il est généralement utilisé pour l'exploration des données, l'entraînement de modèles et l'inférence par lots.

Lorsque vous activez les magasins en ligne et hors connexion pour votre groupe de fonctionnalités, les deux magasins sont synchronisés afin d'éviter les divergences entre les données d'entraînement et les données de service. Notez qu'un groupe de fonctionnalités d'un magasin en ligne dont le type de stockage InMemory est activé ne prend actuellement pas en charge un groupe de fonctionnalités correspondant dans le magasin hors connexion (pas de réplication du magasin en ligne vers le magasin hors connexion). Pour plus d'informations sur la diffusion de modèles ML dans Amazon SageMaker Feature Store, consultezLe magasin en ligne.

Le magasin hors connexion contient les options TableFormat suivantes. Pour plus d'informations sur le contenu de la boutique hors ligne, consultez OfflineStoreConfigle manuel Amazon SageMaker API Reference.

Format de table Glue

Le format Glue (par défaut) est un format de table de type Hive standard pour AWS Glue. Avec AWS Glue, vous pouvez découvrir, préparer, déplacer et intégrer des données provenant de sources multiples. Il inclut également des outils de productivité et d'exploitation des données supplémentaires pour la création, l'exécution de tâches et la mise en œuvre de flux de travail. Pour plus d'informations AWS Glue, voir Qu'est-ce que c'est AWS Glue ? .

Format de table Iceberg

Le format Iceberg (recommandé) est un format de table ouvert pour les tables analytiques de très grande taille. Avec Iceberg, vous pouvez compacter les petits fichiers de données en un plus petit nombre de grands fichiers dans la partition, ce qui accélère considérablement les requêtes. Cette opération de compactage est simultanée et n'affecte pas les opérations de lecture et d'écriture en cours sur le groupe de fonctions. Pour plus d'informations sur l'optimisation des tables Iceberg, consultez Amazon Athena AWS Lake Formationet les guides de l'utilisateur.

Iceberg gère de grandes collections de fichiers sous forme de tables et prend en charge les opérations modernes de lac de données analytiques. Si vous choisissez Iceberg cette option lors de la création de nouveaux groupes de SageMaker fonctionnalités, Amazon Feature Store crée les Iceberg tables au format de fichier Parquet et enregistre les tables avec le AWS Glue Data Catalog. Pour plus d'informations sur les formats de Iceberg table, consultez la section Utilisation des tables Apache Iceberg.

Important

Notez que pour les groupes de fonctionnalités au format de table Iceberg, vous devez spécifier String comme type de fonctionnaité pour l'heure d'événement. Si vous spécifiez un autre type, vous ne pourrez pas créer le groupe de fonctions correctement.