Exigences relatives au schéma du jeu de données d'articles (personnalisé) - Amazon Personalize

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exigences relatives au schéma du jeu de données d'articles (personnalisé)

Un jeu de données d'articles stocke les métadonnées relatives à vos articles dans votre catalogue. Cela peut inclure des informations telles que le prix, le genre et la disponibilité de chaque article. Pour plus d'informations sur les types de données d'articles que vous pouvez importer dans Amazon Personalize, consultezEnsemble de données d'articles.

Les données que vous fournissez pour chaque élément doivent correspondre au schéma de votre jeu de données Items. Au minimum, vous devez fournir un identifiant d'article pour chaque article (longueur maximale de 256 caractères). Selon votre schéma, les métadonnées des éléments peuvent inclure des valeurs vide/nulles. Votre schéma doit comporter au moins un champ de métadonnées, mais si vous ajoutez un null type, cette valeur peut être nulle pour l'élément. Vous êtes libre d'ajouter des champs supplémentaires en fonction de votre cas d'utilisation et de vos données. Tant que les champs ne sont pas répertoriés comme obligatoires ou réservés et que les types de données y sont répertoriésTypes de données de schéma, les noms des champs et les types de données dépendent de vous.

Pour utiliser des données catégorielles, ajoutez un champ de type string et définissez l'attribut catégorique du champ sur true dans votre schéma. Incluez ensuite les données catégorielles dans votre fichier CSV en masse et dans les importations d'articles individuels. Les valeurs catégorielles peuvent comporter au maximum 1 000 caractères. Si vous avez un élément avec une valeur catégorique de plus de 1 000 caractères, votre tâche d'importation de jeu de données échouera.

Pour les articles comportant plusieurs catégories, séparez chaque valeur par la barre verticale « | ». Par exemple, pour un champ GENRES, vos données pour un article peuvent êtreAction|Crime|Biopic. Si vous disposez de plusieurs niveaux de données catégorielles et que certains éléments comportent plusieurs catégories pour chaque niveau de la hiérarchie, ajoutez un champ pour chaque niveau et ajoutez un indicateur de niveau après le nom de chaque champ : GENRES, GENRE_L2, GENRE_L3. Cela vous permet de filtrer les recommandations en fonction de sous-catégories, même si un article appartient à plusieurs catégories à plusieurs niveaux (pour plus d'informations sur la création et l'utilisation de filtres, voirRecommandations de filtrage et segments d'utilisateurs). Par exemple, une vidéo peut contenir les données suivantes pour chaque niveau de catégorie :

  • GENRES : Action|Aventure

  • GENRE_L2 : Criminel|Western

  • GENRE_L3 : Biopic

Dans cet exemple, la vidéo se trouve dans la hiérarchie action > crime > biopic et dans la hiérarchie aventure > western > biopic. Nous vous recommandons de n'utiliser que le niveau L3, mais vous pouvez utiliser d'autres niveaux si nécessaire.

Au cours de la formation des modèles, Amazon Personalize prend en compte un maximum de 750 000 articles. Si vous importez plus de 750 000 articles, Amazon Personalize décide quels articles inclure dans la formation, en mettant l'accent sur les nouveaux articles (articles que vous avez récemment ajoutés sans interaction) et les articles existants avec des données d'interactions récentes.

Pour plus d'informations sur les exigences minimales et les limites de données maximales pour un jeu de données Items, consultezQuotas de service.

Exemple de schéma de jeu de données d'articles (personnalisé)

L'exemple suivant montre comment structurer un schéma Items. Le champ ITEM_ID est obligatoire. Le GENRE champ est constitué de métadonnées catégoriques et le DESCRIPTION champ de métadonnées textuelles. Au moins un champ de métadonnées est obligatoire. Vous pouvez ajouter un maximum de 100 champs de métadonnées. Le CREATION_TIMESTAMP champ est un mot clé réservé. Pour plus d'informations sur les exigences du schéma, consultezExigences relatives aux ensembles de données et aux schémas personnalisés.

{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true } ], "version": "1.0" }

Pour ce schéma, les premières lignes de données historiques d'un fichier CSV peuvent ressembler à ce qui suit.

ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...