Fonctionnement des machines de factorisation

La tâche de prédiction d'un modèle Factorization Machines consiste à estimer une fonction ŷ à partir d'un ensemble de fonctions x_i vers un domaine cible. Ce domaine s'emploie à valeur réelle pour la régression et sous forme binaire pour la classification. Le modèle Factorization Machines est supervisé et possède par conséquent un jeu de données d'entraînement (x_i,y_j) disponible. Il présente l'avantage d'utiliser une paramétrisation factorisée pour capturer les interactions de caractéristiques par paire. Il peut être représenté mathématiquement comme suit :

Image contenant l'équation du modèle Factorization Machines.

Les trois termes de cette équation correspondent respectivement aux trois composantes du modèle :

Le terme w₀ représente le biais global.
Les termes linéaires w_i modélisent la puissance de la variable i^e.
Les termes de factorisation <v_i,v_j> modélisent l'interaction par paire entre les variables i^e et j^e.

Les termes de biais global et les termes linaires sont identiques à ceux d'un modèle linéaire. Les interactions de caractéristiques par paire sont modélisées dans le troisième terme comme le produit interne des facteurs correspondants formés pour chaque caractéristique. Les facteurs formés peuvent aussi être considérés comme des vecteurs d'intégration pour chaque fonction. Par exemple, dans une tâche de classification, si une paire de caractéristiques a tendance à se produire plus souvent dans des exemples étiquetés positivement, le produit interne de leurs facteurs sera élevé. En d'autres termes, leurs vecteurs d'intégration sont proches les uns des autres en similarité de cosinus. Pour plus d'informations sur le modèle Factorization Machines, consultez l'article relatif à Factorization Machines.

Pour les tâches de régression, le modèle est entraîné en réduisant l'erreur mise au carré entre la prédiction du modèle ŷ_n et la valeur cible y_n. C'est ce que l'on appelle la « perte quadratique » :

Image contenant l'équation de la perte quadratique.

Pour une tâche de classification, le modèle est formé en réduisant la perte d'entropie croisée, ou perte logistique :

Image contenant l'équation de la perte logistique.

où :

Image contenant la fonction logistique des valeurs prévues.

Pour plus d'informations sur les fonctions de perte relatives à la classification, consultez Loss functions for classification.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Factorization Machines

Hyperparamètres