Utilisation d'algorithmes intégrés Amazon SageMaker - Amazon SageMaker

Utilisation d'algorithmes intégrés Amazon SageMaker

Un algorithme d'apprentissage automatique utilise un exemple de données pour créer une solution généralisée (un modèle) qui concerne la question professionnelle à laquelle vous essayez de répondre. Une fois que vous avez créé un modèle à l'aide de l'exemple de données, vous pouvez l'utiliser pour répondre à cette même question professionnelle pour un nouvel ensemble de données. C'est ce que l'on appelle obtenir des inférences.

Amazon SageMaker fournit plusieurs algorithmes d'apprentissage automatique intégrés que vous pouvez utiliser pour un grand nombre de types de problèmes.

Étant donné que vous créez un modèle pour répondre à une question professionnelle, la première étape consiste à comprendre le problème que vous souhaitez résoudre. Plus précisément, le format de la réponse que vous recherchez influe sur l'algorithme que vous choisissez. Par exemple, supposons que vous êtes un responsable marketing dans une banque et que vous souhaitez effectuer une campagne de publipostage pour attirer de nouveaux clients. Étudions les types de réponses possibles que vous recherchez :

  • Réponses qui conviennent à des catégories discrètes — Par exemple, les réponses à ces questions :

     

    • « Si l'on se base sur les réponses antérieures de la clientèle, dois-je contacter par e-mail ce client particulier ? » Les réponses à cette question se divisent en deux catégories, « oui » ou « non ». Dans ce cas, vous utilisez la réponse afin de diminuer le nombre de destinataires de cette campagne de publipostage.

       

    • « Si l'on se base sur la segmentation antérieure de la clientèle, à quel segment ce client appartient-il ? » Les réponses peuvent entrer dans des catégories telles que « famille monoparentale », « famille de banlieue » ou « professionnel en zone urbaine ». Vous pouvez utiliser ces segments pour décider des personnes qui doivent recevoir le courrier électronique.

       

    Pour ce type de problème de classification discrète, Amazon SageMaker fournit deux algorithmes : Algorithme d'apprentissage linéaire et Algorithme XGBoost. Vous définissez les hyperparamètres suivants pour que ces algorithmes génèrent des résultats discrets :

     

    • Pour l'algorithme Linear Learner, définissez l'hyperparamètre predictor_type sur binary_classifier.

       

    • Pour l'algorithme XGBoost, définissez l'hyperparamètre objective sur reg:logistic.

     

  • Réponses qui sont quantitatives — Considérez cette question : « Si l'on se base sur le retour sur investissement des mailings passés, quel est le retour sur investissement concernant les mailings destinés à ce client ? » Dans ce cas, vous utilisez le retour sur investissement pour cibler les clients de campagne de publipostage. Pour ces problèmes d'analyse quantitative, vous pouvez également utiliser les algorithmes Algorithme d'apprentissage linéaire ou Algorithme XGBoost. Vous définissez les hyperparamètres suivants pour que ces algorithmes génèrent des résultats quantitatifs :

     

    • Pour l'algorithme Linear Learner, définissez l'hyperparamètre predictor_type sur regressor.

       

    • Pour l'algorithme XGBoost, définissez l'hyperparamètre objective sur reg:linear.

     

  • Réponses sous la forme d'une recommandation discrète — Considérez cette question : « Si l'on se base sur les réponses aux publipostages précédents, quel est le contenu recommandé pour chaque client ? » Dans ce cas, vous êtes à la recherche d'une recommandation permettant de définir ce qu'il faut envoyer au client, et non s'il convient d'envoyer un e-mail au client. Pour ce problème, Amazon SageMaker fournit l'Algorithme des machines de factorisation.

     

Toutes les questions des exemples précédents s'appuient sur des exemples de données qui incluent des réponses. Il arrive que vous n'ayez pas besoin d'exemples de données avec des réponses ou que vous ne puissiez pas vous en procurer. Cela est vrai pour les problèmes dont les réponses identifient des groupes. Par exemple :

  • « Je veux regrouper les clients actuels et potentiels dans 10 groupes en fonction de leurs attributs. Comment dois-je le regrouper ? " Vous pouvez choisir d'envoyer le publipostage aux clients du groupe qui contient le plus grand pourcentage de clients actuels. Autrement dit, les clients potentiels qui ressemblent le plus aux clients actuels, en se basant sur le même ensemble d'attributs. Pour ce type de question, Amazon SageMaker fournit l'Algorithme des k-moyennes (k-means).

     

  • « Quels sont les attributs qui différencient ces clients et quelles sont les valeurs pour chaque client en parallèle à ces dimensions. » Vous utilisez ces réponses pour simplifier l'affichage des clients actuels et potentiels, et, peut-être, pour mieux comprendre les attributs de ces clients. Pour ce type de question, Amazon SageMaker fournit l'Algorithme PCA (Principal Component Analysis, analyse en composantes principales).

Outre ces algorithmes à usage général, Amazon SageMaker fournit des algorithmes qui sont adaptés à des cas d'utilisation spécifiques. parmi lesquelles :