Traitement des entités - Amazon Machine Learning

Nous ne mettons plus à jour le service Amazon Machine Learning et n'acceptons plus de nouveaux utilisateurs pour ce service. Cette documentation est disponible pour les utilisateurs existants, mais nous ne la mettons plus à jour. Pour plus d'informations, veuillez consulter la rubriqueQu'est-ce qu'Amazon Machine Learning.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Traitement des entités

Une fois que vous avez appris à connaître vos données via les résumés et les visualisations, vous pouvez transformer vos variables pour les rendre plus significatives. Cela porte le nom de traitement des entités. Par exemple, supposons que vous disposez d'une variable qui capture la date et l'heure auxquelles un événement s'est produit. Cette date et cette heure ne se reproduiront jamais et ne seront donc pas utiles pour prédire votre cible. Toutefois, si cette variable est transformée en entités qui représentent l'heure de la journée, le jour de la semaine et le mois, ces variables peuvent être utiles pour savoir si l'événement a tendance à se produire à une heure particulière, un jour particulier de la semaine ou durant un mois particulier. Un tel traitement d'entités dans le but de former des points de données plus généralisables comme base d'apprentissage peut apporter des améliorations considérables aux modèles prédictifs.

Autres exemples de traitement courant d'entités :

  • Remplacement des données manquantes ou non valides par des valeurs plus significatives (par exemple, si vous savez qu'une valeur manquante pour une variable de type de produit signifie en fait qu'il s'agit d'un livre, vous pouvez remplacer toutes les valeurs manquantes dans le type de produit par la valeur correspondant aux livres). Une stratégie courante utilisée pour imputer les valeurs manquantes consiste à remplacer les valeurs manquantes par la moyenne ou la valeur médiane. Il est important de comprendre vos données avant de choisir une stratégie pour remplacer les valeurs manquantes.

  • Formation de produits cartésiens d'une variable avec une autre. Par exemple, si vous avez deux variables, telles que la densité de la population (urbaine, suburbaine, rurale) et l'Etat (Washington, Oregon, California), il peut y avoir des informations utiles dans les entités formées par le produit cartésien de ces deux variables, lequel se traduit par les entités (urban_Washington, suburban_Washington, rural_Washington, urban_Oregon, suburban_Oregon, rural_Oregon, urban_California, suburban_California, rural_California).

  • Transformations non linéaires, telles que la discrétisation des variables numériques en catégories. Dans de nombreux cas, la relation entre une entité numérique et la cible n'est pas linéaire (la valeur de l'entité n'augmente pas et ne diminue pas de façon monotone avec la cible). Dans de tels cas, il peut être utile de discrétiser l'entité numérique en entités de catégorie représentant différentes plages de l'entité numérique. Chaque entité de catégorie (intervalle) peut ensuite être modélisée comme ayant sa propre relation linéaire avec la cible. Par exemple, supposons que vous savez que l'entité numérique continue âge n'est pas corrélée linéairement à la probabilité d'acheter un livre. Vous pouvez discrétiser l'âge en entités de catégorie susceptibles de capturer plus précisément la relation avec la cible. Le nombre optimal d'intervalles pour une variable numérique dépend des caractéristiques de la variable et de sa relation à la cible, et la meilleure façon de le déterminer passe par l'expérimentation. Amazon ML suggère le nombre optimal d'espaces pour une entité numérique en fonction des statistiques des données figurant dans la recette suggérée. Consultez le Manuel du développeur pour en savoir plus sur la recette suggérée.

  • Entités spécifiques au domaine (par exemple, avec la longueur, la largeur et la hauteur comme variables séparées, vous pouvez créer une nouvelle entité volume en tant que produit de ces trois variables).

  • Entités spécifiques aux variables. Certains types de variables, tels que les entités texte et les entités qui capturent la structure d'une page web ou d'une phrase, ont des méthodes génériques de traitement qui aident à extraire la structure et le contexte. Par exemple, la formation de n-grammes à partir du texte « the fox jumped over the fence » peut être représentée par des unigrammes : the, fox, jumped, over, fence, ou par des bigrammes : the fox, fox jumped, jumped over, over the, the fence.

L'insertion d'entités plus pertinentes permet d'améliorer la puissance de prédiction. De toute évidence, il n'est pas toujours possible de connaître à l'avance les entités avec un « signal » ou une influence prédictive. Il est donc judicieux d'inclure toutes les entités pouvant être associées à l'étiquette cible et de laisser l'algorithme de formation du modèle sélectionner les entités présentant les corrélations les plus fortes. Dans Amazon ML, le traitement des entités peut être spécifié dans la recette lors de la création d'un modèle. Consultez le Manuel du développeur pour obtenir la liste des processeurs d'entités disponibles.