Concepts clés d'Amazon Machine Learning - Amazon Machine Learning

Si nous fournissons une traduction de la version anglaise du guide, la version anglaise du guide aura préséance en cas de contradiction. La traduction sera une traduction automatique.

Concepts clés d'Amazon Machine Learning

Cette section résume les concepts clés suivants et décrit plus en détail la façon dont ils sont utilisés dans Amazon ML :

Sources de données

Une source de données est un objet qui contient des métadonnées relatives à vos données d'entrée. Amazon ML lit vos données d'entrée, calcule des statistiques descriptives sur leurs attributs et stocke ces statistiques, avec un schéma et d'autres informations, comme partie intégrante de l'objet source de données. Ensuite, Amazon ML utilise la source de données pour former et évaluer un modèle d'apprentissage-machine, et générer des prédictions par lots.

Important

Une source de données ne stocke pas de copie de vos données d'entrée. Au lieu de cela, elle stocke une référence à l'emplacement Amazon S3 où résident vos données d'entrée. Si vous déplacez ou modifiez le fichier Amazon S3, Amazon ML ne peut pas y accéder ou l'utiliser pour créer un modèle d'apprentissage-machine, générer des évaluations ou générer des prédictions.

Le tableau suivant définit les termes liés aux sources de données.

Durée Définition
Attribut

Propriété nommée unique figurant dans une observation. Dans des données tabulaires, telles que des feuilles de calcul ou des fichiers CSV (de valeurs séparées par des virgules), les en-têtes des colonnes représentent les attributs et les lignes contiennent des valeurs pour chaque attribut.

Synonymes : variable, nom de variable, champ, colonne

Nom de source de données (Facultatif) Vous permet de définir un nom lisible pour une source de données. Ces noms vous permettent de rechercher et de gérer vos sources de données dans la console Amazon ML.
Données d'entrée Nom collectif pour toutes les observations auxquelles une source de données se réfère.
Emplacement Emplacement des données d'entrée. Actuellement, Amazon ML peut utiliser des données stockées dans des compartiments Amazon S3, des bases de données Amazon Redshift ou des bases de données MySQL dans Amazon Relational Database Service (RDS).
Observation

Unité individuelle de données d'entrée. Par exemple, si vous créez un modèle d'apprentissage-machine pour détecter des transactions frauduleuses, vos données d'entrée comprennent de nombreuses observations, chacune représentant une transaction individuelle.

Synonymes : enregistrement, exemple, instance, ligne

ID de ligne

(Facultatif) Un indicateur qui, s'il est spécifié, identifie dans les données d'entrée un attribut à inclure dans la prédiction en sortie. Cet attribut permet d'associer plus facilement les prédictions aux observations correspondantes.

Synonymes : identifiant de ligne

Schéma Les informations nécessaires pour interpréter les données d'entrée, y compris les noms d'attribut et leurs types de données attribués, et les noms des attributs spéciaux.
Statistiques

Statistiques récapitulatives pour chaque attribut dans les données d'entrée. Ces statistiques remplissent deux fonctions :

La console Amazon ML les affiche dans des graphiques afin de vous aider à comprendre vos données en un clin d'œil et à identifier les irrégularités et les erreurs éventuelles.

Amazon ML les utilise au cours du processus de formation pour améliorer la qualité du modèle d'apprentissage-machine obtenu.

Etat Indique l'état actuel de la source de données, tel que En cours, Terminé ou Echec.
Attribut cible

Dans le contexte de la formation d'un modèle d'apprentissage-machine, l'attribut cible identifie le nom de l'attribut dans les données d'entrée qui contient les réponses « correctes ». Amazon ML utilise cette information pour découvrir des tendances et générer un modèle d'apprentissage-machine. Dans le contexte de l'évaluation et de la création de prédictions, l'attribut cible est l'attribut dont la valeur sera prédite par un modèle d'apprentissage-machine formé.

Synonymes : cible

Modèles d'apprentissage-machine

Un modèle d'apprentissage-machine est un modèle mathématique qui génère des prédictions en recherchant des tendances dans vos données. Amazon ML prend en charge trois types de modèles d'apprentissage-machine : la classification binaire, la classification multiclasse et la régression.

Le tableau suivant définit les termes liés aux modèles d'apprentissage-machine.

Durée Définition
Régression L'objectif de la formation d'un modèle d'apprentissage-machine de régression est de prédire une valeur numérique.
Multiclasse L'objectif de la formation d'un modèle d'apprentissage-machine multiclasse est de prédire les valeurs appartenant à un ensemble prédéfini et limité de valeurs autorisées.
Binaire L'objectif de former un modèle d'apprentissage-machine binaire est de prédire les valeurs qui peuvent uniquement avoir deux états différents, tels que true ou false.
Taille du modèle Les modèles d'apprentissage-machine capturent et stockent des tendances. Plus un modèle d'apprentissage-machine stocke de tendances, plus il est volumineux. La taille du modèle d'apprentissage-machine est décrite en Mo.
Nombre de passages Lorsque vous formez un modèle d'apprentissage-machine, vous utilisez les données d'une source de données. Il est parfois avantageux d'utiliser plusieurs fois chaque enregistrement de données dans le processus d'apprentissage. Le nombre de fois que vous laissez Amazon ML utiliser les mêmes enregistrements de données correspond au nombre de passages.
Régularisation La régularisation est une technique d'apprentissage-machine que vous pouvez utiliser pour obtenir des modèles de meilleure qualité. Amazon ML fournit un paramètre par défaut qui fonctionne bien dans la plupart des cas.

Evaluations

Une évaluation mesure la qualité de votre modèle d'apprentissage-machine et détermine s'il fonctionne correctement.

Le tableau suivant définit les termes liés aux évaluations.

Durée Définition
Analyse du modèle Amazon ML vous fournit une métrique et un certain nombre d'analyses que vous pouvez utiliser pour évaluer les performances prédictives de votre modèle.
AUC La métrique AUC (Area Under the ROC Curve) mesure l'aptitude d'un modèle d'apprentissage-machine binaire à prédire un score plus élevé pour les exemples positifs par rapport aux exemples négatifs.
Score F1 moyenné par macro Le score F1 moyenné par macro est utilisé pour évaluer les performances prédictives de modèles d'apprentissage-machine multiclasses.
RMSE L'erreur quadratique moyenne (RMSE, Root Mean Square Error) est une métrique utilisée pour évaluer les performances prédictives des modèles d'apprentissage-machine de régression.
Seuil Les modèles d'apprentissage-machine fonctionnent en générant des scores de prédiction numériques. En appliquant une valeur seuil, le système convertit ces scores en étiquettes 0 et 1.
Accuracy La précision mesure le pourcentage de prédictions correctes.
Précision La précision montre le pourcentage d'instances positives réelles (par opposition aux instances positives fausses) parmi les instances récupérées (celles qui devaient être positives). En d'autres termes, combien d'éléments sélectionnés sont positifs ?
Sensibilité La sensibilité montre le pourcentage d'instances positives réelles parmi le nombre total d'instances pertinentes (positives réelles). En d'autres termes, combien d'éléments positifs sont sélectionnés ?

Prédictions par lots

Les prédictions par lots s'appliquent à un ensemble d'observations qui peuvent s'exécuter en même temps. Ceci est idéal pour les analyses prédictives qui ne présentent pas d'exigence en temps réel.

Le tableau suivant définit les termes liés aux prédictions par lots.

Durée Définition
Emplacement de sortie Les résultats d'une prédiction par lots sont stockés dans un emplacement de sortie de compartiment S3.
Fichier manifeste Ce fichier associe chaque fichier de données d'entrée aux résultats des prédictions par lots associées. Il est stocké dans l'emplacement de sortie de compartiment S3.

Prédictions en temps réel

Les prédictions en temps réel sont appropriées pour les applications nécessitant une faible latence, telles que les applications interactives web, mobiles ou de bureau. N'importe quel modèle d'apprentissage-machine peut être interrogé pour établir des prédictions à l'aide de l'API de prédiction en temps réel à faible latence.

Le tableau suivant définit les termes liés aux prédictions en temps réel.

Durée Définition
API de prédiction en temps réel L'API de prédiction en temps réel accepte une seule observation d'entrée dans la charge utile de demande et renvoie la prédiction dans la réponse.
Point de terminaison de prédiction en temps réel Pour utiliser un modèle d'apprentissage-machine avec l'API de prédiction en temps réel, vous devez créer un point de terminaison de prédiction en temps réel. Une fois créé, ce point de terminaison contient l'URL que vous pouvez utiliser pour demander des prédictions en temps réel.