Sources de données Modèles ML Evaluations Prédictions par lots Prédictions en temps réel

Nous ne mettons plus à jour le service Amazon Machine Learning et n'acceptons plus de nouveaux utilisateurs pour celui-ci. Cette documentation est disponible pour les utilisateurs existants, mais nous ne la mettons plus à jour. Pour plus d'informations, consultez Qu'est-ce qu'Amazon Machine Learning ?

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Concepts clés d'Amazon Machine Learning

Cette section résume les concepts clés suivants et décrit plus en détail leur utilisation dans Amazon ML :

Sources de donnéescontiennent des métadonnées associées aux entrées de données dans Amazon ML
Les Modèles ML génèrent des prévisions en utilisant les tendances extraites des données d'entrée
Les Evaluations mesurent la qualité des modèles ML
Les Prédictions par lots génèrent de façon asynchrone des prévisions pour plusieurs observations des données d'entrée
Les Prédictions en temps réel génèrent de façon asynchrone des prévisions pour les observations de données individuelles

Sources de données

Une source de données est un objet qui contient des métadonnées relatives à vos données d'entrée. Amazon ML lit vos données d'entrée, calcule des statistiques descriptives sur ses attributs et stocke les statistiques, ainsi qu'un schéma et d'autres informations, dans le cadre de l'objet de source de données. Amazon ML utilise ensuite la source de données pour entraîner et évaluer un modèle de ML et générer des prédictions par lots.

Important

Une source de données ne stocke pas de copie de vos données d'entrée. Au lieu de cela, elle stocke une référence à l'emplacement Amazon S3 où résident vos données d'entrée. Si vous déplacez ou modifiez le fichier Amazon S3, Amazon ML ne peut pas y accéder ni l'utiliser pour créer un modèle de machine learning, générer des évaluations ou générer des prédictions.

Le tableau suivant définit les termes liés aux sources de données.

Durée	Définition
Attribut	Propriété nommée unique figurant dans une observation. Dans des données tabulaires, telles que des feuilles de calcul ou des fichiers CSV (de valeurs séparées par des virgules), les en-têtes des colonnes représentent les attributs et les lignes contiennent des valeurs pour chaque attribut. Synonymes : variable, nom de variable, champ, colonne
Nom de source de données	(Facultatif) Vous permet de définir un nom lisible pour une source de données. Ces noms vous permettent de rechercher et de gérer vos sources de données dans la console Amazon ML.
Données d'entrée	Nom collectif pour toutes les observations auxquelles une source de données se réfère.
Emplacement	Emplacement des données d'entrée. Actuellement, Amazon ML peut utiliser des données stockées dans des compartiments Amazon S3, des bases de données Amazon Redshift ou des bases de données MySQL dans Amazon Relational Database Service (RDS).
Observation	Unité individuelle de données d'entrée. Par exemple, si vous créez un modèle d'apprentissage-machine pour détecter des transactions frauduleuses, vos données d'entrée comprennent de nombreuses observations, chacune représentant une transaction individuelle. Synonymes : enregistrement, exemple, instance, ligne
ID de ligne	(Facultatif) Un indicateur qui, s'il est spécifié, identifie dans les données d'entrée un attribut à inclure dans la prédiction en sortie. Cet attribut permet d'associer plus facilement les prédictions aux observations correspondantes. Synonymes : identifiant de ligne
Schema	Les informations nécessaires pour interpréter les données d'entrée, y compris les noms d'attribut et leurs types de données attribués, et les noms des attributs spéciaux.
Statistiques	Statistiques récapitulatives pour chaque attribut dans les données d'entrée. Ces statistiques remplissent deux fonctions : La console Amazon ML les affiche sous forme de graphiques pour vous aider à comprendre vos données at-a-glance et à identifier les irrégularités ou les erreurs. Amazon ML les utilise pendant le processus de formation afin d'améliorer la qualité du modèle de ML obtenu.
Statut	Indique l'état actuel de la source de données, tel que En cours, Terminé ou Echec.
Attribut cible	Dans le contexte de l'entraînement d'un modèle de machine learning, l'attribut cible identifie le nom de l'attribut dans les données d'entrée qui contient les « bonnes » réponses. Amazon ML l'utilise pour découvrir des modèles dans les données d'entrée et générer un modèle de machine learning. Dans le contexte de l'évaluation et de la création de prédictions, l'attribut cible est l'attribut dont la valeur sera prédite par un modèle d'apprentissage-machine formé. Synonymes : cible

Modèles ML

Un modèle ML est un modèle mathématique qui génère des prédictions en trouvant des modèles dans vos données. Amazon ML prend en charge trois types de modèles de ML : classification binaire, classification multiclasse et régression.

Le tableau suivant définit les termes liés aux modèles d'apprentissage-machine.

Durée	Définition
Régression	L'objectif de la formation d'un modèle d'apprentissage-machine de régression est de prédire une valeur numérique.
Multiclasse	L'objectif de la formation d'un modèle d'apprentissage-machine multiclasse est de prédire les valeurs appartenant à un ensemble prédéfini et limité de valeurs autorisées.
Binaire	L'objectif de former un modèle d'apprentissage-machine binaire est de prédire les valeurs qui peuvent uniquement avoir deux états différents, tels que true ou false.
Taille du modèle	Les modèles d'apprentissage-machine capturent et stockent des tendances. Plus un modèle d'apprentissage-machine stocke de tendances, plus il est volumineux. La taille du modèle d'apprentissage-machine est décrite en Mo.
Nombre de passages	Lorsque vous formez un modèle d'apprentissage-machine, vous utilisez les données d'une source de données. Il est parfois avantageux d'utiliser plusieurs fois chaque enregistrement de données dans le processus d'apprentissage. Le nombre de fois que vous autorisez Amazon ML à utiliser les mêmes enregistrements de données s'appelle le nombre de passes.
Régularisation	La régularisation est une technique d'apprentissage automatique que vous pouvez utiliser pour obtenir des modèles de meilleure qualité. Amazon ML propose un paramètre par défaut qui fonctionne bien dans la plupart des cas.

Evaluations

Une évaluation mesure la qualité de votre modèle d'apprentissage-machine et détermine s'il fonctionne correctement.

Le tableau suivant définit les termes liés aux évaluations.

Durée	Définition
Analyse du modèle	Amazon ML vous fournit une métrique et un certain nombre d'informations que vous pouvez utiliser pour évaluer les performances prédictives de votre modèle.
AUC	La métrique AUC (Area Under the ROC Curve) mesure l'aptitude d'un modèle d'apprentissage-machine binaire à prédire un score plus élevé pour les exemples positifs par rapport aux exemples négatifs.
Score F1 moyenné par macro	Le score F1 moyenné par macro est utilisé pour évaluer les performances prédictives de modèles d'apprentissage-machine multiclasses.
RMSE	L'erreur quadratique moyenne (RMSE, Root Mean Square Error) est une métrique utilisée pour évaluer les performances prédictives des modèles d'apprentissage-machine de régression.
Seuil	Les modèles d'apprentissage-machine fonctionnent en générant des scores de prédiction numériques. En appliquant une valeur seuil, le système convertit ces scores en étiquettes 0 et 1.
Précision	La précision mesure le pourcentage de prédictions correctes.
Précision	La précision montre le pourcentage d'instances positives réelles (par opposition aux instances positives fausses) parmi les instances récupérées (celles qui devaient être positives). En d'autres termes, combien d'éléments sélectionnés sont positifs ?
Rappel	La sensibilité montre le pourcentage d'instances positives réelles parmi le nombre total d'instances pertinentes (positives réelles). En d'autres termes, combien d'éléments positifs sont sélectionnés ?

Prédictions par lots

Les prédictions par lots s'appliquent à un ensemble d'observations qui peuvent s'exécuter en même temps. Ceci est idéal pour les analyses prédictives qui ne présentent pas d'exigence en temps réel.

Le tableau suivant définit les termes liés aux prédictions par lots.

Durée	Définition
Emplacement de sortie	Les résultats d'une prédiction par lots sont stockés dans un emplacement de sortie de compartiment S3.
Fichier manifeste	Ce fichier associe chaque fichier de données d'entrée aux résultats des prédictions par lots associées. Il est stocké dans l'emplacement de sortie de compartiment S3.

Prédictions en temps réel

Les prédictions en temps réel sont appropriées pour les applications nécessitant une faible latence, telles que les applications interactives web, mobiles ou de bureau. N'importe quel modèle d'apprentissage-machine peut être interrogé pour établir des prédictions à l'aide de l'API de prédiction en temps réel à faible latence.

Le tableau suivant définit les termes liés aux prédictions en temps réel.

Durée	Définition
API de prédiction en temps réel	L'API de prédiction en temps réel accepte une seule observation d'entrée dans la charge utile de demande et renvoie la prédiction dans la réponse.
Point de terminaison de prédiction en temps réel	Pour utiliser un modèle d'apprentissage-machine avec l'API de prédiction en temps réel, vous devez créer un point de terminaison de prédiction en temps réel. Une fois créé, ce point de terminaison contient l'URL que vous pouvez utiliser pour demander des prédictions en temps réel.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Qu'est-ce qu'Amazon Machine Learning ?

Accès à Amazon Machine Learning