Utiliser les algorithmes intégrés d'Amazon SageMaker ou les modèles pré-entraînés - Amazon SageMaker

Utiliser les algorithmes intégrés d'Amazon SageMaker ou les modèles pré-entraînés

Amazon SageMaker fournit une suite d'algorithmes intégrés, de modèles pré-entraînés et de modèles de solutions préconçus pour aider les scientifiques des données et les praticiens du machine learning à commencer à entraîner et à déployer rapidement des modèles de machine learning. Si vous débutez avec SageMaker, choisir l'algorithme approprié à votre cas d'utilisation spécifique peut s'avérer difficile. Le tableau suivant est un aide-mémoire rapide qui montre par où commencer pour différents exemples de problème ou de cas d'utilisation et comment trouver un algorithme intégré SageMaker approprié à chaque type de problème. À la suite du tableau, vous trouverez des conseils supplémentaires organisés par paradigmes d'apprentissage (supervisé et non supervisé) et par domaines de données principaux (textes et images).

Tableau : mappage des cas d'utilisation aux algorithmes intégrés
Exemples de problèmes et de cas d'utilisation Paradigme d'apprentissage ou domaine Types de problèmes Format des données d'entrée Algorithmes intégrés

Voici quelques exemples parmi les 15 types de problèmes qui peuvent être traités par les modèles pré-entraînés et les modèles de solutions préconçus fournis par SageMaker JumpStart :

Réponse aux questions : chatbot qui produit une réponse à une question donnée.

Analyse de texte : analyser des textes à partir de modèles spécifiques à un domaine industriel tel que la finance.

Modèles pré-entraînés et modèles de solutions préconçus

Classification d'images

Classification tabulaire

Régression tabulaire

Classification de texte

Object Detection

Intégration de texte

Réponse aux questions

Classification des paires de phrases

Intégration d'images

Reconnaissance d'entités nommées (NER)

Segmentation d'instances

Génération de texte

Synthèse de texte

Semantic Segmentation

Traduction automatique

Image, texte, tableau

Modèles populaires, dont Mobilenet, YOLO, Faster R-CNN, BERT, lightGBM et CatBoost

Pour obtenir une liste des modèles pré-entraînés disponibles, consultez la rubrique JumpStart Models (Modèles JumpStart).

Pour obtenir une liste des modèles de solutions préconçues disponibles, consultez la rubrique JumpStart Solutions (Solutions JumpStart).

Prédire si un élément appartient à une catégorie : un filtre de courrier indésirable

Apprentissage supervisé

Classification binaire/multiclasse

Tabulaire

AutoGluon-Tabular, CatBoost, Algorithme des machines de factorisation, Algorithme k-NN (K-Nearest Neighbors, k plus proches voisins), LightGBM, Algorithme d'apprentissage linéaire, TabTransformer, Algorithme XGBoost

Prédire une valeur numérique/continue : estimer la valeur d'une maison

Régression

Tabulaire

AutoGluon-Tabular, CatBoost, Algorithme des machines de factorisation, Algorithme k-NN (K-Nearest Neighbors, k plus proches voisins), LightGBM, Algorithme d'apprentissage linéaire, TabTransformer, Algorithme XGBoost

En se basant sur les données historiques d'un comportement, prédire le comportement futur : prédire les ventes sur un nouveau produit en fonction des données de ventes précédentes.

prédiction de séries temporelles

Tabulaire

Algorithme de prévisions DeepAR

Améliorer l'intégration des données des objets à haute dimension : identifier les tickets d'assistance en double ou trouver le routage approprié en fonction de la similitude du texte dans les tickets

Intégrations : convertir des objets à haute dimension en espace à faible dimension. Tabulaire Algorithme Object2Vec

Supprimer les colonnes d'un jeu de données qui ont une relation faible avec la variable étiquette/cible : la couleur d'une voiture lors de la prédiction de son kilométrage.

Apprentissage non supervisé

Ingénierie des fonctionnalités : réduction de dimensionnalité

Tabulaire

Algorithme PCA (Principal Component Analysis, analyse en composantes principales)

Détecter un comportement anormal dans l'application : repérer lorsqu'un capteur IoT envoie des lectures anormales

Détection des anomalies

Tabulaire

Algorithme RCF (Random Cut Forest)

Protéger votre application des utilisateurs suspects : détecter si une adresse IP accédant à un service peut appartenir à une personne mal intentionnée

Détection des anomalies d'adresse IP

Tabulaire

IP Insights

Regrouper des objets/données similaires : trouver les clients dont les dépenses sont élevées, moyennes et faibles à partir de leurs historiques de transactions

Mise en cluster ou regroupement

Tabulaire

Algorithme des k-moyennes (k-means)

Organiser un ensemble de documents en rubriques (non connus à l'avance) : marquer un document comme appartenant à une catégorie médicale en fonction des termes utilisés dans le document.

Modélisation des rubriques

Texte

Algorithme LDA (Latent Dirichlet Allocation, allocation de Dirichlet latente), Algorithme NTM (Neural Topic Model)

Affecter des catégories prédéfinies aux documents d'un corpus : classer les livres d'une bibliothèque en disciplines universitaires

Analyse de texte

Classification de texte

Texte

Algorithme BlazingText

Convertir du texte d'une langue à une autre : Espagnol en Anglais

Algorithme de traduction

automatique
Texte

Algorithme seq2seq (Sequence-to-Sequence)

Résumer un corpus de texte long : un résumé pour un document de recherche

Synthèse de texte

Texte

Algorithme seq2seq (Sequence-to-Sequence)

Convertir des fichiers audio en texte : transcrire les conversations du centre d'appels pour une analyse plus approfondie

Synthèse vocale

Texte

Algorithme seq2seq (Sequence-to-Sequence)

Étiqueter une image en fonction du contenu de l'image : alertes de contenu pour adultes dans une image

Gem Image Processing

Classification des images et des étiquettes multiples

Image

Classification des images – MXNet

Classez quelque chose dans une image à l'aide de l'apprentissage par transfert.

Image classification Image

Classification des images – TensorFlow

Détecter les personnes et les objets dans une image : la police examine une grande galerie de photos pour une personne disparue

Détection et classification d'objets

Image

Object Detection

Étiqueter chaque pixel d'une image avec une catégorie : les voitures autonomes se préparent à identifier les objets sur leur chemin

Reconnaissance d'image

Image

Algorithme de segmentation sémantique

Pour obtenir des informations importantes sur les chemins de registre Docker, les formats de données, les types d'instance Amazon EC2 recommencés et les journaux CloudWatch Logs communs à tous les algorithmes intégrés fournis par SageMaker, consultez Informations communes aux algorithmes intégrés.

Les sections suivantes fournissent des conseils supplémentaires sur les algorithmes intégrés Amazon SageMaker regroupés par les paradigmes d'apprentissage supervisé et non supervisé auxquels ils appartiennent. Pour obtenir une description de ces paradigmes d'apprentissage et de leurs types de problèmes associés, consultez Choisir un algorithme. Vous trouverez également des sections sur les algorithmes intégrés SageMaker disponibles pour traiter deux domaines importants du machine learning : l'analyse de texte et le traitement des images.

Modèles pré-entraînés et modèles de solutions

SageMaker JumpStart fournit un large éventail de modèles pré-entraînés, de modèles de solutions préconçus et d'exemples pour les types de problèmes les plus courants qui utilisent le kit SDK SageMaker ainsi que Studio. Pour obtenir plus d'informations sur ces modèles, ces solutions et les carnets d'exemples fournis par SageMaker JumpStart, consultez SageMaker JumpStart.

Apprentissage supervisé

Amazon SageMaker fournit plusieurs algorithmes intégrés polyvalents qui peuvent être utilisés pour des problèmes de classification ou de régression.

  • AutoGluon-Tabular : un cadre AutoML open source qui réussit en assemblant des modèles et en les empilant en plusieurs couches.

  • CatBoost : une implémentation de l'algorithme d'arborescences de gradients améliorés qui introduit l'amplification ordonnée et un algorithme innovant pour le traitement des fonctionnalités de catégories.

  • Algorithme des machines de factorisation : extension d'un modèle linéaire, conçue pour capturer, de façon économique, les interactions entre les fonctions dans des jeux de données fragmentés à haute dimension.

  • Algorithme k-NN (K-Nearest Neighbors, k plus proches voisins) : méthode non paramétrique qui utilise les k points étiquetés les plus proches pour attribuer une étiquette à un nouveau point de données pour la classification ou à une valeur cible prédite à partir de la moyenne des k points les plus proches pour la régression.

  • LightGBM : une implémentation de l'algorithme des arbres boostés par gradient qui ajoute deux nouvelles techniques pour améliorer l'efficacité et la capacité de mise à l'échelle : l'échantillonnage unilatéral basé sur le gradient (GOSS) et la création d'une offre groupée exclusive de fonctionnalités (EFB).

  • Algorithme d'apprentissage linéaire : apprend une fonction linéaire pour la régression ou une fonction de seuil linéaire pour la classification.

  • TabTransformer : une nouvelle architecture de modélisation de données tabulaires approfondies basée sur des transformateurs basés sur l'auto-attention.

  • Algorithme XGBoost : implémentation de l'algorithme d'arborescences de gradients améliorés qui combine un ensemble d'estimations d'un jeu de modèles plus simples et plus faibles.

Amazon SageMaker fournit également plusieurs algorithmes d'apprentissage supervisé intégrés qui sont utilisés pour des tâches plus spécialisées lors de l'ingénierie des fonctionnalités et de la prédiction à partir de données de séries temporelles.

  • Algorithme Object2Vec : nouvel algorithme polyvalent hautement personnalisable utilisé pour l'ingénierie des fonctionnalités. Il peut apprendre des intégrations denses à faible dimension d'objets à haute dimension pour produire des fonctions qui améliorent l'efficacité d'entraînement pour les modèles en aval. Bien qu'il s'agisse d'un algorithme supervisé, car il nécessite des données étiquetées pour l'entraînement, il existe de nombreux scénarios dans lesquels les étiquettes de relation peuvent être obtenues uniquement à partir de clusters naturels dans les données, sans aucune annotation humaine explicite.

  • Algorithme de prévisions DeepAR : algorithme d'apprentissage supervisé pour les prédictions de séries temporelles scalaires (unidimensionnelles) à l'aide de réseaux neuronaux récurrents (RNN).

Apprentissage non supervisé

Amazon SageMaker fournit plusieurs algorithmes intégrés qui peuvent être utilisés pour une variété de tâches d'apprentissage non supervisé telles que la mise en cluster, la réduction des dimensions, la reconnaissance des modèles et la détection des anomalies.

  • Algorithme PCA (Principal Component Analysis, analyse en composantes principales) : réduit la dimensionnalité (nombre de fonctions) au sein d'un jeu de données en projetant des points de données sur les premiers composants principaux. L'objectif est de conserver autant d'informations ou de variations que possible. Pour les mathématiciens, les composants principaux sont les vecteurs propres de la matrice de covariance des données.

  • Algorithme des k-moyennes (k-means) : tente de trouver des regroupements discrets au sein des données, au sein desquels les membres d'un groupe sont aussi semblables que possible les uns des autres et aussi différents que possible des membres des autres groupes.

  • IP Insights : apprend les modèles d'utilisation des adresses IPv4. Il est conçu pour capturer les associations entre les adresses IPv4 et diverses entités, telles que les noms d'utilisateur ou les numéros de compte.

  • Algorithme RCF (Random Cut Forest) : détecte les points de données anormaux d'un jeu de données qui s'écartent de données autrement bien structurées ou calquées.

Analyse de texte

SageMaker fournit des algorithmes adaptés à l'analyse des documents texte utilisés dans le traitement du langage naturel, la classification ou la synthèse des documents, la modélisation ou la classification des rubriques, ainsi que la transcription ou la traduction des langues.

  • Algorithme BlazingText : implémentation hautement optimisée des algorithmes de classification textuelle et Word2vec qui s'adaptent facilement à de grands jeux de données. Elle est utile pour de nombreuses tâches de traitement du langage naturel (NLP).

  • Algorithme seq2seq (Sequence-to-Sequence) : algorithme supervisé couramment utilisé pour la traduction automatique neuronale.

  • Algorithme LDA (Latent Dirichlet Allocation, allocation de Dirichlet latente) : algorithme utile pour déterminer les rubriques d'un ensemble de documents. Il s'agit d'un algorithme non supervisé, ce qui signifie qu'il n'utilise pas d'exemples de données avec des réponses au cours de l'entraînement.

  • Algorithme NTM (Neural Topic Model) : autre technique non supervisée permettant de déterminer les rubriques d'un ensemble de documents, à l'aide d'une approche réseau neuronale.

Gem Image Processing

SageMaker fournit également des algorithmes de traitement d'image qui sont utilisés pour la classification des images, la détection d'objets et la reconnaissance d'image.

  • Classification des images – MXNet : a recours à des exemples de données avec des réponses (ce qu'on appelle un algorithme supervisé).   Utilisez cet algorithme pour classer des images.

  • Classification des images – TensorFlow : utilise des modèles de hub TensorFlow pré-entraînés pour affiner des tâches spécifiques (appelés algorithme supervisé).   Utilisez cet algorithme pour classer des images.

  • Algorithme de segmentation sémantique : fournit une approche granulaire, au niveau du pixel, pour développer les applications de reconnaissance d'image.

  • Object Detection : détecte et classe les objets des images à l'aide d'un seul réseau neuronal profond. Il s'agit d'un algorithme d'apprentissage supervisé qui accepte les images en tant qu'entrée et identifie toutes les instances d'objets au sein de l'image.