SageMaker Pilote automatique - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker Pilote automatique

Important

À compter du 30 novembre 2023, les fonctionnalités d'Autopilot migreront vers Amazon SageMaker Canvas dans le cadre de la mise à jour de l'expérience Studio, fournissant aux data scientists des fonctionnalités sans code pour des tâches telles que la préparation des données, l'ingénierie des fonctionnalités, la sélection d'algorithmes, la formation et le réglage, l'inférence, la surveillance continue des modèles, etc. SageMaker Canvas prend en charge une variété de cas d'utilisation, notamment la vision par ordinateur, la prévision de la demande, la recherche intelligente et l'IA générative.

Les utilisateurs de Studio Classic peuvent continuer à utiliser le pilote automatique en tant que fonctionnalité autonome. Cependant, nous encourageons les utilisateurs qui préfèrent la commodité d'une interface utilisateur à explorer l'exécution de leurs tâches AutoML dans SageMaker Canvas. Les utilisateurs expérimentés en codage peuvent continuer à utiliser toutes les instructions de l'API et tous les SDK pris en charge pour la mise en œuvre technique.

Toutes les instructions relatives à l'interface utilisateur contenues dans ce guide concernent les fonctionnalités autonomes d'Autopilot avant la migration vers Amazon Canvas. SageMaker Les utilisateurs qui suivent ces instructions doivent utiliser Studio Classic.

Amazon SageMaker Autopilot est un ensemble de fonctionnalités qui simplifie et accélère les différentes étapes du flux de travail d'apprentissage automatique en automatisant le processus de création et de déploiement de modèles d'apprentissage automatique (AutoML).

Le pilote automatique exécute les tâches clés suivantes que vous pouvez utiliser sur le pilote automatique ou avec différents degrés de guidage humain :

  • Analyse des données et prétraitement : Autopilot identifie votre type de problème spécifique, gère les valeurs manquantes, normalise vos données, sélectionne les fonctionnalités et prépare globalement les données d'entraînement de modèle.

  • Sélection de modèle : Autopilot explore divers algorithmes et utilise une technique de rééchantillonnage par validation croisée pour générer des métriques qui évaluent la qualité prédictive des algorithmes sur la base de métriques d'objectif prédéfinies.

  • Optimisation des hyperparamètres : le pilote automatique automatise la recherche de configurations d'hyperparamètres optimales.

  • Formation et évaluation des modèles : le pilote automatique automatise le processus de formation et d'évaluation des différents modèles candidats. Il divise les données en jeux d'entraînement et de validation, entraîne les modèles candidats sélectionnés à l'aide des données d'entraînement et évalue leurs performances sur la base des données invisibles du jeu de validation. Enfin, il classe les modèles candidats optimisés en fonction de leurs performances et identifie le modèle le plus performant.

  • Déploiement du modèle : une fois qu'Autopilot a identifié le modèle le plus performant, il offre la possibilité de déployer le modèle automatiquement en générant les artefacts du modèle et en exposant une API au point de terminaison. Les applications externes peuvent envoyer des données au point de terminaison et recevoir les prédictions ou inférences correspondantes.

Autopilot prend en charge la création de modèles de machine learning sur de grands jeux de données allant jusqu'à des centaines de Go.

Le schéma suivant décrit les tâches de ce processus AutoML géré par Autopilot.


      Présentation du processus  SageMaker  AutoML d'Amazon Autopilot.

Selon votre niveau de confort avec le processus de machine learning et votre expérience de codage, vous pouvez utiliser Autopilot de différentes manières :

  • À l'aide de l'interface utilisateur de Studio Classic, les utilisateurs peuvent choisir entre une expérience sans code ou une intervention humaine dans une certaine mesure.

    Note

    Seules les expériences créées à partir de données tabulaires pour des types de problèmes tels que la régression ou la classification sont disponibles via l'interface utilisateur de Studio Classic.

  • À l'aide de l'API AutoML, les utilisateurs expérimentés en codage peuvent utiliser les SDK disponibles pour créer des tâches AutoML. Cette approche offre une plus grande flexibilité et des options de personnalisation et est disponible pour tous les types de problèmes.

Autopilot prend actuellement en charge les types de problèmes suivants :

Note

Pour les problèmes de régression ou de classification impliquant des données tabulaires, les utilisateurs peuvent choisir entre deux options : utiliser l'interface utilisateur Studio Classic ou l'API Reference.

Les tâches telles que la classification du texte et des images, les prévisions de séries chronologiques et le réglage précis de grands modèles linguistiques sont exclusivement disponibles via la version 2 de l'API Autopilot. Pour les utilisateurs de Python, nous recommandons d'utiliser le AWS SDK for Python (Boto3)car le SDK Amazon SageMaker Python n'est actuellement pas pris en charge pour la version 2 de l'API Autopilot.

Les utilisateurs qui préfèrent la commodité d'une interface utilisateur peuvent utiliser Amazon SageMaker Canvas pour accéder à des modèles préentraînés et à des modèles de base d'IA génératifs, ou créer des modèles personnalisés adaptés à des textes spécifiques, à une classification d'images, à des besoins de prévision ou à une IA générative.

En outre, Autopilot aide les utilisateurs à comprendre comment les modèles font des prédictions en générant automatiquement des rapports qui montrent l'importance de chaque fonctionnalité individuelle. Cela fournit de la transparence et des renseignements sur les facteurs influençant les prédictions, qui peuvent être utilisés par les équipes chargées des risques et de la conformité et les régulateurs externes. Autopilot fournit également un rapport de performances de modèle, qui comprend un résumé des métriques d'évaluation, une matrice de confusion, diverses visualisations telles que les courbes caractéristiques de fonctionnement du récepteur et les courbes de rappel de précision, etc. Le contenu spécifique de chaque rapport varie en fonction du type de problème de l'expérience Autopilot.

Les rapports d'explicabilité et de performance du meilleur modèle candidat dans une expérience de pilote automatique sont disponibles pour les types de problèmes de classification de texte, d'image et de données tabulaires.

Pour les cas d'utilisation de données tabulaires tels que la régression ou la classification, Autopilot offre une visibilité supplémentaire sur la manière dont les données ont été traitées et sur la manière dont les modèles candidats ont été sélectionnés, entraînés et ajustés en générant des carnets contenant le code utilisé pour explorer les données et trouver le modèle le plus performant. Ces blocs-notes fournissent un environnement interactif et exploratoire pour vous aider à découvrir l'impact des diverses entrées ou les compromis effectués dans les expériences. Vous pouvez réaliser d'autres expériences avec le modèle candidat le plus performant en apportant vos propres modifications aux blocs-notes d'exploration des données et de définition des candidats fournis par Autopilot.

Avec Amazon SageMaker, vous ne payez que pour ce que vous utilisez. Vous payez pour les ressources de calcul et de stockage sous-jacentes au sein SageMaker de nos autres AWS services, en fonction de votre utilisation. Pour plus d'informations sur le coût d'utilisation SageMaker, consultez Amazon SageMaker Pricing.