SageMaker Pilote automatique

Important

Depuis le 30 novembre 2023, l'interface utilisateur d'Autopilot migre vers Amazon SageMaker Canvas dans le cadre de la mise à jour de l'expérience Amazon SageMaker Studio. SageMaker Canvas fournit aux data scientists des fonctionnalités sans code pour des tâches telles que la préparation des données, l'ingénierie des fonctionnalités, la sélection d'algorithmes, la formation et le réglage, l'inférence, la surveillance continue des modèles, etc. SageMaker Canvas prend en charge une variété de cas d'utilisation, notamment la vision par ordinateur, la prévision de la demande, la recherche intelligente et l'IA générative.

Les utilisateurs d'Amazon SageMaker Studio Classic, version précédente de Studio, peuvent continuer à utiliser l'interface utilisateur du pilote automatique dans Studio Classic. Les utilisateurs expérimentés en codage peuvent continuer à utiliser toutes les références d'API de tous les SDK pris en charge à des fins de mise en œuvre technique.

Si vous avez utilisé le pilote automatique dans Studio Classic jusqu'à présent et que vous souhaitez migrer vers SageMaker Canvas, vous devrez peut-être accorder des autorisations supplémentaires à votre profil utilisateur ou à votre rôle IAM afin de pouvoir créer et utiliser l' SageMaker application Canvas. Pour plus d’informations, consultez Migrer du pilote automatique dans Studio Classic vers Canvas SageMaker .

Toutes les instructions relatives à l'interface utilisateur contenues dans ce guide concernent les fonctionnalités autonomes d'Autopilot avant la migration vers Amazon Canvas. SageMaker Les utilisateurs qui suivent ces instructions doivent utiliser Studio Classic.

Amazon SageMaker Autopilot est un ensemble de fonctionnalités qui simplifie et accélère les différentes étapes du flux de travail d'apprentissage automatique en automatisant le processus de création et de déploiement de modèles d'apprentissage automatique (AutoML).

Le pilote automatique exécute les tâches clés suivantes que vous pouvez utiliser sur le pilote automatique ou avec différents degrés de guidage humain :

Analyse des données et prétraitement : Autopilot identifie votre type de problème spécifique, gère les valeurs manquantes, normalise vos données, sélectionne les fonctionnalités et prépare globalement les données d'entraînement de modèle.
Sélection de modèle : Autopilot explore divers algorithmes et utilise une technique de rééchantillonnage par validation croisée pour générer des métriques qui évaluent la qualité prédictive des algorithmes sur la base de métriques d'objectif prédéfinies.
Optimisation des hyperparamètres : le pilote automatique automatise la recherche de configurations d'hyperparamètres optimales.
Formation et évaluation des modèles : le pilote automatique automatise le processus de formation et d'évaluation des différents modèles candidats. Il divise les données en jeux d'entraînement et de validation, entraîne les modèles candidats sélectionnés à l'aide des données d'entraînement et évalue leurs performances sur la base des données invisibles du jeu de validation. Enfin, il classe les modèles candidats optimisés en fonction de leurs performances et identifie le modèle le plus performant.
Déploiement du modèle : une fois qu'Autopilot a identifié le modèle le plus performant, il offre la possibilité de déployer le modèle automatiquement en générant les artefacts du modèle et en exposant une API au point de terminaison. Les applications externes peuvent envoyer des données au point de terminaison et recevoir les prédictions ou inférences correspondantes.

Autopilot prend en charge la création de modèles de machine learning sur de grands jeux de données allant jusqu'à des centaines de Go.

Le schéma suivant décrit les tâches de ce processus AutoML géré par Autopilot.

Présentation du processus SageMaker AutoML d'Amazon Autopilot.

Selon votre niveau de confort avec le processus de machine learning et votre expérience de codage, vous pouvez utiliser Autopilot de différentes manières :

À l'aide de l'interface utilisateur de Studio Classic, les utilisateurs peuvent choisir entre une expérience sans code ou une intervention humaine dans une certaine mesure.

Note
Seules les expériences créées à partir de données tabulaires pour des types de problèmes tels que la régression ou la classification sont disponibles via l'interface utilisateur de Studio Classic.
À l'aide de l'API AutoML, les utilisateurs expérimentés en codage peuvent utiliser les SDK disponibles pour créer des tâches AutoML. Cette approche offre une plus grande flexibilité et des options de personnalisation et est disponible pour tous les types de problèmes.

Autopilot prend actuellement en charge les types de problèmes suivants :

Note

Pour les problèmes de régression ou de classification impliquant des données tabulaires, les utilisateurs peuvent choisir entre deux options : utiliser l'interface utilisateur Studio Classic ou l'API Reference.

Les tâches telles que la classification du texte et des images, les prévisions de séries chronologiques et le réglage précis de grands modèles linguistiques sont exclusivement disponibles via la version 2 de l'API REST AutoML. Si le langage de votre choix est Python, vous pouvez vous référer AWS SDK for Python (Boto3)directement à l'objet AutoLV2 du SDK Amazon SageMaker Python.

Les utilisateurs qui préfèrent la commodité d'une interface utilisateur peuvent utiliser Amazon SageMaker Canvas pour accéder à des modèles préentraînés et à des modèles de base d'IA génératifs, ou créer des modèles personnalisés adaptés à des textes spécifiques, à une classification d'images, à des besoins de prévision ou à une IA générative.

Classification de type régression, binaire ou multi-classes avec données tabulaires sous forme de fichiers CSV ou Parquet dans lesquels chaque colonne contient une fonctionnalité avec un type de données spécifique et où chaque ligne contient une observation. Les types de données acceptés pour les colonnes incluent numérique, catégorie, texte et séries temporelles constituées de chaînes de nombres séparés par des virgules.
- Pour créer une tâche de pilote automatique en tant qu'expérience pilote à l'aide de la référence d' SageMaker API, voir. Créez une tâche de régression ou de classification pour les données tabulaires à l'aide de l'API AutoML
- Pour créer une tâche de pilote automatique en tant qu'expérience pilote à l'aide de l'interface utilisateur de Studio Classic, voir. Créez une expérience de pilote automatique de régression ou de classification pour les données tabulaires à l'aide de l'interface utilisateur de Studio Classic
- Si vous êtes un administrateur qui souhaite préconfigurer les paramètres d'infrastructure, de réseau ou de sécurité par défaut des expériences de pilote automatique dans l'interface utilisateur de Studio Classic, consultez. Configuration des paramètres par défaut d'une expérience Autopilot (pour les administrateurs)
Classification de texte avec des données formatées sous forme de fichiers CSV ou Parquet dans lesquels une colonne fournit les phrases à classer, tandis qu'une autre colonne doit fournir l'étiquette de classe correspondante. veuillez consulter Créez une tâche AutoML pour la classification de texte à l'aide de l'API.
Classification des images avec des formats d'image tels que PNG, JPEG ou une combinaison des deux. Voir. Créez une tâche AutoML pour la classification des images à l'aide de l'API
Prévisions de séries chronologiques avec des données de séries chronologiques au format CSV ou Parquet.Voir. Créez une tâche AutoML pour la prévision de séries chronologiques à l'aide de l'API
Réglage précis des grands modèles linguistiques (LLM) pour la génération de texte avec des données formatées sous forme de fichiers CSV ou Parquet.Voir. Créez une tâche AutoML pour affiner les modèles de génération de texte à l'aide de l'API

En outre, Autopilot aide les utilisateurs à comprendre comment les modèles font des prédictions en générant automatiquement des rapports qui montrent l'importance de chaque fonctionnalité individuelle. Cela fournit de la transparence et des renseignements sur les facteurs influençant les prédictions, qui peuvent être utilisés par les équipes chargées des risques et de la conformité et les régulateurs externes. Autopilot fournit également un rapport de performances de modèle, qui comprend un résumé des métriques d'évaluation, une matrice de confusion, diverses visualisations telles que les courbes caractéristiques de fonctionnement du récepteur et les courbes de rappel de précision, etc. Le contenu spécifique de chaque rapport varie en fonction du type de problème de l'expérience Autopilot.

Les rapports d'explicabilité et de performance du meilleur modèle candidat dans une expérience de pilote automatique sont disponibles pour les types de problèmes de classification de texte, d'image et de données tabulaires.

Pour les cas d'utilisation de données tabulaires tels que la régression ou la classification, Autopilot offre une visibilité supplémentaire sur la manière dont les données ont été traitées et sur la manière dont les modèles candidats ont été sélectionnés, entraînés et ajustés en générant des carnets contenant le code utilisé pour explorer les données et trouver le modèle le plus performant. Ces blocs-notes fournissent un environnement interactif et exploratoire pour vous aider à découvrir l'impact des diverses entrées ou les compromis effectués dans les expériences. Vous pouvez réaliser d'autres expériences avec le modèle candidat le plus performant en apportant vos propres modifications aux blocs-notes d'exploration des données et de définition des candidats fournis par Autopilot.

Avec Amazon SageMaker, vous ne payez que pour ce que vous utilisez. Vous payez pour les ressources de calcul et de stockage sous-jacentes au sein SageMaker de nos autres AWS services, en fonction de votre utilisation. Pour plus d'informations sur le coût d'utilisation SageMaker, consultez Amazon SageMaker Pricing.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisez le machine learning automatisé, le sans code ou le low-code

Création d'une tâche de régression ou de classification à l'aide de l'API AutoML