Automatiser le développement de modèles avec Amazon SageMaker Autopilot - Amazon SageMaker

Automatiser le développement de modèles avec Amazon SageMaker Autopilot

Amazon SageMaker Autopilot est un ensemble de fonctions qui automatisent les tâches clés d'un processus de machine learning automatique (AutoML). Il explore vos données, sélectionne les algorithmes correspondant à votre type de problème, et prépare les données pour faciliter l'entraînement et le réglage du modèle. Autopilot applique automatiquement une procédure de rééchantillonnage à validation croisée à tous les algorithmes candidats, le cas échéant, afin de tester leur capacité à prédire les données sur lesquelles ils n'ont pas été entraînés. Il produit également des métriques permettant d'évaluer la qualité prédictive de ses candidats au modèle de machine learning. Il simplifie votre expérience de machine learning en automatisant les tâches clés qui constituent un processus AutoML. Il classe tous les modèles optimisés testés en fonction de leurs performances. Il trouve le modèle le plus performant à déployer, en une fraction du temps normalement nécessaire.

Vous pouvez utiliser Autopilot de différentes façons : en mode pilote automatique (d'où son nom) ou selon divers degrés de supervision humaine, sans code via Amazon SageMaker Studio ou avec code via l'un des kits SDK AWS. Autopilot prend actuellement en charge les types de problèmes régression, classification binaire et multiclasse. Il prend en charge les données tabulaires sous forme de fichiers CSV ou Parquet dans lesquels chaque colonne contient une entité avec un type de données spécifique et chaque ligne contient une observation. Les types de données de colonnes acceptés incluent les séries numériques, catégorielles, textuelles et temporelles constituées de chaînes de nombres séparés par des virgules. Autopilot prend en charge la création de modèles de machine learning sur de grands jeux de données allant jusqu'à des centaines de Go.

Autopilot explique également la façon dont les modèles réalisent des prédictions à l'aide d'une approche d'attribution de fonctions développée pour Amazon SageMaker Clarify. Autopilot génère automatiquement un rapport sur l'importance de chaque fonction pour les prédictions réalisées par le meilleur candidat. Cette fonctionnalité d'explicabilité peut faciliter la compréhension des modèles de machine learning par les clients AWS. Le rapport de gouvernance de modèle généré peut servir à informer les équipes de gestion des risques et de conformité, ainsi que les organismes de réglementation externes.

Vous disposez d'une visibilité totale sur la façon dont les données ont été obtenues et dont les modèles ont été sélectionnés, entraînés et réglés pour chacun des candidats testés. Ces éléments figurent dans les blocs-notes générés par Autopilot pour chaque essai, qui contiennent le code utilisé pour explorer les données et trouver le meilleur candidat. Les blocs-notes vous fournissent également des outils éducatifs pour vous former au ML et réaliser vos propres expériences en la matière. Vous pouvez découvrir l'impact des différentes entrées et des compromis réalisés lors d'expériences en examinant les divers blocs-notes d'exploration de données et de définition de candidats exposés par Autopilot. Vous pouvez également réaliser d'autres expériences sur les candidats les plus performants en apportant vos propres modifications aux blocs-notes et en les relançant.

Le graphique suivant décrit les principales tâches d'un processus AutoML géré par Autopilot.


      Présentation du processus AutoML utilisé par Amazon SageMaker Autopilot.

Avec Amazon SageMaker, vous ne payez que les services que vous utilisez. Vous payez pour les ressources de calcul et de stockage sous-jacentes au sein de SageMaker ou d'autres services AWS en fonction de votre utilisation. Pour de plus amples informations sur les coûts d'utilisation de SageMaker, veuillez consulter la Tarification Amazon SageMaker.