Créez une expérience de pilote automatique de régression ou de classification pour les données tabulaires à l'aide de l'interface utilisateur de Studio Classic - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Créez une expérience de pilote automatique de régression ou de classification pour les données tabulaires à l'aide de l'interface utilisateur de Studio Classic

Vous pouvez utiliser l'interface utilisateur Amazon SageMaker Studio Classic pour créer des expériences de pilote automatique pour des problèmes de classification ou de régression sur des données tabulaires. L'interface utilisateur vous permet de spécifier le nom de votre expérience, de fournir des emplacements pour les données d'entrée et de sortie et de spécifier les données cibles à prévoir. Vous pouvez également éventuellement spécifier le type de problème que vous souhaitez résoudre (régression, classification, classification multiclasse), choisir votre stratégie de modélisation (ensembles empilés ou optimisation des hyperparamètres), sélectionner la liste des algorithmes utilisés par la tâche de pilote automatique pour entraîner les données, etc.

L'interface utilisateur contient des descriptions, des boutons à bascule, des menus déroulants, des cases d'options et bien plus encore pour vous aider à créer vos modèles candidats. Une fois l'expérience exécutée, vous pouvez comparer les essais et étudier en détail les étapes de prétraitement, les algorithmes et les plages d'hyperparamètres de chaque modèle. Vous pouvez éventuellement télécharger leurs rapports d'explicabilité et de performance. Utilisez les blocs-notes fournis pour voir les résultats de l'exploration automatique des données ou les définitions de modèles candidats.

Vous pouvez également utiliser l'API AutoML du pilote automatique dans. Créez une tâche de régression ou de classification pour les données tabulaires à l'aide de l'API AutoML

Pour créer une expérience de pilote automatique à l'aide de l'interface utilisateur de Studio Classic
  1. Connectez-vous sur https://console.aws.amazon.com/sagemaker/, choisissez Studio dans le volet de navigation de gauche, sélectionnez votre domaine et votre profil utilisateur, puis Ouvrez Studio.

  2. Dans Studio, choisissez l'icône Studio Classic dans le volet de navigation en haut à gauche. Cela ouvre une application Studio Classic.

  3. Exécutez ou ouvrez une application Studio Classic depuis l'espace de votre choix, ou créez un espace Studio Classic. . Dans l'onglet Accueil, choisissez la carte AutoML. Ceci ouvre un nouvel onglet AutoML.

  4. Choisissez Créer une expérience AutoML. Cela ouvre un nouvel onglet Créer une expérience.

  5. Dans la section Détails de l'expérience et des données, entrez les informations suivantes :

    1. Nom de l'expérience — Il doit être unique à votre compte actuel Région AWS et contenir un maximum de 63 caractères alphanumériques. Peut inclure des traits d'union (-), mais pas d'espaces.

    2. Données d'entrée : indiquez l'emplacement du compartiment Amazon Simple Storage Service (Amazon S3) où se trouvent vos données d'entrée. Ce compartiment S3 doit se trouver dans votre Région AWS actuelle. L'URL doit être dans un s3:// format dans lequel Amazon SageMaker dispose d'autorisations d'écriture. Le fichier doit être au format CSV ou Parquet, et contenir au moins 500 lignes. Sélectionnez Parcourir pour parcourir les chemins disponibles et Aperçu pour voir un échantillon de vos données d'entrée.

    3. Is your S3 input a manifest file? (Votre entrée S3 est-elle un fichier manifeste ?) : un fichier manifeste inclut des métadonnées avec vos données d'entrée. Les métadonnées spécifient l'emplacement de vos données dans Amazon S3. Elles indiquent également comment les données sont formatées et les attributs du jeu de données à utiliser pour entraîner votre modèle. Vous pouvez utiliser un fichier manifeste comme alternative au prétraitement lorsque vos données étiquetées sont en cours de diffusion en mode Pipe.

    4. Auto split data? (Fractionner automatiquement les données ?) : Autopilot peut fractionner vos données et affecter une répartition 80-20 % pour les données d'entraînement et de validation. Si vous préférez un fractionnement personnalisé, vous pouvez choisir Specify split ratio (Spécifier le rapport de fractionnement). Pour utiliser un jeu de données personnalisé pour la validation, choisissez Provide a validation set (Fournir un ensemble de validation).

    5. Output data location (S3 bucket) (Emplacement des données de sortie (compartiment S3)) : nom de l'emplacement du compartiment S3 où vous souhaitez stocker les données de sortie. L'URL de ce compartiment doit être au format Amazon S3 pour lequel Amazon SageMaker dispose d'autorisations d'écriture. Le compartiment S3 doit se trouver dans la Région AWS actuelle. Autopilot peut également le créer pour vous au même endroit que vos données d'entrée.

  6. Choisissez Suivant : Cible et fonctionnalités. L'onglet Target and features (Cible et fonctionnalités) s'ouvre.

  7. Dans la section Cible et fonctionnalités :

    • Sélectionnez une colonne à définir comme cible pour les prédictions de modèle.

    • Vous pouvez éventuellement transmettre le nom d'une colonne de poids d'échantillons dans la section Poids d'échantillon pour demander que les lignes de votre jeu de données soient pondérées pendant l'entraînement et l'évaluation. Pour plus d'informations sur les métriques d'objectif disponibles, consultez Métriques pondérées Autopilot.

      Note

      La prise en charge des poids d'échantillons est disponible en mode ensembliste uniquement.

    • Vous pouvez également sélectionner des fonctionnalités pour l'entraînement et modifier leur type de données. Les types de données suivants sont disponibles : Text, Numerical, Categorical, Datetime, Sequence et Auto. Toutes les fonctionnalités sont sélectionnées par défaut.

  8. Choisissez Next: Training method (Suivant : méthode d'entraînement). L'onglet Training method (Méthode d'entraînement) s'ouvre.

  9. Dans la section Méthode d'entraînement, sélectionnez votre option d'entraînement : Ensembliste, Optimisation des hyperparamètres (HPO) ou Auto pour laisser Autopilot choisir la méthode d'entraînement automatiquement en fonction de la taille du jeu de données. Chaque mode d'entraînement exécute un ensemble prédéfini d'algorithmes sur votre jeu de données pour entraîner les modèles candidats. Par défaut, Autopilot présélectionne tous les algorithmes disponibles pour le mode d'entraînement donné. Vous pouvez exécuter une expérience d'entraînement Autopilot avec tous les algorithmes ou choisir votre propre sous-ensemble.

    Pour plus d'informations sur les modes d'entraînement et les algorithmes disponibles, consultez la section Modes d'entraînement Autopilot dans la page Modes d'entraînement et algorithmes.

  10. Choisissez Suivant : Déploiement et paramètres avancés pour ouvrir l'onglet Déploiement et paramètres avancés. Ces paramètres incluent l'affichage automatique du nom du point de terminaison, le type de problème de machine learning et des choix supplémentaires d'exécution de votre expérience.

    1. Deployment settings (Paramètres de déploiement) : Autopilot peut créer automatiquement un point de terminaison et déployer votre modèle pour vous.

      Pour déployer automatiquement sur un point de terminaison généré automatiquement ou pour fournir un nom de point de terminaison pour un déploiement personnalisé, réglez le bouton bascule sur Oui sous Déployer automatiquement ?. Si vous importez des données depuis Amazon SageMaker Data Wrangler, vous disposez d'options supplémentaires pour déployer automatiquement le meilleur modèle avec ou sans les transformations de Data Wrangler.

      Note

      Si votre flux Data Wrangler contient des opérations sur plusieurs lignes, telles que groupby, join ou concatenate, vous ne pouvez pas effectuer de déploiement automatique avec ces transformations. Pour plus d'informations, consultez Entraînement automatique des modèles sur votre flux de données.

    2. Paramètres avancés (facultatif) : Autopilot fournit des contrôles supplémentaires pour définir manuellement les paramètres expérimentaux, tels que la définition de votre type de problème, les contraintes de temps relatives à votre tâche Autopilot et à vos essais, ainsi que les paramètres de sécurité et de chiffrement.

      Note

      Le pilote automatique prend en charge la définition de valeurs par défaut afin de simplifier la configuration des expériences de pilote automatique à l'aide de l'interface utilisateur de Studio Classic. Les administrateurs peuvent utiliser les configurations de cycle de vie (LCC) de Studio Classic pour définir les valeurs d'infrastructure, de réseau et de sécurité dans les fichiers de configuration et préremplir les paramètres avancés des tâches. AutoML

      Pour découvrir comment les administrateurs peuvent automatiser la personnalisation d'une expérience Autopilot, consultez Configuration des paramètres par défaut d'une expérience Autopilot (pour les administrateurs).

      1. Type de problème de machine learning : Autopilot peut déduire automatiquement le type de problème d'apprentissage supervisé de votre jeu de données. Si vous préférez le choisir manuellement, vous pouvez utiliser le menu déroulant Sélectionner le type de problème de machine learning. Notez que la valeur par défaut est Auto. Dans certains cas, SageMaker est incapable de déduire avec précision. Lorsque cela se produit, vous devez fournir la valeur pour que la tâche réussisse. En particulier, vous pouvez choisir parmi les types suivants :

        • Classification binaire : la classification binaire affecte les données d'entrée à l'une des deux classes prédéfinies et mutuellement exclusives, en fonction de leurs attributs, tels qu'un diagnostic médical basé sur les résultats de tests de diagnostic qui déterminent si une personne souffre d'une maladie.

        • Régression : la régression établit une relation entre les variables d'entrée (également appelées variables indépendantes ou fonctionnalités) et la variable cible (également appelée variable dépendante). Cette relation est capturée par le biais d'une fonction ou d'un modèle mathématique qui mappe les variables d'entrée à une sortie continue. Elle est couramment utilisée pour des tâches telles que la prédiction des prix des maisons en fonction de fonctionnalités telles que la superficie et le nombre de salles de bains, des tendances boursières ou l'estimation de chiffres de vente.

        • Classification multi-classes : la classification multi-classes affecte les données d'entrée à l'une des différentes classes en fonction de leurs attributs, tels que la prédiction du sujet le plus pertinent d'un document texte, tel que la politique, la finance ou la philosophie.

      2. Durée d'exécution : vous pouvez définir une limite de temps maximale. Lorsque la limite de temps est atteinte, les essais et les tâches qui dépassent la contrainte de temps s'arrêtent automatiquement.

      3. Accès : vous pouvez choisir le rôle qu'Amazon SageMaker Studio Classic assume pour obtenir un accès temporaire Services AWS (en particulier, SageMaker et Amazon S3) en votre nom. Si aucun rôle n'est défini explicitement, Studio Classic utilise automatiquement le rôle SageMaker d'exécution par défaut associé à votre profil utilisateur.

      4. Chiffrement : pour renforcer la sécurité de vos données au repos et les protéger contre tout accès non autorisé, vous pouvez spécifier des clés de chiffrement pour chiffrer les données dans vos compartiments Amazon S3 et dans le volume Amazon Elastic Block Store (Amazon EBS) associé à votre domaine Studio Classic.

      5. Sécurité — Vous pouvez choisir le cloud privé virtuel (Amazon VPC) dans lequel s'exécute votre SageMaker tâche. Assurez-vous que le réseau Amazon VPC a accès à vos compartiments Amazon S3 d'entrée et de sortie.

      6. Projet — Spécifiez le nom du SageMaker projet à associer à cette expérience de pilote automatique et aux sorties du modèle. Lorsque vous spécifiez un projet, Autopilot associe le projet à une expérience. Cela vous permet de savoir quelles sorties de modèle sont associées à ce projet.

      7. Balises : les balises sont un tableau de paires clé-valeur. Utilisez des balises pour classer vos ressources Services AWS, par exemple leur objectif, leur propriétaire ou leur environnement.

    3. Choisissez Suivant : Vérification et création pour obtenir un résumé de votre expérience Autopilot avant sa création.

  11. Sélectionnez Créer une expérience. La création de l'expérience démarre une tâche de pilote automatique dans. SageMaker Autopilot fournit le statut de l'expérience, des informations sur le processus d'exploration des données et les modèles candidats dans des blocs-notes, une liste des modèles générés et leurs rapports, ainsi que le profil de tâche utilisé pour les créer.

    Pour en savoir plus sur les blocs-notes générés par une tâche Autopilot, consultez Carnets de notes Amazon SageMaker Autopilot générés pour gérer les tâches AutoML. Pour en savoir plus sur les détails de chaque modèle candidat et ses rapports, consultez Modèles générés par Amazon SageMaker Autopilot .

Note

Pour éviter des frais inutiles : si vous déployez un modèle qui n'est plus nécessaire, supprimez les points de terminaison et les ressources créées pendant ce déploiement. Les informations relatives aux instances de tarification par région sont disponibles sur Amazon SageMaker Pricing.