Créer une expérience Amazon SageMaker Autopilot - Amazon SageMaker

Créer une expérience Amazon SageMaker Autopilot

Lorsque vous créez une expérience pilote sous forme de tâche Autopilot, Autopilot analyse vos données et crée un bloc-notes avec les définitions de modèles de candidats. Si vous choisissez d'exécuter l'expérience complète, Autopilot entraîne et règle également ces modèles en votre nom. Vous pouvez afficher des statistiques pendant l'exécution de l'expérience. Une fois son exécution terminée, vous pouvez comparer les essais et explorer les détails.

Les instructions suivantes vous montrent comment créer une expérience Amazon SageMaker Autopilot. Vous devez la nommer, fournir des emplacements pour les données d'entrée et de sortie et spécifier les données cible à prédire. Le cas échéant, vous pouvez également spécifier le type de problème de machine learning que vous souhaitez résoudre.

  1. Ouvrez Amazon SageMaker Studio et connectez-vous. Si vous avez besoin d'informations sur le lancement de Studio, consultez Utilisation du lanceur Amazon SageMaker Studio.

  2. Choisissez l'option New Autopilot experiment (Nouvelle expérience Autopilot) dans la case Build model automatically (Créer un modèle automatiquement).

    
          Lancez la page New Amazon SageMaker Autopilot experiment (Nouvelle expérience Amazon SageMaker Autopilot).
  3. Saisissez des informations sur l'expérience dans la section Basic settings (Paramètres de base) de la page Create an Autopilot experiment (Créer une expérience Autopilot) :

    • Experiment name (Nom de l'expérience) : il doit être unique à votre compte dans la région AWS actuelle et contenir un maximum de 63 caractères alphanumériques. Peut inclure des traits d'union (-), mais pas des espaces.

      
              Spécifiez le nom de l'expérience.
    • Connect your data (Connectez vos données) : indiquez le nom du compartiment S3 et le nom du fichier du jeu de données contenant vos données d'entrée.

      
              Champs S3 bucket name (Nom du compartiment S3) et Dataset file name (Nom de fichier du jeu de données) de la section Connect your data (Connectez vos données) de la page Autopilot experiment (Expérience Autopilot).
      Note

      Il doit s'agir d'une URL au format s3:// où Amazon SageMaker dispose d'autorisations d'écriture. Le compartiment S3 doit se trouver dans la région AWS actuelle, il doit être au format CSV ou parquet et contenir au moins 500 lignes.

      • S3 bucket name (Nom du compartiment S3) : le nom du compartiment doit être unique parmi tous les noms de compartiments existants dans Amazon S3.

      • S3 object key prefix (Préfixe de clé d'objet S3) : le nom de fichier de l'objet dans le compartiment, notamment le chemin d'accès à l'objet à l'intérieur du compartiment.

      • Emplacement du compartiment S3 : la concaténation du nom du compartiment S3 et du préfixe de clé d'objet S3.

    • Votre entrée S3 est-elle un fichier manifeste ? - Un fichier manifeste inclut des métadonnées avec vos données d'entrée. Les métadonnées spécifient l'emplacement de vos données dans le stockage Amazon S3, le type de formatage des données et les attributs du jeu de données à utiliser pour entraîner votre modèle. Vous pouvez utiliser un fichier manifeste comme alternative au prétraitement lorsque vos données étiquetées sont en cours de diffusion en mode Pipe.

      
              Basculez pour indiquez si les données d'entrée S3 se trouvent dans un fichier manifeste.
    • Target (Cible) : le nom de la colonne de données que le modèle doit cibler pour les prédictions.

      
              Champ Target (Cible) pour spécifier le nom de la variable cible à prédire.
    • Output data location (S3 bucket) (Emplacement des données de sortie (compartiment S3) : le compartiment S3 et le répertoire où vous voulez stocker les données de sortie.

      
              Spécifiez l'emplacement des données de sortie.
      Note

      Il doit s'agir d'une URL au format s3:// où Amazon SageMaker dispose d'autorisations d'écriture. Le compartiment S3 doit se trouver dans la région AWS actuelle.

      • Nom du compartiment S3 : le nom du compartiment doit être unique parmi tous les noms de compartiments existants dans S3.

      • S3 object key prefix (Préfixe de clé d'objet S3) : le nom de fichier de l'objet dans le compartiment, notamment le chemin d'accès à l'objet à l'intérieur du compartiment.

      • Emplacement du compartiment S3 : la concaténation du nom du compartiment S3 et du préfixe de clé d'objet S3.

  4. Advanced settings – Optional (Paramètres avancés - Facultatif) : Autopilot fournit des commandes supplémentaires qui vous permettent de définir manuellement des paramètres expérimentaux.

    • Machine learning problem type (Type de problème de machine learning) : Autopilot peut automatiquement sélectionner le type de problème de machine learning. Si vous préférez le spécifier manuellement, utilisez le menu déroulant Select the machine learning type (Sélectionner le type de problème de machine learning).

      
              Spécifiez le type de problème de machine learning.
      • Auto : Autopilot infère le type de problème à partir des valeurs de l'attribut que vous voulez prédire. Dans certains cas, SageMaker ne peut pas inférer de manière précise. Lorsque cela se produit, vous devez fournir la valeur pour que la tâche réussisse.

      • Binary classification (Classification binaire) : un type d'apprentissage supervisé qui affecte une personne à l'une des deux classes prédéfinies et mutuellement exclusives en fonction de leurs attributs. Par exemple, un diagnostic médical basé sur les résultats de tests diagnostiques qui déterminent si une personne est atteinte d'une maladie.

      • Regression (Régression) : l'estimation des valeurs d'une variable cible dépendante en fonction d'une ou plusieurs variables ou attributs qui lui sont corrélés. Par exemple, les prix des maisons en fonction de caractéristiques, telles que la superficie en pieds carrés et le nombre de salles de bains.

      • Multiclass classification (Classification multiclasse) : un type d'apprentissage supervisé qui attribue une personne à l'une de plusieurs classes en fonction de leurs attributs. Par exemple, la prédiction de la rubrique la plus pertinente d'un document texte, comme la stratégie, la finance ou la philosophie.

    • Choose how to run your experiment (Choisissez comment exécuter votre expérience) : vous pouvez spécifier comment exécuter votre expérience.

      
              Déroulez la liste pour choisir s'il faut exécuter une expérience complète ou un pilote.

      Si vous choisissez Yes (Oui), Autopilot génère un modèle et des statistiques que vous pouvez afficher en temps réel pendant l'exécution de l'expérience. Une fois l'expérience terminée, vous pouvez afficher les essais, les trier par métrique d'objectif et déployer le modèle à utiliser dans d'autres environnements.

      Si vous choisissez No (Non), au lieu d'exécuter le flux dans son intégralité, Autopilot arrête l'exécution après avoir généré un bloc-notes avec des définitions de candidats. Un candidat est une combinaison de préprocesseurs de données, d'algorithmes et de paramètres d'algorithme. Vous pouvez utiliser le bloc-notes comme point de départ de votre propre processus de réglage/entraînement du modèle. Dans le bloc-notes, des sections en surbrillance expliquent quels changement sont typiques, comme le changement du type d'instance et de la taille du cluster.

    • Avec des paramètres avancés supplémentaires, vous pouvez spécifier des contraintes d'exécution et le rôle IAM à utiliser pour l'accès. Vous pouvez également spécifier des clés de chiffrement et indiquer s'il faut utiliser des clouds privés virtuels (VPC) pour la sécurité, les étiquettes de projet et les balises.

      
              Spécifiez des paramètres avancés supplémentaires.

      Les informations relatives à chacun de ces paramètres avancés sont fournies dans les infobulles.

    • Pour déployer automatiquement le meilleur modèle, d'une expérience Autopilot vers un point de terminaison, vous devez accepter la valeur par défaut Auto deploy (Déploiement automatique) à Activé lors de la création de l'expérience.

      
              Sélectionnez Auto deploy value set to on, which is the default value. (Valeur de déploiement automatique définie sur activée, qui est la valeur par défaut).
      Note

      Le déploiement automatique échoue si le quota de ressources par défaut, ou votre quota client pour les instances de point de terminaison dans une région, est trop limité. Actuellement, vous devez avoir au moins deux instances ml.m5.2xlarge. La région eu-nord-1 (Stockholm) ne répond pas à cette exigence. Les types d'instance pris en charge pour cette région sont répertoriés dans SageMaker Instance Types in EU (Stockholm) eu-north-1 (Types d'instance SageMaker dans UE (Stockholm) eu-nord-1). Si vous rencontrez ce problème, vous pouvez demander à augmenter la service limit (limite de service) des instances de point de terminaison SageMaker en suivant la procédure dans Régions et quotas pris en charge. Dans le panneau Case details (Détails du cas), sélectionnez SageMaker Endpoints (Points de terminaison SageMaker) comme Limit type (Type de limite). Pour Request1 (Demande1), sélectionnez :

      • Region (Région) :UE (Stockholm)

      • Resource Type (Type de ressource) :SageMaker Hosting (Hébergement SageMaker)

      • Limit (Limite) :ml.m5.2xlarge (au moins)

      • New limit value (Nouvelle valeur limite) : 2

  5. Sélectionnez Create experiment (Créer une expérience). Autopilot fournit l'état d'avancement de l'expérience.

    
          Statut de la création de l'expérience Amazon SageMaker Autopilot.
Note

Pour éviter des frais inutiles : si vous déployez un modèle qui n'est plus nécessaire, supprimez les points de terminaison et les ressources créées pendant ce déploiement. Pour obtenir des informations à propos de la tarification des instances par région, consultez Amazon SageMaker Pricing (Tarification Amazon SageMaker).