Créer une expérience Amazon SageMaker Autopilot - Amazon SageMaker

Créer une expérience Amazon SageMaker Autopilot

Pour créer une expérience Amazon SageMaker Autopilot, vous devez la nommer, fournir des emplacements pour les données d'entrée et de sortie, spécifier les données cible à prédire et éventuellement le type de problème de machine learning à résoudre. Lorsque vous créez une expérience pilote sous forme de tâche Amazon SageMaker Autopilot, SageMaker analyse vos données et crée un bloc-notes avec les définitions de modèles de candidats. Si vous choisissez d'exécuter l'expérience complète, SageMaker entraîne et règle également ces modèles en votre nom. Vous pouvez afficher des statistiques pendant l'exécution de l'expérience. Ensuite, vous pouvez comparer les essais et explorer les détails.

  1. Ouvrez Amazon SageMaker Studio et connectez-vous.

  2. Choisissez l'option Create Autopilot experiment (Créer une expérience Autopilot) dans la case Build model automatically (Créer un modèle automatiquement).

    
          Lancez la page Create Amazon SageMaker Autopilot experiment (Créer une expérience Amazon SageMaker Autopilot).
  3. Saisissez des informations sur l'expérience dans le formulaire Paramètres de la tâche :

    • Nom de l'expérience : il doit être unique à votre compte dans la région AWS actuelle et contenir un maximum de 63 caractères alphanumériques. Peut inclure des traits d'union (-), mais pas des espaces.

      
              Spécifiez le nom de l'expérience.
    • Emplacement des données d'entrée (compartiment S3) : le compartiment S3 qui contient vos données d'entrée.

      
              Spécifiez l'emplacement des données d'entrée.
      Note

      Il doit s'agir d'une URL au format s3:// où Amazon SageMaker dispose d'autorisations d'écriture. Le compartiment S3 doit se trouver dans la région AWSactuelle, il doit être au format CSV et contenir au moins 500 lignes.

      • Nom du compartiment S3 : le nom du compartiment doit être unique parmi tous les noms de compartiments existants dans S3.

      • Préfixe de clé d'objet S3 : le nom de fichier de l'objet dans le compartiment, notamment le chemin d'accès à l'objet à l'intérieur du compartiment.

      • Emplacement du compartiment S3 : la concaténation du nom du compartiment S3 et du préfixe de clé d'objet S3.

    • Votre entrée S3 est-elle un fichier manifeste ? - Un fichier manifeste inclut des métadonnées avec vos données d'entrée. Les métadonnées spécifient l'emplacement de vos données dans le stockage Amazon S3, le type de formatage des données et les attributs du jeu de données à utiliser pour entraîner votre modèle. Vous pouvez utiliser un fichier manifeste comme alternative au prétraitement lorsque des données étiquetées sont en cours de diffusion en mode Pipe.

      
              Indiquez si les données d'entrée S3 se trouvent dans un fichier manifeste.
    • Nom d'attribut cible : le nom de la colonne de données que le modèle doit cibler pour les prédictions.

      
              Spécifiez le nom de la variable cible à prédire.
    • Emplacement des données de sortie (compartiment S3) ; le compartiment S3 où vous voulez stocker les données de sortie.

      
              Spécifiez l'emplacement des données de sortie.
      Note

      Il doit s'agir d'une URL au format s3:// où Amazon SageMaker dispose d'autorisations d'écriture. Le compartiment S3 doit se trouver dans la région AWS actuelle.

      • Nom du compartiment S3 : le nom du compartiment doit être unique parmi tous les noms de compartiments existants dans S3.

      • Préfixe de clé d'objet S3 : le nom de fichier de l'objet dans le compartiment, notamment le chemin d'accès à l'objet à l'intérieur du compartiment.

      • Emplacement du compartiment S3 : la concaténation du nom du compartiment S3 et du préfixe de clé d'objet S3.

    • Sélectionnez le type de problème de machine learning :

      
              Spécifiez le type de problème de machine learning.
      • Auto : SageMaker infère le type de problème à partir des valeurs de l'attribut que vous voulez prédire. Dans certains cas, lorsque l’inférence de SageMaker manque de précision, vous devez fournir cette valeur pour que la tâche réussisse.

      • Classification binaire : un type d'apprentissage supervisé qui assigne une personne à l'une des deux classes prédéfinies et mutuellement exclusives en fonction de leurs attributs. Par exemple, un diagnostic de maladie basé sur les résultats des tests de diagnostic.

      • Régression : l'estimation des valeurs d'une variable cible dépendante en fonction d'une ou plusieurs autres variables ou attributs qui lui sont corrélés. Par exemple, les prix des maisons en fonction de caractéristiques telles que la superficie en pieds carrés et le nombre de salles de bains.

      • Classification multiclasse : un type d'apprentissage supervisé qui assigne une personne à l'une de plusieurs classes en fonction de leurs attributs. Par exemple, la prédiction de la rubrique la plus pertinente d'un document texte, comme la stratégie, la finance ou la philosophie.

    • Souhaitez-vous exécuter une expérience complète ?

      
              Spécifiez si l'expérience doit s'exécuter jusqu'à son terme ou si elle doit servir de pilote.

      Si vous choisissez Oui, SageMaker génère un modèle, ainsi que des statistiques que vous pouvez afficher en temps réel pendant l'exécution de l'expérience. Une fois l'expérience terminée, vous pouvez afficher les essais, les trier par métrique d'objectif et effectuer un clic droit pour déployer le modèle à utiliser dans d'autres environnements.

      Si vous choisissez Non, au lieu d'exécuter le flux dans son intégralité, SageMaker arrête l'exécution après avoir généré un bloc-notes avec des définitions de candidats. Un candidat est une combinaison de préprocesseurs de données, d'algorithmes et de paramètres d'algorithme. Vous pouvez utiliser le bloc-notes comme point de départ de votre propre processus de réglage/entraînement du modèle. Dans le bloc-notes, des sections en surbrillance expliquent les types de changement typiques, comme le changement du type d'instance, de la taille du cluster, etc.

  4. Pour déployer automatiquement le meilleur modèle, d'une expérience Autopilot vers un point de terminaison, vous devez accepter la valeur par défaut Auto deploy (Déploiement automatique) à Activé lors de la création de l'expérience.

    
          Sélectionnez Decide to use automatic deployment (Décider d'utiliser le déploiement automatique)..

    Choisissez Create Experiment (Créer une expérience).

    Note

    Le déploiement automatique échoue si le quota de ressources par défaut ou votre quota client pour les instances de point de terminaison dans une région est trop limité. Actuellement, vous devez avoir au moins deux instances ml.m5.2xlarge. La région eu-nord-1 (Stockholm) ne répond pas à cette exigence, par exemple. Les types d'instance pris en charge pour cette région sont répertoriés dans SageMaker Instance Types in EU (Stockholm) eu-north-1 (Types d'instance SageMaker dans UE (Stockholm) eu-nord-1. Si vous rencontrez ce problème, vous pouvez demander à augmenter la limite de service des instances de points de terminaison SageMaker en suivant la procédure dans Régions et quotas pris en charge. Dans le panneau Case details (Détails du cas), sélectionnez SageMaker Endpoints (Points de terminaison SageMaker) comme Limit type (Type de limite). Pour Request1 (Demande1), sélectionnez :

    • Region (Région) :UE (Stockholm)

    • Resource Type (Type de ressource) :SageMaker Hosting (Hébergement SageMaker)

    • Limit (Limite) :ml.m5.2xlarge (au moins)

    • New limit value (Nouvelle valeur limite) : 2

    Note

    Pour éviter des frais inutiles, supprimez les points de terminaison et les ressources créés lors du déploiement du modèle et qui ne sont plus nécessaires. Pour obtenir des informations sur la tarification des instances par région, veuillez consulter Amazon SageMaker Pricing (Tarification Amazon SageMaker).