Créer une expérience Amazon SageMaker Autopilot - Amazon SageMaker

Créer une expérience Amazon SageMaker Autopilot

Ce guide explique comment créer une expérience Amazon SageMaker Autopilot pour analyser les données et créer un bloc-notes avec les définitions de modèles de candidats. Cela vous aide à vous familiariser rapidement avec le machine learning.

Vous pouvez utiliser une interface utilisateur (UI) pour mieux renseigner l'entrée, la sortie, la cible et les paramètres afin d'exécuter et d'évaluer une expérience Autopilot. L'interface utilisateur contient des descriptions, des boutons à bascule, des menus déroulants, des cases d'options et bien plus encore pour vous aider à créer votre modèle. Vous pouvez également afficher des statistiques au cours de l'expérience. Une fois son exécution terminée, vous pouvez comparer les essais et explorer les détails.

Les instructions suivantes vous montrent comment créer une tâche Amazon SageMaker Autopilot comme expérience pilote. Vous devez nommer votre expérience, fournir des emplacements pour les données d'entrée et de sortie, et spécifier les données cibles à prédire. Le cas échéant, vous pouvez également spécifier le type de problème de machine learning que vous souhaitez résoudre.

Pour créer une expérience Autopilot
  1. Connectez-vous à l'adresse https://console.aws.amazon.com/sagemaker/ et sélectionnez Studio dans le panneau de navigation.

  2. Lorsque la console SageMaker Studio s'ouvre, choisissez le bouton Launch SageMaker Studio (Lancer SageMaker Studio).

  3. Ensuite, sélectionnez Launch app (Lancer l'application) sur la ligne contenant votre nom d'utilisateur et choisissez Studio dans la liste déroulante.

  4. Enfin, sélectionnez la carte centrale Build models automatically (Générer des modèles automatiquement) dans l'onglet Studio launcher (Lanceur Studio). Consultez le guide de configuration rapide pour plus d'informations sur le démarrage de Studio pour la première fois.

  5. Une page intitulée Create an Autopilot experiment (Créer une expérience Autopilot) s'ouvre. La page inclut des champs pour Experiment and data details (Détails de l'expérience et des données) tels que le nom, l'emplacement du compartiment S3, le rapport de fractionnement et la cible de l'expérience.

  6. Dans la section Experiment and data details (Détails de l'expérience et des données) de la page Create an Autopilot experiment (Créer une expérience Autopilot), entrez les informations suivantes :

    1. Experiment name (Nom de l'expérience) : il doit être unique à votre compte dans la Région AWS actuelle et contenir un maximum de 63 caractères alphanumériques. Peut inclure des traits d'union (-), mais pas d'espaces.

    2. Input data (Données d'entrée) : fournissez l'emplacement du compartiment S3 de vos données d'entrée. Ce compartiment S3 doit se trouver dans votre Région AWS actuelle. L'URL doit être dans un format s3:// où Amazon SageMaker dispose d'autorisations d'écriture. Le fichier doit être au format CSV ou parquet, et contenir au moins 500 lignes. Sélectionnez Browse pour parcourir les chemins disponibles et Preview pour voir un échantillon de vos données d'entrée.

    3. Is your S3 input a manifest file? (Votre entrée S3 est-elle un fichier manifeste ?) : un fichier manifeste inclut des métadonnées avec vos données d'entrée. Les métadonnées indiquent l'emplacement de vos données dans Amazon Simple Storage Service (Amazon S3). Elles indiquent également comment les données sont formatées et les attributs du jeu de données à utiliser pour entraîner votre modèle. Vous pouvez utiliser un fichier manifeste comme alternative au prétraitement lorsque vos données étiquetées sont en cours de diffusion en mode Pipe.

    4. Auto split data? (Fractionner automatiquement les données ?) : Autopilot peut fractionner vos données et affecter une répartition 80-20 % pour les données d'entraînement et de validation. Si vous préférez un fractionnement personnalisé, vous pouvez choisir Specify split ratio (Spécifier le rapport de fractionnement). Pour utiliser un jeu de données personnalisé pour la validation, choisissez Provide a validation set (Fournir un ensemble de validation).

    5. Output data location (S3 bucket) (Emplacement des données de sortie (compartiment S3)) : nom de l'emplacement du compartiment S3 où vous souhaitez stocker les données de sortie. L'URL de ce compartiment doit être dans un format Amazon S3 où Amazon SageMaker dispose d'autorisations d'écriture. Le compartiment S3 doit se trouver dans la Région AWS actuelle. Autopilot peut également le créer pour vous au même endroit que vos données d'entrée.

  7. Sélectionnez Next: Target and features (Suivant : Cible et fonctionnalités). L'onglet Target and features (Cible et fonctionnalités) s'ouvre.

  8. Dans la section Target and features (Cible et fonctionnalités), sélectionnez une colonne à définir comme cible pour les prédictions du modèle. Vous pouvez également sélectionner des fonctionnalités pour l'entraînement et modifier leur type de données. Les types de données suivants sont disponibles : Text, Numerical, Categorical, Datetime, Sequence et Auto. Toutes les fonctionnalités sont sélectionnées par défaut.

  9. Sélectionnez Next: Training method (Suivant : Méthode d'entraînement). L'onglet Training method (Méthode d'entraînement) s'ouvre.

  10. Dans la section Training method (Méthode d'entraînement), sélectionnez l'une des options d'entraînement suivantes : Ensembling (Assemblage), Hyperparameter optimization (HPO) (Optimisation des hyperparamètres (HPO)) ou laissez Autopilot la choisir automatiquement en fonction de la taille du jeu de données.

    Pour plus d'informations sur ces modes d'entraînement, consultez la section Autopilot training modes (Modes d'entraînement du pilote automatique) dans la page Training modes and algorithms (Modes et algorithmes d'entraînement).

  11. Sélectionnez Next: Deployment and advanced settings (Suivant : Déploiement et paramètres avancés) pour ouvrir la page Deployment and advanced settings (Déploiement et paramètres avancés). Ces paramètres incluent l'affichage automatique du nom du point de terminaison, le type de problème de machine learning et les choix d'exécution de votre expérience.

  12. Actuellement, vous devez avoir au moins deux instances ml.m5.2xlarge.

    Dans les cas suivants, le déploiement automatique échouera :

    • Le quota de ressources par défaut pour les instances de point de terminaison dans une région dépasse la limite.

    • Le quota du client pour les instances de point de terminaison dans une région dépasse la limite.

    Si vous rencontrez un échec lié aux quotas, vous pouvez demander une augmentation de la limite de service pour les instances de point de terminaison SageMaker.

  13. Deployment settings (Paramètres de déploiement) : Autopilot peut créer automatiquement un point de terminaison et déployer votre modèle pour vous.

    1. Pour déployer automatiquement sur un point de terminaison généré automatiquement ou pour fournir un nom de point de terminaison pour un déploiement personnalisé, réglez le bouton bascule sur Yes (Oui) sous Auto deploy? (Déployer automatiquement ?). Si vous importez des données depuis Amazon SageMaker Data Wrangler, vous disposez d'options supplémentaires pour déployer automatiquement le meilleur modèle avec ou sans les transformations de Data Wrangler.

      Note

      Si votre flux Data Wrangler contient des opérations sur plusieurs lignes, telles que groupby, join ou concatenate, vous ne pouvez pas effectuer de déploiement automatique avec ces transformations. Pour plus d'informations, consultez Entraînement automatique des modèles sur votre flux de données.

    2. Advanced settings (optional) (Paramètres avancés (facultatif)) : Autopilot fournit des contrôles supplémentaires pour définir manuellement les paramètres d'expérience.

      1. Machine learning problem type (Type de problème de machine learning) : Autopilot peut sélectionner automatiquement le type de problème de machine learning. Si vous préférez le choisir manuellement, utilisez le menu déroulant Select the machine learning problem type (Sélectionner le type de problème de machine learning).

        1. Auto (Automatique) : Autopilot déduit le type de problème à partir des valeurs de l'attribut que vous voulez prédire. Dans certains cas, SageMaker ne peut pas inférer de manière précise. Lorsque cela se produit, vous devez fournir la valeur pour que la tâche réussisse.

        2. Binary classification (Classification binaire) : type d'apprentissage supervisé qui attribue une personne à l'une des deux classes prédéfinies et mutuellement exclusives en fonction de leurs attributs. Par exemple, un diagnostic médical basé sur les résultats de tests diagnostiques qui déterminent si une personne est atteinte d'une maladie.

        3. Regression (Régression) : estimation des valeurs d'une variable cible dépendante en fonction d'une ou plusieurs variables ou d'un ou plusieurs attributs qui lui sont corrélés. Par exemple, les prix des maisons en fonction de caractéristiques, telles que la superficie en pieds carrés et le nombre de salles de bains.

        4. Multiclass classification (Classification multi-classes) : type d'apprentissage supervisé qui attribue une personne à une classe parmi plusieurs en fonction de leurs attributs. Par exemple, la prédiction de la rubrique la plus pertinente d'un document texte, comme la stratégie, la finance ou la philosophie.

      2. Sélectionnez Next: Review and create (Suivant : Vérification et création) pour obtenir un résumé de votre expérience Autopilot avant sa création.

  14. Sélectionnez Create experiment (Créer une expérience). Autopilot fournit l'état du déroulement de l'expérience, la liste des modèles générés et le profil de tâche utilisé pour les créer.

Note

Pour éviter des frais inutiles : si vous déployez un modèle qui n'est plus nécessaire, supprimez les points de terminaison et les ressources créées pendant ce déploiement. Pour obtenir des informations sur la tarification des instances par région, consultez Tarification d'Amazon SageMaker.