Types de données et de problèmes liés à Amazon SageMaker Autopilot - Amazon SageMaker

Types de données et de problèmes liés à Amazon SageMaker Autopilot

Avec Studio ou l'API AutoML, Amazon SageMaker Autopilot vous permet de définir un type de problème, tel que la classification binaire ou la régression, ou de le détecter à votre place en fonction des données que vous fournissez. Autopilot prend en charge les données tabulaires dans lesquelles chaque colonne contient une ressource avec un type de données spécifique et chaque ligne contient une observation. Les types de données de colonnes acceptés incluent les séries numériques, catégorielles, textuelles et temporelles constituées de séquences de nombres séparés par des virgules. Si Autopilot détecte des séquences de séries temporelles, il les traite via des transformateurs de ressources spécialisés fournis par la bibliothèque tsfresh qui prend la série temporelle en tant qu'entrée et génère une ressource telle que la valeur absolue la plus élevée de la série temporelle ou des statistiques descriptives sur l'autocorrélation. Ces ressources générées sont ensuite utilisées comme entrées pour l'un des trois types de problèmes.

Vous pouvez définir le type de problème avec le paramètre CreateAutoPilot.ProblemType. Cela limite le type de prétraitement et les algorithmes essayés par Autopilot. Lorsque la tâche est terminée, si vous aviez défini l'élément CreateAutoPilot.ProblemType, l'élément ResolvedAttribute.ProblemType correspond à la valeur de l'élément ProblemType que vous avez défini. Si vous le laissez vide (ou null), ProblemType aura la valeur décidée par Autopilot pour vous.

Note

Dans certains cas, lorsque Autopilot ne peut pas inférer le ProblemType avec une fiabilité suffisante, vous devez fournir cette valeur pour que la tâche réussisse.

Vos options en matière de type de problème sont les suivantes :

Regression

La régression estime les valeurs d'une variable cible dépendante en fonction d'une ou de plusieurs autres variables ou attributs en corrélation avec elle. Exemple : la prédiction des prix des maisons à l'aide de caractéristiques telles que le nombre de salles de bains et de chambres à coucher, la superficie de la maison et du jardin. L'analyse de régression peut créer un modèle qui prend en entrée une ou plusieurs de ces fonctions et prédit le prix d'une maison.

Classification binaire

La classification binaire est un type d'apprentissage supervisé qui assigne une personne à l'une des deux classes prédéfinies et mutuellement exclusives en fonction d'attributs. Elle est supervisée parce que les modèles sont entraînés à l'aide d'exemples dans lesquels les attributs sont fournis avec des objets correctement étiquetés. Exemple de classification binaire : diagnostic de maladie basé sur les résultats des tests de diagnostic.

Classification multiclasse

La classification multiclasse est un type d'apprentissage supervisé qui assigne une personne à une classe parmi plusieurs classes prédéfinies en fonction d'attributs. Elle est supervisée parce que les modèles sont entraînés à l'aide d'exemples dans lesquels les attributs sont fournis avec des objets correctement étiquetés. Exemple : la prédiction de la rubrique la plus pertinente pour un document texte. Un document peut être classé comme portant sur la religion, la stratégie ou les finances, ou sur une classe parmi plusieurs classes de sujets prédéfinis.