Jeux de données et types de problèmes Autopilot - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Jeux de données et types de problèmes Autopilot

Pour des données tabulaires (c'est-à-dire des données dans lesquelles chaque colonne contient une fonctionnalité avec un type de données spécifique et où chaque ligne contient une observation), Autopilot vous permet de spécifier le type de problème d'apprentissage supervisé disponible pour les modèles candidats de la tâche AutoML, tel que la classification binaire ou la régression, ou de le détecter à votre place en fonction des données que vous fournissez.

Jeux de données, types de données et formats Autopilot

Autopilot prend en charge les données tabulaires sous forme de fichiers CSV ou Parquet : chaque colonne contient une fonctionnalité avec un type de données spécifique et chaque ligne contient une observation. Les propriétés de ces deux formats de fichiers diffèrent considérablement.

  • CSV (comma-separated-values) est un format de fichier basé sur des lignes qui stocke les données en texte clair lisible par l'homme. C'est un choix populaire pour l'échange de données car il est pris en charge par un large éventail d'applications.

  • Parquet est un format de fichier basé sur les colonnes dans lequel les données sont stockées et traitées plus efficacement que les formats de fichiers basés sur les lignes. Cela en fait une meilleure option pour les problèmes de big data.

Les types de données acceptés pour les colonnes incluent les types numériques, catégoriels et textuels, ainsi que les séries temporelles constituées de chaînes de nombres séparés par des virgules. Si Autopilot détecte qu'il traite des séquences de séries temporelles, il les traite par le biais de transformateurs de fonctionnalités spécialisés fournis par la bibliothèque tsfresh. Cette bibliothèque prend la série temporelle en entrée et produit une caractéristique telle que la valeur absolue la plus élevée de la série temporelle ou des statistiques descriptives sur l'autocorrélation. Ces ressources générées sont ensuite utilisées comme entrées pour l'un des trois types de problèmes.

Autopilot prend en charge la création de modèles de machine learning sur de grands jeux de données allant jusqu'à des centaines de Go. Pour plus d'informations sur les limites des ressources par défaut des jeux de données en entrée et sur la manière de les augmenter, consultez Quotas Autopilot.

Types de problèmes Autopilot

Pour les données tabulaires, vous spécifiez également le type de problèmes d'apprentissage supervisé disponible pour les modèles candidats comme suit :

Régression

La régression estime les valeurs d'une variable cible dépendante en fonction d'une ou de plusieurs autres variables ou attributs en corrélation avec elle. Exemple : la prédiction des prix des maisons à l'aide de caractéristiques telles que le nombre de salles de bains et de chambres à coucher, la superficie de la maison et du jardin. L'analyse de régression peut créer un modèle qui prend en entrée une ou plusieurs de ces fonctions et prédit le prix d'une maison.

Classification binaire

La classification binaire est un type d'apprentissage supervisé qui assigne une personne à l'une des deux classes prédéfinies et mutuellement exclusives en fonction d'attributs. Elle est supervisée parce que les modèles sont entraînés à l'aide d'exemples dans lesquels les attributs sont fournis avec des objets correctement étiquetés. Exemple de classification binaire : diagnostic de maladie basé sur les résultats des tests de diagnostic.

Classification multiclasse

La classification multiclasse est un type d'apprentissage supervisé qui assigne une personne à une classe parmi plusieurs classes prédéfinies en fonction d'attributs. Elle est supervisée parce que les modèles sont entraînés à l'aide d'exemples dans lesquels les attributs sont fournis avec des objets correctement étiquetés. Exemple : la prédiction de la rubrique la plus pertinente pour un document texte. Un document peut être classé comme portant sur la religion, la stratégie ou les finances, ou sur une classe parmi plusieurs classes de sujets prédéfinis.