Formats des jeux de données Métrique d'objectif

Format des jeux de données et métrique d'objectif pour la classification de texte

Dans cette section, nous découvrons les formats disponibles pour les jeux de données utilisés dans la classification de texte ainsi que la métrique utilisée pour évaluer la qualité prédictive des modèles candidats de machine learning. Les métriques calculées pour les candidats sont spécifiées à l'aide d'un tableau de types MetricDatum.

Formats des jeux de données

Autopilot prend en charge les données tabulaires sous forme de fichiers CSV ou de fichiers Parquet. Pour les données tabulaires, chaque colonne contient une ressource avec un type de données spécifique et chaque ligne contient une observation. Les propriétés de ces deux formats de fichiers diffèrent considérablement.

CSV (comma-separated-values) est un format de fichier basé sur des lignes qui stocke les données en texte clair lisible par l'homme. C'est un choix populaire pour l'échange de données car il est pris en charge par un large éventail d'applications.
Parquet est un format de fichier basé sur les colonnes dans lequel les données sont stockées et traitées plus efficacement que les formats de fichiers basés sur les lignes. Cela en fait une meilleure option pour les problèmes de big data.

Les types de données acceptés pour les colonnes incluent les types numériques, catégoriels et textuels.

Le pilote automatique permet de créer des modèles d'apprentissage automatique sur de grands ensembles de données allant jusqu'à des centaines de. GBs Pour en savoir plus sur les limites de ressources par défaut pour les ensembles de données d'entrée et sur la manière de les augmenter, consultez les quotas Amazon SageMaker Autopilot.

Métrique d'objectif

La liste suivante contient les noms des métriques qui sont actuellement disponibles pour mesurer les performances des modèles pour la classification de texte.

Accuracy: Rapport entre le nombre d'éléments correctement classés et le nombre total d'éléments classés (correctement ou non). La précision mesure à quel point les valeurs de classe prédites sont proches des valeurs réelles. Les valeurs des métriques de précision varient entre zéro (0) et un (1). La valeur 1 indique une précision parfaite et 0 indique une imprécision parfaite.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Création d'une tâche de classification de texte à l'aide de l'API AutoML

Déployer des modèles de pilote automatique à des fins de prévision