Format des jeux de données et métrique d'objectif pour la classification de texte - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Format des jeux de données et métrique d'objectif pour la classification de texte

Dans cette section, nous découvrons les formats disponibles pour les jeux de données utilisés dans la classification de texte ainsi que la métrique utilisée pour évaluer la qualité prédictive des modèles candidats de machine learning. Les mesures calculées pour les candidats sont spécifiées à l'aide d'un tableau de MetricDatumtypes.

Formats des jeux de données

Autopilot prend en charge les données tabulaires sous forme de fichiers CSV ou de fichiers Parquet. Pour les données tabulaires, chaque colonne contient une ressource avec un type de données spécifique et chaque ligne contient une observation. Les propriétés de ces deux formats de fichiers diffèrent considérablement.

  • CSV (comma-separated-values) est un format de fichier basé sur des lignes qui stocke les données en texte clair lisible par l'homme. C'est un choix populaire pour l'échange de données car il est pris en charge par un large éventail d'applications.

  • Parquet est un format de fichier basé sur les colonnes dans lequel les données sont stockées et traitées plus efficacement que les formats de fichiers basés sur les lignes. Cela en fait une meilleure option pour les problèmes de big data.

Les types de données acceptés pour les colonnes incluent les types numériques, catégoriels et textuels.

Autopilot prend en charge la création de modèles de machine learning sur de grands jeux de données allant jusqu'à des centaines de Go. Pour en savoir plus sur les limites de ressources par défaut pour les ensembles de données d'entrée et sur la manière de les augmenter, consultez les quotas Amazon SageMaker Autopilot.

Métrique d'objectif

La liste suivante contient les noms des métriques qui sont actuellement disponibles pour mesurer les performances des modèles pour la classification de texte.

Accuracy

Rapport entre le nombre d'éléments correctement classés et le nombre total d'éléments classés (correctement ou non). La précision mesure à quel point les valeurs de classe prédites sont proches des valeurs réelles. Les valeurs des métriques de précision varient entre zéro (0) et un (1). La valeur 1 indique une précision parfaite et 0 indique une imprécision parfaite.