Fonctionnement de la classification d'images - Amazon SageMaker

Fonctionnement de la classification d'images

L'algorithme de classification d'images prend une image en entrée et la classe dans une des catégories de sortie. Le deep learning a révolutionné le domaine de la classification d'images et a obtenu des performances élevées. Divers réseaux de deep learning tels que ResNet [1], DenseNet, inception, etc. ont été développés afin d'apporter une grande précision dans la classification d'images. Dans le même temps, des efforts ont été faits pour collecter des données d'image étiquetées, essentielles à l'entraînement de ces réseaux. ImageNet[2] est un exemple de ces ensembles de données, et compte plus de 11 millions d'images et environ 11 000 catégories. Une fois qu'un réseau est entraîné avec des données ImageNet, il peut être utilisé pour une généralisation avec d'autres ensembles de données au moyen d'un simple réajustement ou réglage. Selon cette approche d'apprentissage par transfert, un réseau est initialisé avec des pondérations (dans cet exemple, entraînement sur ImageNet) qui peuvent être optimisées ultérieurement pour une tâche de classification d'images dans un autre ensemble de données.

La classification d'images dans Amazon SageMaker peut être exécutée dans deux modes : l'entraînement complet et l'entraînement par transfert. En mode d'entraînement complet, le réseau est initialisé avec des pondérations aléatoires et entraîné intégralement sur des données utilisateur. En mode de formation de transfert, le réseau est initialisé avec des pondérations préentraînées, seule la couche supérieure entièrement gérée étant initialisée avec des pondérations aléatoires. Ensuite, l'ensemble du réseau est affiné avec de nouvelles données. Dans ce mode, l'entraînement peut être réalisé même avec un ensemble de données plus petit. Cela est dû au fait que le réseau est déjà entraîné et, par conséquent, peut être utilisé dans des cas où les données d'entraînement ne sont pas suffisantes.