Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Personnalisez les hyperparamètres de votre cas d'utilisation et de vos données afin d'obtenir la meilleure efficacité de mise à l'échelle. Dans la discussion qui suit, nous mettons en évidence certaines des variables de formation les plus importantes et fournissons des références aux state-of-the-art implémentations afin que vous puissiez en savoir plus sur les options qui s'offrent à vous. En outre, nous vous recommandons de consulter la documentation d'entraînement distribué de votre cadre préféré.
Taille de lot
SageMaker Les boîtes à outils distribuées par IA vous permettent généralement de vous entraîner sur des lots plus importants. Par exemple, si un modèle tient dans un seul périphérique mais ne peut être entraîné qu'avec un lot de petite taille, un entraînement pour le parallélisme des modèles ou des données vous permet d'expérimenter des lots de plus grande taille.
N'oubliez pas que la taille du lot influe directement sur la précision du modèle en contrôlant la quantité de bruit dans la mise à jour du modèle à chaque itération. L'augmentation de la taille du lot réduit la quantité de bruit dans l'estimation du gradient, ce qui peut être avantageux en cas d'augmentation à partir de lots de très petite taille, mais peut entraîner une dégradation de la précision du modèle à mesure que la taille du lot augmente pour atteindre des valeurs élevées.
Astuce
Ajustez vos hyperparamètres pour vous assurer que l'entraînement de votre modèle tend vers une convergence satisfaisante à mesure que la taille du lot augmente.
Certaines techniques ont été développées afin d'assurer une bonne convergence des modèles lorsque la taille du lot augmente.
Taille du mini-lot
Dans l'approche SGD, la taille du mini-lot quantifie la quantité de bruit présente dans l'estimation du gradient. Un mini-lot de petite taille produit un gradient de mini-lot très bruyant, ce qui n'est pas représentatif du gradient réel sur le jeu de données. Un mini-lot de grande taille produit un gradient de mini-lot proche du gradient réel sur le jeu de données et potentiellement pas assez bruyant, de sorte qu'il risque de rester verrouillé dans des minima non pertinents.
Pour en savoir plus sur ces techniques, consultez les articles suivants :
-
SGD en mini-lots précis et de grande taille : entraînement ImageNet en 1 heure, Goya
et al. -
DDL PowerAI
, Cho et autres. -
ImageNet Entraînement en quelques minutes
, You et coll. -
Entraînement en lots grand format de réseaux convolutionnaires
, Vous et autres. -
Optimisation en lots grand format pour Deep Learning : entraînement BERT en 76 minutes
, Vous et autres. -
Optimisation accélérée en lots grand format pour pré-entraînement BERT en 54 minutes
, Zheng et autres. -
Compression du gradient profond
, Lin et autres.