Hyperparamètres pour optimiser le processus d'apprentissage de vos modèles de génération de texte

Vous pouvez optimiser le processus d'apprentissage de votre modèle de base en ajustant n'importe quelle combinaison des hyperparamètres suivants. Ces paramètres sont disponibles pour tous les modèles.

Nombre d'époques : l'epochCounthyperparamètre détermine le nombre de fois que le modèle parcourt l'ensemble de données d'apprentissage dans son intégralité. Il influence la durée de l'entraînement et peut empêcher le surajustement lorsqu'il est réglé de manière appropriée. Un grand nombre d'époques peut augmenter le temps d'exécution global des tâches de réglage précis. Nous vous recommandons de définir une valeur large MaxAutoMLJobRuntimeInSeconds dans le CompletionCriteria TextGenerationJobConfig pour éviter que les tâches de réglage ne s'arrêtent prématurément.
Taille du lot : l'batchSizehyperparamètre définit le nombre d'échantillons de données utilisés lors de chaque itération d'apprentissage. Cela peut affecter la vitesse de convergence et l'utilisation de la mémoire. Lorsque la taille des lots est importante, le risque d'erreurs liées au manque de mémoire (OOM) augmente, ce qui peut se traduire par une erreur interne du serveur dans Autopilot. Pour détecter une telle erreur, consultez le groupe de /aws/sagemaker/TrainingJobs journaux des tâches de formation lancées par votre tâche de pilote automatique. Vous pouvez accéder à ces connexions CloudWatch depuis la console AWS de gestion. Choisissez Logs, puis choisissez le groupe de /aws/sagemaker/TrainingJobs journaux. Pour corriger les erreurs OOM, réduisez la taille du lot.

Nous vous recommandons de commencer par une taille de lot de 1, puis de l'augmenter progressivement jusqu'à ce qu'une erreur de mémoire insuffisante se produise. À titre de référence, 10 époques prennent généralement jusqu'à 72 heures pour être terminées.
Taux d'apprentissage : l'learningRatehyperparamètre contrôle la taille de l'étape à laquelle les paramètres d'un modèle sont mis à jour pendant l'entraînement. Il détermine la rapidité ou la lenteur avec laquelle les paramètres du modèle sont mis à jour pendant l'entraînement. Un taux d'apprentissage élevé signifie que les paramètres sont mis à jour par étapes importantes, ce qui peut accélérer la convergence, mais peut également entraîner le dépassement de la solution optimale et l'instabilité du processus d'optimisation. Un faible taux d'apprentissage signifie que les paramètres sont mis à jour par petites étapes, ce qui peut conduire à une convergence plus stable, mais au prix d'un apprentissage plus lent.
Étapes d'échauffement du taux d'apprentissage : l'learningRateWarmupStepshyperparamètre indique le nombre d'étapes d'entraînement au cours desquelles le taux d'apprentissage augmente progressivement avant d'atteindre sa valeur cible ou maximale. Cela permet au modèle de converger plus efficacement et d'éviter les problèmes tels que la divergence ou la lenteur de la convergence qui peuvent survenir avec un taux d'apprentissage initialement élevé.

Pour savoir comment ajuster les hyperparamètres pour votre expérience de réglage précis dans Autopilot et découvrir leurs valeurs possibles, voir. Comment définir des hyperparamètres pour optimiser le processus d'apprentissage d'un modèle

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Types de fichiers de jeux de données et format des données d'entrée

Métriques