Ingénierie rapide pour les modèles de fondation - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Ingénierie rapide pour les modèles de fondation

L'ingénierie rapide est le processus qui consiste à concevoir et à affiner les instructions ou les stimuli d'entrée d'un modèle de langage afin de générer des types de sorties spécifiques. L'ingénierie rapide implique de sélectionner des mots-clés appropriés, de fournir du contexte et de façonner les entrées de manière à encourager le modèle à produire la réponse souhaitée. Il s'agit d'une technique essentielle pour façonner activement le comportement et le résultat des modèles de fondation.

Une ingénierie rapide et efficace est essentielle pour orienter le comportement du modèle et obtenir les réponses souhaitées. Grâce à l'ingénierie rapide, vous pouvez contrôler le ton, le style et l'expertise du domaine d'un modèle sans avoir à recourir à des mesures de personnalisation supplémentaires, telles que l'optimisation. Nous vous recommandons de consacrer du temps à l'ingénierie rapide avant d'envisager d'optimiser un modèle sur la base de données supplémentaires. L'objectif est de fournir suffisamment de contexte et de conseils au modèle afin qu'il puisse généraliser et fonctionner correctement sur des scénarios de données inconnus ou limités.

Apprentissage en zéro coup

L'apprentissage en zéro coup consiste à entraîner un modèle pour généraliser et faire des prédictions sur des classes ou des tâches inconnues. Pour effectuer une ingénierie rapide dans des environnements d'apprentissage en zéro coup, nous vous recommandons de construire des invites qui fournissent explicitement des informations sur la tâche cible et le format de sortie souhaité. Par exemple, si vous souhaitez utiliser un modèle de fondation pour la classification de texte en zéro coup sur un ensemble de classes que le modèle n'a pas vues pendant l'entraînement, une invite bien conçue ressemblerait à : "Classify the following text as either sports, politics, or entertainment: [input text]." En spécifiant explicitement les classes cibles et le format de sortie attendu, vous pouvez guider le modèle pour qu'il fasse des prédictions précises, même sur des classes inconnues.

Apprentissage en quelques coups

L'apprentissage en quelques coups consiste à entraîner un modèle avec une quantité limitée de données pour de nouvelles classes ou tâches. L'ingénierie rapide dans les environnements d'apprentissage en quelques coups se concentre sur la conception d'instructions qui utilisent efficacement la quantité limitée de données d'entraînement disponibles. Par exemple, si vous utilisez un modèle de fondation pour une tâche de classification d'image et que vous ne disposez que de quelques exemples d'une nouvelle classe d'images, vous pouvez créer une invite qui inclut les exemples étiquetés disponibles avec un espace réservé pour la classe cible. L'invite ressemblerait à : "[image 1], [image 2], and [image 3] are examples of [target class]. Classify the following image as [target class]". En incorporant les quelques exemples étiquetés et en spécifiant explicitement la classe cible, vous pouvez guider le modèle pour qu'il généralise et fasse des prédictions précises, même avec une quantité minimale de données d'entraînement.

Paramètres d'inférence pris en charge

La modification des paramètres d'inférence peut également affecter les réponses à vos demandes. Vous pouvez essayer d'ajouter autant de spécificité et de contexte que possible à vos instructions, mais vous pouvez également tester les paramètres d'inférence pris en charge. Voici des exemples de paramètres d'inférence couramment pris en charge :

Paramètre d'inférence Description

max_new_tokens

Longueur de sortie maximale d'une réponse du modèle de base. Valeurs valides : nombre entier, plage : nombre entier positif.

temperature

Contrôle le caractère aléatoire de la sortie. Une température plus élevée entraîne une séquence de sortie avec des mots à faible probabilité et une température plus basse entraîne une séquence de sortie avec des mots à forte probabilité. Sitemperature=0, la réponse est composée uniquement des mots les plus probables (décodage gourmand). Valeurs valides : valeur à virgule flottante, plage : valeur à virgule flottante positive.

top_p

À chaque étape de génération de texte, le modèle échantillonne à partir du plus petit ensemble de mots possible avec une probabilité cumulée detop_p. Valeurs valides : float, plage : 0.0, 1.0.

return_full_text

SiTrue, alors le texte d'entrée fait partie du texte de sortie généré. Valeurs valides : booléen, valeur par défaut : False.

Pour plus d'informations sur l'inférence du modèle de base, consultezDéployez des modèles de base accessibles au public avec la JumpStartModel classe.

Si l'ingénierie rapide ne suffit pas à adapter votre modèle de fondation à des besoins professionnels spécifiques, à un langage spécifique à un domaine, à des tâches cibles ou à d'autres exigences, vous pouvez envisager d'optimiser votre modèle en fonction de données supplémentaires ou d'utiliser la génération augmentée de récupération (RAG) pour enrichir l'architecture de votre modèle avec un contexte amélioré issu de sources de connaissances archivées. Pour plus d’informations, consultez Optimisation d'un modèle de fondation ou Génération augmentée de récupération.