Modèles linguistiques étendus pris en charge pour un réglage précis

À l'aide de l'API Autopilot, les utilisateurs peuvent affiner les grands modèles de langage (LLMs) développés par Amazon. SageMaker JumpStart

Note

Pour affiner les modèles qui nécessitent l'acceptation d'un contrat de licence utilisateur final, vous devez explicitement déclarer votre acceptation du CLUF lors de la création de votre tâche AutoML. Notez qu'après avoir affiné un modèle préentraîné, les poids du modèle d'origine sont modifiés. Vous n'avez donc pas besoin d'accepter ultérieurement un EULA lors du déploiement du modèle affiné.

Pour plus d'informations sur la manière d'accepter le CLUF lors de la création d'une tâche de réglage fin à l'aide de l'API AutoML, consultez. Comment définir l'acceptation du CLUF lors de la mise au point d'un modèle à l'aide de l'API AutoML

Vous pouvez trouver tous les détails de chaque modèle en recherchant votre numéro de JumpStart modèle dans le tableau des modèles suivant, puis en suivant le lien dans la colonne Source. Ces détails peuvent inclure les langages pris en charge par le modèle, les biais qu'il peut présenter, les ensembles de données utilisés pour le peaufinage, etc.

Le tableau suivant répertorie les JumpStart modèles pris en charge que vous pouvez affiner à l'aide d'une tâche AutoML.

JumpStart ID du modèle	`BaseModelName`dans une demande d'API	Description
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	Dolly 3B est un modèle de langage large de 2,8 milliards de paramètres basé sur pythia-2.8b qui suit des instructions de 2,8 milliards de paramètres. Il est formé à l'utilisation du jeu de données de réglage précis des instructions/réponses databricks-dolly-15k et peut effectuer des tâches telles que le brainstorming, la classification, les questions et réponses, la génération de texte, l'extraction d'informations et le résumé.
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	Dolly 7B est un modèle de langage large de 6,9 milliards de paramètres basé sur pythia-6.9b, qui suit des instructions de 6,9 milliards de paramètres. Il est formé à l'utilisation du jeu de données de réglage précis des instructions/réponses databricks-dolly-15k et peut effectuer des tâches telles que le brainstorming, la classification, les questions et réponses, la génération de texte, l'extraction d'informations et le résumé.
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	Dolly 12B est un grand modèle de langage basé sur Pythia-12b qui suit 12 milliards de paramètres et suit des instructions. Il est formé à l'utilisation du jeu de données de réglage précis des instructions/réponses databricks-dolly-15k et peut effectuer des tâches telles que le brainstorming, la classification, les questions et réponses, la génération de texte, l'extraction d'informations et le résumé.
huggingface-llm-falcon-7b-bf16	`Falcon7B`	Falcon7B est un grand modèle de langage basé sur 7 milliards de paramètres basé sur 1 500 milliards de jetons améliorés par des corpus sélectionnés. Falcon-7B est formé uniquement à partir de données en anglais et en français et ne généralise pas de manière appropriée aux autres langues. Comme le modèle a été conçu à partir de grandes quantités de données Web, il reprend les stéréotypes et les préjugés courants en ligne.
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	Falcon7B Instruct est un grand modèle de langage causal à 7 milliards de paramètres construit sur Falcon7B et affiné sur un mélange de 250 millions de jetons d'ensembles de données de chat/instruction. Le Falcon7B Instruct est principalement formé à partir de données en anglais et ne généralise pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus représentatifs du Web à grande échelle, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.
huggingface-llm-falcon-40b-bf16	`Falcon40B`	Le Falcon40B est un grand modèle de langage causal de 40 milliards de paramètres basé sur 1 000 milliards de jetons améliorés par des corpus sélectionnés. Il est formé principalement en anglais, allemand, espagnol et français, avec des capacités limitées en italien, portugais, polonais, néerlandais, roumain, tchèque et suédois. Il ne se généralise pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus représentatifs du Web à grande échelle, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	Falcon40B Instruct est un grand modèle de langage causal à 40 milliards de paramètres construit sur Falcon40B et affiné sur un mélange de Baize. Il est principalement formé à partir de données en anglais et en français et ne se généralise pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus représentatifs du Web à grande échelle, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.
huggingface-text2text-flan-t5-large	`FlanT5L`	La Flan-T5Une famille de modèles est un ensemble de grands modèles linguistiques qui sont affinés pour de multiples tâches et peuvent être perfectionnés. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthèse ou la réponse à des questions. Le Flan T5 L est un grand modèle de langage de 780 millions de paramètres entraîné sur de nombreuses langues. Vous trouverez la liste des langues prises en charge par le Flan T5 L dans les détails du modèle extraits de votre recherche par numéro de modèle dans JumpStart le tableau des modèles.
huggingface-text2text-flan-t5-xl	`FlanT5XL`	La Flan-T5Une famille de modèles est un ensemble de grands modèles linguistiques qui sont affinés pour de multiples tâches et peuvent être perfectionnés. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthèse ou la réponse à des questions. Le Flan T5 XL est un grand modèle de langage à 3 milliards de paramètres entraîné sur de nombreuses langues. Vous trouverez la liste des langues prises en charge par le Flan T5 XL dans les détails du modèle extraits de votre recherche par numéro de modèle dans JumpStart le tableau des modèles.
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	La Flan-T5Une famille de modèles est un ensemble de grands modèles linguistiques qui sont affinés pour de multiples tâches et peuvent être perfectionnés. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthèse ou la réponse à des questions. Le Flan T5 XXL est un modèle à 11 milliards de paramètres. Vous trouverez la liste des langues prises en charge par le Flan T5 XXL dans les détails du modèle extraits de votre recherche par numéro de modèle dans JumpStart le tableau des modèles.
meta-textgeneration-llama-2-7b	`Llama2-7B`	Llama 2 est une collection de modèles de texte génératifs préentraînés et affinés, dont l'échelle varie de 7 milliards à 70 milliards de paramètres. Llama2-7B est le modèle à 7 milliards de paramètres destiné à être utilisé en anglais et qui peut être adapté à diverses tâches de génération de langage naturel.
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	Llama 2 est une collection de modèles de texte génératifs préentraînés et affinés, dont l'échelle varie de 7 milliards à 70 milliards de paramètres. Llama2-7B est le modèle de chat à 7 milliards de paramètres optimisé pour les cas d'utilisation du dialogue.
meta-textgeneration-llama-2-13b	`Llama2-13B`	Llama 2 est une collection de modèles de texte génératifs préentraînés et affinés, dont l'échelle varie de 7 milliards à 70 milliards de paramètres. Llama2-13B est le modèle de 13 milliards de paramètres destiné à être utilisé en anglais et qui peut être adapté à diverses tâches de génération de langage naturel.
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	Llama 2 est une collection de modèles de texte génératifs préentraînés et affinés, dont l'échelle varie de 7 milliards à 70 milliards de paramètres. Llama2-13B est le modèle de chat à 13 milliards de paramètres optimisé pour les cas d'utilisation du dialogue.
huggingface-llm-mistral-7b	`Mistral7B`	Mistral 7B est un code de sept milliards de paramètres et un modèle de génération de texte anglais à usage général. Il peut être utilisé dans divers cas d'utilisation, notamment pour la synthèse de texte, la classification, la complétion de texte ou la complétion de code.
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	Mistral 7B Instruct est la version affinée de Mistral 7B pour les cas d'utilisation conversationnels. Il était spécialisé en utilisant divers ensembles de données de conversation accessibles au public en anglais.
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	Le MPT 7B est un grand modèle de langage de type transformateur de type décodeur avec 6,7 milliards de paramètres, pré-entraîné à partir de zéro sur 1 billion de jetons de texte et de code en anglais. Il est prêt à gérer de longues longueurs de contexte.
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	MPT 7B Instruct est un modèle d'instruction abrégée suivant des tâches. Il est construit en ajustant le MPT 7B sur un ensemble de données dérivé des ensembles de données databricks-dolly-15k et des ensembles de données Anthropic Helpful and Harmless (HH-RLHF).

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Créez une tâche de réglage précis du LLM à l'aide de l'API AutoML

Types de fichiers de jeux de données et format des données d'entrée