Support du modèle pour le réglage précis et le maintien du format des données avant l'entraînement Préparez des ensembles de données de formation et de validation pour votre modèle personnalisé

Préparation des jeux de données

Avant de commencer une tâche de personnalisation d'un modèle, vous devez au minimum préparer un jeu de données d'apprentissage. La prise en charge d'un ensemble de données de validation et le format de votre ensemble de données d'entraînement et de validation dépendent des facteurs suivants.

Type de tâche de personnalisation (réglage précis ou formation préalable continue).
Les modalités d'entrée et de sortie des données.

Support du modèle pour le réglage précis et le maintien du format des données avant l'entraînement

Le tableau suivant indique en détail le format de données de réglage fin et de pré-entraînement continu pris en charge pour chaque modèle respectif :

Nom du modèle	Réglage précis : T ext-to-text	Réglage précis : T ext-to-image & I mage-to-embeddings	Pré-formation continue : ext-to-text	Réglage précis : messagerie en un tour	Réglage précis : messagerie multitour
Amazon Titan Text G1 - Express	Oui	Non	Oui	Non	Non
Amazon Titan Text G1 - Lite	Oui	Non	Oui	Non	Non
Amazon Titan Text Premier	Oui	Non	Non	Non	Non
Amazon Titan Image Generator G1	Oui	Oui	Non	Non	Non
Amazon Titan Multimodal Embeddings G1 G1	Oui	Oui	Non	Non	Non
Anthropic Claude 3 Haiku	Non	Non	Non	Oui	Oui
Cohere Command	Oui	Non	Non	Non	Non
Cohere Command Light	Oui	Non	Non	Non	Non
MetaLlama 213 B	Oui	Non	Non	Non	Non
MetaLlama 270 B	Oui	Non	Non	Non	Non

Pour connaître les quotas par défaut qui s'appliquent aux ensembles de données d'entraînement et de validation utilisés pour personnaliser différents modèles, consultez. Quotas de personnalisation des modèles

Préparez des ensembles de données de formation et de validation pour votre modèle personnalisé

Sélectionnez l'onglet correspondant à votre cas d'utilisation

Fine-tuning: Text-to-text

Pour affiner un text-to-text modèle, préparez un ensemble de données d'entraînement et de validation facultatif en créant un fichier JSONL avec plusieurs lignes JSON. Chaque ligne JSON est un exemple contenant à la fois un completion champ prompt et. Utilisez six caractères par jeton comme approximation du nombre de jetons. Le format est le suivant :


{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}

Voici un exemple d'élément pour une tâche de question-réponse :


{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Fine-tuning: Text-to-image & Image-to-embeddings

Pour affiner un image-to-embedding modèle text-to-image OR, préparez un jeu de données d'entraînement en créant un fichier JSONL avec plusieurs lignes JSON. Les ensembles de données de validation ne sont pas pris en charge. Chaque ligne JSON est un échantillon contenant un élément image-ref, l’URI Amazon S3 d’une image et un élément caption qui peut être une invite pour cette image.

Les images doivent être au format JPEG ou PNG.


{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Voici un exemple d’élément :


{"image-ref": "s3://my-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Pour autoriser Amazon Bedrock à accéder aux fichiers image, ajoutez une politique IAM similaire Autorisations d'accès aux fichiers de formation et de validation et d'écriture de fichiers de sortie dans S3 à celle du rôle de service de personnalisation des modèles Amazon Bedrock que vous avez configuré ou qui a été automatiquement configuré pour vous dans la console. Les chemins Amazon S3 que vous fournissez dans le jeu de données d’entraînement doivent se trouver dans des dossiers que vous spécifiez dans la politique.

Continued Pre-training: Text-to-text

Pour effectuer une pré-formation continue sur un text-to-text modèle, préparez un ensemble de données d'entraînement et de validation facultatif en créant un fichier JSONL avec plusieurs lignes JSON. Comme le pré-entraînement continu implique des données non étiquetées, chaque ligne JSON est un échantillon contenant uniquement un input champ. Utilisez six caractères par jeton comme approximation du nombre de jetons. Le format est le suivant :


{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}

Voici un exemple d’élément qui pourrait figurer dans les données d’entraînement.


{"input": "AWS stands for Amazon Web Services"}

Fine-tuning: Single-turn messaging

Pour affiner un text-to-text modèle à l'aide du format de messagerie à tour unique, préparez un ensemble de données de formation et de validation facultatif en créant un fichier JSON avec plusieurs lignes JSON. Les deux fichiers de données doivent être au format JSONL. Chaque ligne indique un échantillon de données complet au format json ; et chaque échantillon de données doit être formaté sur une ligne (supprimez tous les «\n» contenus dans chaque échantillon). Une ligne contenant plusieurs échantillons de données ou le fractionnement d'un échantillon de données sur plusieurs lignes ne fonctionnera pas.

Champs

system(facultatif) : chaîne contenant un message système qui définit le contexte de la conversation.
messages: un tableau d'objets de message contenant chacun :
- role: L'un user ou l'autre assistant
- content: Le contenu textuel du message

Règles

Le messages tableau doit contenir 2 messages
Le premier message doit contenir un nom role de l'utilisateur
Le dernier message doit contenir un message role de l'assistant


{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Exemple


{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

Fine-tuning: Multi-turn messaging

Pour affiner un text-to-text modèle à l'aide du format de messagerie multitour, préparez un ensemble de données de formation et de validation facultatif en créant un fichier JSONL avec plusieurs lignes JSON. Les deux fichiers de données doivent être au format JSONL. Chaque ligne indique un échantillon de données complet au format json ; et chaque échantillon de données doit être formaté sur une ligne (supprimez tous les «\n» contenus dans chaque échantillon). Une ligne contenant plusieurs échantillons de données ou le fractionnement d'un échantillon de données sur plusieurs lignes ne fonctionnera pas.

Champs

system(facultatif) : chaîne contenant un message système qui définit le contexte de la conversation.
messages: un tableau d'objets de message contenant chacun :
- role: L'un user ou l'autre assistant
- content: Le contenu textuel du message

Règles

Le messages tableau doit contenir 2 messages
Le premier message doit contenir un nom role de l'utilisateur
Le dernier message doit contenir un message role de l'assistant
Les messages doivent alterner entre user et assistant rôles.


{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Exemple


{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Prérequis

(Facultatif) Configurer un VPC