Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Preparazione dei set di dati
Prima di iniziare un lavoro di personalizzazione del modello, è necessario preparare almeno un set di dati di addestramento. Il supporto di un set di dati di convalida e il formato del set di dati di formazione e convalida dipendono dai seguenti fattori.
Per visualizzare i requisiti del set di dati e dei file per diversi modelli, vedere. Quote di personalizzazione dei modelli
Seleziona la scheda pertinente al tuo caso d'uso.
- Fine-tuning: Text-to-text
-
Per mettere a punto un text-to-text modello, prepara un set di dati di formazione e convalida opzionale creando un file JSONL con più righe JSON. Ogni riga JSON è un esempio contenente sia un campo che un campo. prompt
completion
Usa 6 caratteri per token come approssimazione del numero di token. Il formato è il seguente:
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
Di seguito è riportato un elemento di esempio per un'attività di domanda-risposta:
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
Per ottimizzare un image-to-embedding modello text-to-image or, prepara un set di dati di addestramento creando un file JSONL con più righe JSON. I set di dati di convalida non sono supportati. Ogni riga JSON è un esempio contenente un image-ref
, l'URI Amazon S3 per un'immagine, e un caption
che potrebbe essere un prompt per l'immagine.
L'immagine deve essere in formato PNG o JPEG.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
Di seguito è riportato un esempio:
{"image-ref": "s3://my-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Per consentire ad Amazon Bedrock di accedere ai file di immagine, aggiungi una policy IAM simile Autorizzazioni per accedere ai file di formazione e convalida e per scrivere file di output in S3 a quella del ruolo del servizio di personalizzazione del modello Amazon Bedrock che hai impostato o che è stato impostato automaticamente per te nella console. I percorsi Amazon S3 che fornisci nel set di dati di addestramento devono trovarsi nelle cartelle specificate nella policy.
- Continued Pre-training: Text-to-text
-
Per eseguire una formazione preliminare continua su un text-to-text modello, prepara un set di dati di formazione e convalida opzionale creando un file JSONL con più righe JSON. Poiché la formazione continua prevede dati non etichettati, ogni riga JSON è un esempio contenente solo un campo. input
Usa 6 caratteri per token come approssimazione del numero di token. Il formato è il seguente:
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
Di seguito è riportato un esempio di elemento che potrebbe essere presente nei dati di addestramento.
{"input": "AWS stands for Amazon Web Services"}