Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Preparazione dei set di dati

Modalità Focus
Preparazione dei set di dati - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Prima di iniziare un lavoro di personalizzazione del modello, è necessario preparare almeno un set di dati di addestramento. Il supporto di un set di dati di convalida e il formato del set di dati di formazione e convalida dipendono dai seguenti fattori.

  • Il tipo di lavoro di personalizzazione (messa a punto o formazione preliminare continua).

  • Le modalità di input e output dei dati.

Supporto del modello per la messa a punto e il formato dei dati di pre-addestramento continuo

La tabella seguente mostra i dettagli della messa a punto e del formato di dati di pre-allenamento continuo supportato per ogni rispettivo modello:

Nome modello Ottimizzazione: ext-to-text Ottimizzazione: & Text-to-image Image-to-embeddings Ottimizzazione: testo+ e testo+video-testo Image-to-Text Formazione preliminare continua: ext-to-text Ottimizzazione: messaggistica a turno singolo Ottimizzazione: messaggistica a turni multipli
Amazon Nova Pro No
Amazon Nova Lite No
Amazon NovaMicro No No No
Amazon Titan Text G1 - Express No No No No
Amazon Titan Text G1 - Lite No No No No
Amazon Titan Text Premier No No No No No
Amazon Titan Image Generator G1 V1 No No No No
Amazon Titan Multimodal Embeddings G1 G1 No No No No
Anthropic Claude 3 Haiku No No No No
Cohere Command No No No No No
Cohere Command Light No No No No No
Meta Llama 2 13 B No No No No No
Meta Llama 2 70 B No No No No No

Per visualizzare le quote predefinite applicabili ai set di dati di formazione e convalida utilizzati per personalizzare diversi modelli, consulta la sezione Somma delle quote dei record di formazione e convalida negli endpoint Amazon Bedrock e nelle quote nel. Riferimenti generali di AWS

Prepara set di dati di formazione e convalida per il tuo modello personalizzato

Per preparare set di dati di addestramento e convalida per il modello personalizzato, create .jsonl dei file, ogni riga dei quali è un oggetto JSON corrispondente a un record. I file creati devono essere conformi al formato del metodo e del modello di personalizzazione scelti e i record in essi contenuti devono essere conformi ai requisiti di dimensione.

Il formato dipende dal metodo di personalizzazione e dalla modalità di input e output del modello. Scegliete la scheda relativa al metodo preferito, quindi seguite i passaggi:

Fine-tuning: Text-to-text

Per text-to-text i modelli, prepara un set di dati di formazione e convalida opzionale. Ogni oggetto JSON è un esempio contenente sia un campo che un prompt campo. completion Usa 6 caratteri per token come approssimazione del numero di token. Il formato è il seguente:

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

Di seguito è riportato un elemento di esempio per un'attività di domanda-risposta:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

Per i text-to-image nostri image-to-embedding modelli, prepara un set di dati di addestramento. I set di dati di convalida non sono supportati. Ogni oggetto JSON è un esempio contenente un image-ref URI Amazon S3 per un'immagine e un che potrebbe essere caption un prompt per l'immagine.

L'immagine deve essere in formato PNG o JPEG.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Di seguito è riportato un esempio:

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Per consentire ad Amazon Bedrock di accedere ai file di immagine, aggiungi una policy IAM simile Autorizzazioni per accedere ai file di formazione e convalida e per scrivere file di output in S3 a quella del ruolo del servizio di personalizzazione del modello Amazon Bedrock che hai impostato o che è stato impostato automaticamente per te nella console. I percorsi Amazon S3 che fornisci nel set di dati di addestramento devono trovarsi nelle cartelle specificate nella policy.

Continued Pre-training: Text-to-text

Per eseguire una formazione preliminare continua su un text-to-text modello, prepara un set di dati di formazione e convalida opzionale. Poiché la formazione continua prevede dati non etichettati, ogni riga JSON è un esempio contenente solo un campo. input Usa 6 caratteri per token come approssimazione del numero di token. Il formato è il seguente:

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

Di seguito è riportato un esempio di elemento che potrebbe essere presente nei dati di addestramento.

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging

Per mettere a punto un text-to-text modello utilizzando il formato di messaggistica a turno singolo, prepara un set di dati di formazione e convalida opzionale. Entrambi i file di dati devono essere in formato JSONL. Ogni riga specifica un campione di dati completo in formato json; e ogni campione di dati deve essere formattato su 1 riga (rimuovere tutti i '\n' all'interno di ogni campione). Una riga con più campioni di dati o la suddivisione di un campione di dati su più righe non funzioneranno.

Campi

  • system(opzionale): Una stringa contenente un messaggio di sistema che imposta il contesto per la conversazione.

  • messages: Una serie di oggetti di messaggio, ciascuno contenente:

    • role: user o assistant

    • content: il contenuto testuale del messaggio

Regole

  • L'messagesarray deve contenere 2 messaggi

  • Il primo messaggio deve contenere un role nome dell'utente

  • L'ultimo messaggio deve contenere un messaggio role dell'assistente

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Esempio

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging

Per mettere a punto un text-to-text modello utilizzando il formato di messaggistica multigiro, preparate un set di dati di formazione e convalida opzionale. Entrambi i file di dati devono essere in formato JSONL. Ogni riga specifica un campione di dati completo in formato json; e ogni campione di dati deve essere formattato su 1 riga (rimuovere tutti i '\n' all'interno di ogni campione). Una riga con più campioni di dati o la suddivisione di un campione di dati su più righe non funzioneranno.

Campi

  • system(opzionale): Una stringa contenente un messaggio di sistema che imposta il contesto per la conversazione.

  • messages: Una serie di oggetti di messaggio, ciascuno contenente:

    • role: user o assistant

    • content: il contenuto testuale del messaggio

Regole

  • L'messagesarray deve contenere almeno 2 messaggi

  • Il primo messaggio deve contenere un role nome dell'utente

  • L'ultimo messaggio deve contenere un messaggio role dell'assistente

  • I messaggi devono alternarsi tra user e assistant ruoli.

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Esempio

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
Distillation

Per preparare set di dati di addestramento e convalida per un lavoro di distillazione di modelli, vedere. Prerequisiti per Amazon Bedrock Model Distillation

Per text-to-text i modelli, prepara un set di dati di formazione e convalida opzionale. Ogni oggetto JSON è un esempio contenente sia un campo che un prompt campo. completion Usa 6 caratteri per token come approssimazione del numero di token. Il formato è il seguente:

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

Di seguito è riportato un elemento di esempio per un'attività di domanda-risposta:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Seleziona una scheda per visualizzare i requisiti per i set di dati di addestramento e convalida per un modello:

Amazon Nova
Modello Campioni minimi Numero massimo di campioni Lunghezza del contesto
Amazon Nova Micro 100 20 km 32 k
Amazon Nova Lite 8 20.000 (10.000 per documento) 32 k
Amazon Nova Pro 100 10 k 32 k

Vincoli relativi a immagini e video

Dimensione massima del file di immagine 10 MB
Numero massimo di video 1 per campione
Lunghezza o durata massima del video 90 secondi
Dimensione massima del file video 50 MB
Formati di immagine supportati PNG, JPEG, GIF, WEBP
Formati video supportati MOV, MKV, WEBM MP4
Amazon Titan Text Premier
Descrizione Massimo (regolazione fine)
Somma dei token di input e output quando la dimensione del batch è 1 4,096
Somma dei token di input e output quando la dimensione del batch è 2, 3 o 4 N/D
Quota di caratteri per campione nel set di dati Quota di token x 6
Dimensione del file del set di dati di addestramento 1 GB
Dimensione del file del set di dati di convalida 100 MB
Amazon Titan Text G1 - Express
Descrizione Massimo (formazione preliminare continua) Massimo (messa a punto)
Somma dei token di input e output quando la dimensione del batch è 1 4,096 4,096
Somma dei token di input e output quando la dimensione del batch è 2, 3 o 4 2.048 2.048
Quota di caratteri per campione nel set di dati Quota di token x 6 Quota di token x 6
Dimensione del file del set di dati di addestramento 10 GB 1 GB
Dimensione del file del set di dati di convalida 100 MB 100 MB
Amazon Titan Text G1 - Lite
Descrizione Massimo (formazione preliminare continua) Massimo (messa a punto)
Somma dei token di input e output quando la dimensione del batch è 1 o 2 4,096 4,096
Somma dei token di input e output quando la dimensione del batch è 3, 4, 5 o 6 2.048 2.048
Quota di caratteri per campione nel set di dati Quota di token x 6 Quota di token x 6
Dimensione del file del set di dati di addestramento 10 GB 1 GB
Dimensione del file del set di dati di convalida 100 MB 100 MB
Amazon Titan Image Generator G1 V1
Descrizione Minimo (regolazione fine) Massimo (regolazione fine)
Lunghezza del prompt di testo nell'esempio di addestramento, in caratteri 3 1,024
Record in un set di dati di addestramento 5 10.000
Dimensione dell'immagine di input 0 50 MB
Altezza dell'immagine di input in pixel 512 4,096
Larghezza dell'immagine di input in pixel 512 4,096
Pixel totali dell'immagine di input 0 12.582.912
Proporzioni dell'immagine in ingresso 1:4 4:1
Amazon Titan Multimodal Embeddings G1
Descrizione Minimo (messa a punto) Massimo (regolazione fine)
Lunghezza del prompt di testo nell'esempio di addestramento, in caratteri 0 2.560
Record in un set di dati di addestramento 1.000 500.000
Dimensione dell'immagine di input 0 5 MB
Altezza dell'immagine di input in pixel 128 4096
Larghezza dell'immagine di input in pixel 128 4096
Pixel totali dell'immagine di input 0 12.528.912
Proporzioni dell'immagine in ingresso 1:4 4:1
Cohere Command
Descrizione Massimo (regolazione fine)
Token di input 4,096
Token di output 2.048
Quota di caratteri per campione nel set di dati Quota di token x 6
Record in un set di dati di addestramento 10.000
Record in un set di dati di convalida 1.000
Meta Llama 2
Descrizione Massimo (regolazione fine)
Token di input 4,096
Token di output 2.048
Quota di caratteri per campione nel set di dati Quota di token x 6
Meta Llama 3.1
Descrizione Massimo (regolazione fine)
Token di input 16,000
Token di output 16,000
Quota di caratteri per campione nel set di dati Quota di token x 6
Modello Campioni minimi Numero massimo di campioni Lunghezza del contesto
Amazon Nova Micro 100 20 km 32 k
Amazon Nova Lite 8 20.000 (10.000 per documento) 32 k
Amazon Nova Pro 100 10 k 32 k

Vincoli relativi a immagini e video

Dimensione massima del file di immagine 10 MB
Numero massimo di video 1 per campione
Lunghezza o durata massima del video 90 secondi
Dimensione massima del file video 50 MB
Formati di immagine supportati PNG, JPEG, GIF, WEBP
Formati video supportati MOV, MKV, WEBM MP4

Per le linee guida sulla preparazione dei dati di Amazon Nova, consulta Linee guida per la preparazione dei dati per Amazon Nova.

PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.