Preparazione dei set di dati - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Preparazione dei set di dati

Prima di iniziare un lavoro di personalizzazione del modello, è necessario preparare almeno un set di dati di addestramento. Il supporto di un set di dati di convalida e il formato del set di dati di formazione e convalida dipendono dai seguenti fattori.

  • Il tipo di lavoro di personalizzazione (messa a punto o formazione preliminare continua).

  • Le modalità di input e output dei dati.

Per visualizzare i requisiti del set di dati e dei file per diversi modelli, vedere. Quote di personalizzazione dei modelli

Seleziona la scheda pertinente al tuo caso d'uso.

Fine-tuning: Text-to-text

Per mettere a punto un text-to-text modello, prepara un set di dati di formazione e convalida opzionale creando un file JSONL con più righe JSON. Ogni riga JSON è un esempio contenente sia un campo che un campo. prompt completion Usa 6 caratteri per token come approssimazione del numero di token. Il formato è il seguente:

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

Di seguito è riportato un elemento di esempio per un'attività di domanda-risposta:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

Per ottimizzare un image-to-embedding modello text-to-image or, prepara un set di dati di addestramento creando un file JSONL con più righe JSON. I set di dati di convalida non sono supportati. Ogni riga JSON è un esempio contenente un image-ref, l'URI Amazon S3 per un'immagine, e un caption che potrebbe essere un prompt per l'immagine.

L'immagine deve essere in formato PNG o JPEG.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Di seguito è riportato un esempio:

{"image-ref": "s3://my-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Per consentire ad Amazon Bedrock di accedere ai file di immagine, aggiungi una policy IAM simile Autorizzazioni per accedere ai file di formazione e convalida e per scrivere file di output in S3 a quella del ruolo del servizio di personalizzazione del modello Amazon Bedrock che hai impostato o che è stato impostato automaticamente per te nella console. I percorsi Amazon S3 che fornisci nel set di dati di addestramento devono trovarsi nelle cartelle specificate nella policy.

Continued Pre-training: Text-to-text

Per eseguire una formazione preliminare continua su un text-to-text modello, prepara un set di dati di formazione e convalida opzionale creando un file JSONL con più righe JSON. Poiché la formazione continua prevede dati non etichettati, ogni riga JSON è un esempio contenente solo un campo. input Usa 6 caratteri per token come approssimazione del numero di token. Il formato è il seguente:

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

Di seguito è riportato un esempio di elemento che potrebbe essere presente nei dati di addestramento.

{"input": "AWS stands for Amazon Web Services"}