Preparar los conjuntos de datos - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparar los conjuntos de datos

Antes de poder empezar un trabajo de personalización de modelos, es necesario preparar un conjunto de datos de entrenamiento como mínimo. La compatibilidad con un conjunto de datos de validación y el formato del conjunto de datos de entrenamiento y validación dependen de los siguientes factores.

  • El tipo de trabajo de personalización (ajuste detallado o formación previa continua).

  • Las modalidades de entrada y salida de los datos.

Para ver los requisitos de conjuntos de datos y archivos para los diferentes modelos, consulteCuotas de personalización de modelos.

Seleccione la pestaña que sea relevante para su caso de uso.

Fine-tuning: Text-to-text

Para ajustar un text-to-text modelo, prepare un conjunto de datos de entrenamiento y validación opcional mediante la creación de un archivo JSONL con varias líneas JSON. Cada línea JSON es un ejemplo que contiene un campo y. prompt completion Utilice 6 caracteres por token como una aproximación del número de tokens. El formato es el siguiente.

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

El siguiente es un ejemplo de una tarea de preguntas y respuestas:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

Para ajustar un image-to-embedding modelo text-to-image o, prepare un conjunto de datos de entrenamiento creando un archivo JSONL con varias líneas JSON. No se admiten los conjuntos de datos de validación. Cada línea JSON es un ejemplo que contiene una image-ref, el URI de Amazon S3 de una imagen y un caption que podría ser una petición para la imagen.

Las imágenes deben tener formato PNG o JPEG.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

A continuación, se muestra un elemento de ejemplo:

{"image-ref": "s3://my-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Para permitir que Amazon Bedrock acceda a los archivos de imagen, añada una política de IAM similar a la del rol del servicio de personalización de modelos de Amazon Bedrock que configuró o que se configuró automáticamente para usted en la consola. Permisos para acceder a los archivos de formación y validación y para escribir los archivos de salida en S3 Las rutas de Amazon S3 que proporcione en el conjunto de datos de entrenamiento deben estar en las carpetas que especifique en la política.

Continued Pre-training: Text-to-text

Para realizar una formación previa continua sobre un text-to-text modelo, prepare un conjunto de datos de formación y validación opcional mediante la creación de un archivo JSONL con varias líneas JSON. Como la formación previa continua incluye datos sin etiquetar, cada línea de JSON es una muestra que contiene solo un campo. input Utilice 6 caracteres por token como una aproximación del número de tokens. El formato es el siguiente.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

A continuación aparece un elemento de ejemplo que podría estar en los datos de entrenamiento.

{"input": "AWS stands for Amazon Web Services"}