Preparar os conjuntos de dados - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparar os conjuntos de dados

Antes de começar um trabalho de personalização do modelo, você precisa preparar minimamente um conjunto de dados de treinamento. Se um conjunto de dados de validação é compatível e o formato do seu conjunto de dados de treinamento e validação dependem dos seguintes fatores.

  • O tipo de trabalho de personalização (ajuste fino ou pré-treinamento contínuo).

  • As modalidades de entrada e saída dos dados.

Para ver os requisitos de conjuntos de dados e arquivos para diferentes modelos, consulteCotas de personalização de modelos.

Selecione a guia que é relevante para seu caso de uso.

Fine-tuning: Text-to-text

Para ajustar um text-to-text modelo, prepare um conjunto de dados de treinamento e validação opcional criando um arquivo JSONL com várias linhas JSON. Cada linha JSON é uma amostra contendo um completion campo prompt e. Use seis caracteres por token como uma aproximação para o número de tokens. O formato é o seguinte.

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

Veja a seguir um exemplo de item para uma tarefa de pergunta e resposta:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

Para ajustar um image-to-embedding modelo text-to-image or, prepare um conjunto de dados de treinamento criando um arquivo JSONL com várias linhas JSON. Não há suporte para conjuntos de dados de validação. Cada linha JSON é uma amostra que contém um image-ref, o URI do Amazon S3 para uma imagem e um caption que pode ser um prompt para a imagem.

As imagens devem estar no formato JPEG ou PNG.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Veja a seguir um exemplo de item.

{"image-ref": "s3://my-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Para permitir que o Amazon Bedrock acesse os arquivos de imagem, adicione uma política do IAM semelhante à da função de serviço de personalização do modelo Amazon Bedrock que você configurou ou que foi configurada automaticamente para você no console. Permissões para acessar arquivos de treinamento e validação e para gravar arquivos de saída no S3 Os caminhos do Amazon S3 que você fornece no conjunto de dados de treinamento devem estar nas pastas que você especifica na política.

Continued Pre-training: Text-to-text

Para realizar o pré-treinamento contínuo em um text-to-text modelo, prepare um conjunto de dados de treinamento e validação opcional criando um arquivo JSONL com várias linhas JSON. Como o pré-treinamento contínuo envolve dados não identificados, cada linha JSON é uma amostra contendo somente um campo. input Use seis caracteres por token como uma aproximação para o número de tokens. O formato é o seguinte.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

Veja a seguir um exemplo de item que pode estar nos dados de treinamento.

{"input": "AWS stands for Amazon Web Services"}