Tipos de arquivo de conjunto de dados e formato de dados de entrada - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Tipos de arquivo de conjunto de dados e formato de dados de entrada

O ajuste fino baseado em instruções usa conjuntos de dados rotulados para melhorar o desempenho de LLMs pré-treinados em tarefas específicas de processamento de linguagem natural (NLP). Os exemplos rotulados são formatados como pares de pronto-resposta e expressos como instruções.

Para saber mais sobre os tipos de arquivo de conjunto de dados compatíveis, consulte Tipos de arquivo de conjunto de dados compatíveis.

Para saber mais sobre o formato de dados de entrada, consulte Formato de dados de entrada para ajuste fino baseado em instruções.

Tipos de arquivo de conjunto de dados compatíveis

O Autopilot suporta conjuntos de dados de ajuste fino baseados em instruções formatados como arquivos CSV (padrão) ou como arquivos Parquet.

  • CSV (valores separados por vírgula) é um formato de arquivo baseado em linhas que armazena dados em texto simples legível por humanos, que é uma escolha popular para troca de dados, pois é suportado por uma ampla variedade de aplicativos.

  • O Parquet é um formato de arquivo binário baseado em colunas em que os dados são armazenados e processados com mais eficiência do que em formatos de arquivo legíveis por humanos, como CSV. Isso o torna uma opção melhor para problemas de big data.

nota

O conjunto de dados pode consistir em vários arquivos, cada um dos quais deve seguir um modelo específico. Para obter informações sobre como formatar seus dados de entrada, consulte Formato de dados de entrada para ajuste fino baseado em instruções.

Formato de dados de entrada para ajuste fino baseado em instruções

Cada arquivo no conjunto de dados deve seguir o seguinte formato:

  • O conjunto de dados deve conter exatamente duas colunas separadas por vírgula e nomeadas, input e output. O piloto automático não permite colunas adicionais.

  • As colunas input contêm as solicitações e as correspondentes output contêm a resposta esperada. Tanto o input quanto output estão no formato de string.

O exemplo a seguir ilustra o formato de dados de entrada para o ajuste fino baseado em instruções no Autopilot.

input,output "<prompt text>","<expected generated text>"
nota

Recomendamos usar conjuntos de dados com no mínimo 1.000 linhas para garantir o aprendizado e o performance ideais do modelo.

Além disso, o Autopilot define um limite máximo para o número de linhas no conjunto de dados e o tamanho do contexto com base no tipo de modelo que está sendo usado.

  • Os limites do número de linhas em um conjunto de dados se aplicam à contagem cumulativa de linhas em todos os arquivos dentro do conjunto de dados, incluindo vários arquivos. Se houver dois tipos de canais definidos (um para treinamento e outro para validação), o limite se aplica ao número total de linhas em todos os conjuntos de dados em ambos os canais. Quando o número de linhas excede o limite, o trabalho falha com um erro de validação.

  • Quando o comprimento da entrada ou saída de uma linha no conjunto de dados excede o limite definido no contexto do modelo de linguagem, ele é automaticamente truncado. Se mais de 60% das linhas no conjunto de dados estiverem truncadas, seja na entrada ou na saída, o Autopilot falhará no trabalho com um erro de validação.

A tabela a seguir apresenta esses limites para cada modelo.

JumpStart ID do modelo BaseModelName na solicitação de API Limite de linhas Limite de comprimento do contexto
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B 10.000 linhas 1.024 tokens
huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B 10.000 linhas 1.024 tokens
huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B 10.000 linhas 1.024 tokens
huggingface-llm-falcon-7b-bf16 Falcon7B 1.000 linhas 1.024 tokens
huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct 1.000 linhas 1.024 tokens
huggingface-llm-falcon-40b-bf16 Falcon40B 10.000 linhas 1.024 tokens
huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct 10.000 linhas 1.024 tokens
huggingface-text2text-flan-t5-large FlanT5L 10.000 linhas 1.024 tokens
huggingface-text2text-flan-t5-xl FlanT5XL 10.000 linhas 1.024 tokens
huggingface-text2text-flan-t5-xxll FlanT5XXL 10.000 linhas 1.024 tokens
meta-textgeneration-llama-2-7b Llama2-7B 10.000 linhas 2.048 tokens
meta-textgeneration-llama-2-7b-f Llama2-7BChat 10.000 linhas 2.048 tokens
meta-textgeneration-llama-2-13b Llama2-13B 7.000 linhas 2.048 tokens
meta-textgeneration-llama-2-13b-f Llama2-13BChat 7.000 linhas 2.048 tokens
huggingface-llm-mistral-7b Mistral7B 10.000 linhas 2.048 tokens
huggingface-llm-mistral-7b-instruct Mistral7BInstruct 10.000 linhas 2.048 tokens
huggingface-textgeneration1-mpt-7b-bf16 MPT7B 10.000 linhas 1.024 tokens
huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct 10.000 linhas 1.024 tokens