Comprimento de incorporação Ajuste fino Preparar conjuntos de dados Hiperparâmetros

Titan Multimodal Embeddings G1Modelo Amazon

Os modelos da Amazon Titan Foundation são pré-treinados em grandes conjuntos de dados, o que os torna modelos poderosos e de uso geral. Use-os como estão ou personalize-os ajustando os modelos com seus próprios dados para uma tarefa específica sem anotar grandes volumes de dados.

Existem três tipos de modelos Titan: incorporações, geração de texto e geração de imagens.

Existem dois Titan Multimodal Embeddings G1 modelos. O modelo Titan Multimodal Embeddings G1 traduz entradas de texto (palavras, frases ou possivelmente grandes unidades de texto) em representações numéricas (conhecidas como embeddings) que contêm o significado semântico do texto. Embora esse modelo não gere texto, ele é útil para aplicativos como personalização e pesquisa. Ao comparar as incorporações, o modelo produzirá respostas mais relevantes e contextuais do que a correspondência de palavras. O modelo Multimodal Embeddings G1 é usado para casos de uso, como pesquisar imagens por texto, por imagem por semelhança ou por uma combinação de texto e imagem. Ele traduz a imagem ou o texto de entrada em uma incorporação que contém o significado semântico da imagem e do texto no mesmo espaço semântico.

Os modelos Titan Text são LLMs generativos para tarefas como resumo, geração de texto, classificação, QnA aberto e extração de informações. Eles também são treinados em várias linguagens de programação diferentes, bem como em formatos de texto rico, como tabelas, arquivos.csv e JSON, entre outros formatos.

Amazon Titan Multimodal Embeddings modelo G1 - Modelo de texto

ID de modelo: amazon.titan-embed-image-v1
Máximo de tokens de texto de entrada — 8.192
Idiomas — inglês (mais de 25 idiomas na versão prévia)
Tamanho máximo da imagem de entrada: 5 MB
Tamanho do vetor de saída: 1.024 (padrão), 384, 256
Tipos de inferência: throughput sob demanda e provisionado
Casos de uso compatíveis — RAG, pesquisa de documentos, classificação, classificação etc.

O Titan Text Embeddings V1 usa como entrada uma string não vazia com até 8.192 tokens e retorna uma incorporação de 1.024 dimensões. A proporção de caracteres por token em inglês é de 4,6 char/token. Nota sobre os casos de uso do RAG: embora o Titan Text Embeddings V2 seja capaz de acomodar até 8.192 tokens, recomendamos segmentar documentos em segmentos lógicos (como parágrafos ou seções).

Comprimento de incorporação

Definir um comprimento de incorporação personalizado é opcional. O tamanho padrão de incorporação é de 1.024 caracteres, o que funciona para a maioria dos casos de uso. O comprimento de incorporação pode ser definido como 256, 384 ou 1.024 caracteres. Tamanhos de incorporação maiores geram respostas mais detalhadas, mas também aumentam o tempo de computação. Comprimentos de incorporação mais curtos são menos detalhados, mas melhorarão o tempo de resposta.



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

Ajuste fino

A entrada para o ajuste Titan Multimodal Embeddings G1 fino da Amazon são pares de imagem e texto.
Formatos de imagem: PNG, JPEG
Limite de tamanho da imagem de entrada: 5 MB
Dimensões da imagem: mín. de 128px, máx. de 4096px
Número máximo de tokens na legenda: 128
Faixa de tamanho do conjunto de dados de treinamento: 1.000 a 500.000
Faixa de tamanho do conjunto de dados de validação: 8 a 50.000
Tamanho da legenda em caracteres: 0 a 2.560
Máximo do total de pixels por imagem: 2048*2048*3
Proporção de aspecto (l/a): mín. de 0,25, máx. de 4

Preparar conjuntos de dados

Para o conjunto de dados de treinamento, crie um arquivo .jsonlcom várias linhas JSON. Cada linha JSON contém um atributo image-ref e um caption, semelhante ao formato de manifesto aumentado do Sagemaker. É necessário um conjunto de dados de validação. Ainda não há suporte para legendas automáticas.



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Para os conjuntos de dados de treinamento e de validação, você criará arquivos .jsonlcom várias linhas JSON.

Os caminhos do Amazon S3 precisam estar nas mesmas pastas em que você forneceu permissões para o Amazon Bedrock acessar os dados, anexando uma política do IAM ao perfil de serviço do Amazon Bedrock. Para obter mais informações sobre como conceder políticas do IAM para dados de treinamento, consulte Grant custom jobs access to your training data.

Hiperparâmetros

Esses valores podem ser ajustados para os hiperparâmetros do modelo Multimodal Embeddings. Os valores padrão funcionarão bem para a maioria dos casos de uso.

Taxa de aprendizado (taxa de aprendizado mínima/máxima): padrão de 5,00E-05, mín. de 5,00E-08, máx. de 1
Tamanho do lote (tamanho efetivo do lote): padrão de 576, mín. de 256, máx. de 9.216
Máximo de épocas: padrão de “auto”, mín. de 1, máx. de 100

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Incorporações de texto Amazon Titan

Amazon Titan Image Generator G1