Titan Multimodal Embeddings G1Modelo Amazon - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Titan Multimodal Embeddings G1Modelo Amazon

Os modelos da Amazon Titan Foundation são pré-treinados em grandes conjuntos de dados, o que os torna modelos poderosos e de uso geral. Use-os como estão ou personalize-os ajustando os modelos com seus próprios dados para uma tarefa específica sem anotar grandes volumes de dados.

Existem três tipos de modelos Titan: incorporações, geração de texto e geração de imagens.

Existem dois Titan Multimodal Embeddings G1 modelos. O modelo Titan Multimodal Embeddings G1 traduz entradas de texto (palavras, frases ou possivelmente grandes unidades de texto) em representações numéricas (conhecidas como embeddings) que contêm o significado semântico do texto. Embora esse modelo não gere texto, ele é útil para aplicativos como personalização e pesquisa. Ao comparar as incorporações, o modelo produzirá respostas mais relevantes e contextuais do que a correspondência de palavras. O modelo Multimodal Embeddings G1 é usado para casos de uso, como pesquisar imagens por texto, por imagem por semelhança ou por uma combinação de texto e imagem. Ele traduz a imagem ou o texto de entrada em uma incorporação que contém o significado semântico da imagem e do texto no mesmo espaço semântico.

Os modelos Titan Text são LLMs generativos para tarefas como resumo, geração de texto, classificação, QnA aberto e extração de informações. Eles também são treinados em várias linguagens de programação diferentes, bem como em formatos de texto rico, como tabelas, arquivos.csv e JSON, entre outros formatos.

Amazon Titan Multimodal Embeddings modelo G1 - Modelo de texto

  • ID de modelo: amazon.titan-embed-image-v1

  • Máximo de tokens de texto de entrada — 8.192

  • Idiomas — inglês (mais de 25 idiomas na versão prévia)

  • Tamanho máximo da imagem de entrada: 5 MB

  • Tamanho do vetor de saída: 1.024 (padrão), 384, 256

  • Tipos de inferência: throughput sob demanda e provisionado

  • Casos de uso compatíveis — RAG, pesquisa de documentos, classificação, classificação etc.

O Titan Text Embeddings V1 usa como entrada uma string não vazia com até 8.192 tokens e retorna uma incorporação de 1.024 dimensões. A proporção de caracteres por token em inglês é de 4,6 char/token. Nota sobre os casos de uso do RAG: embora o Titan Text Embeddings V2 seja capaz de acomodar até 8.192 tokens, recomendamos segmentar documentos em segmentos lógicos (como parágrafos ou seções).

Comprimento de incorporação

Definir um comprimento de incorporação personalizado é opcional. O tamanho padrão de incorporação é de 1.024 caracteres, o que funciona para a maioria dos casos de uso. O comprimento de incorporação pode ser definido como 256, 384 ou 1.024 caracteres. Tamanhos de incorporação maiores geram respostas mais detalhadas, mas também aumentam o tempo de computação. Comprimentos de incorporação mais curtos são menos detalhados, mas melhorarão o tempo de resposta.

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

Ajuste fino

  • A entrada para o ajuste Titan Multimodal Embeddings G1 fino da Amazon são pares de imagem e texto.

  • Formatos de imagem: PNG, JPEG

  • Limite de tamanho da imagem de entrada: 5 MB

  • Dimensões da imagem: mín. de 128px, máx. de 4096px

  • Número máximo de tokens na legenda: 128

  • Faixa de tamanho do conjunto de dados de treinamento: 1.000 a 500.000

  • Faixa de tamanho do conjunto de dados de validação: 8 a 50.000

  • Tamanho da legenda em caracteres: 0 a 2.560

  • Máximo do total de pixels por imagem: 2048*2048*3

  • Proporção de aspecto (l/a): mín. de 0,25, máx. de 4

Preparar conjuntos de dados

Para o conjunto de dados de treinamento, crie um arquivo .jsonlcom várias linhas JSON. Cada linha JSON contém um atributo image-ref e um caption, semelhante ao formato de manifesto aumentado do Sagemaker. É necessário um conjunto de dados de validação. Ainda não há suporte para legendas automáticas.

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Para os conjuntos de dados de treinamento e de validação, você criará arquivos .jsonlcom várias linhas JSON.

Os caminhos do Amazon S3 precisam estar nas mesmas pastas em que você forneceu permissões para o Amazon Bedrock acessar os dados, anexando uma política do IAM ao perfil de serviço do Amazon Bedrock. Para obter mais informações sobre como conceder políticas do IAM para dados de treinamento, consulte Grant custom jobs access to your training data.

Hiperparâmetros

Esses valores podem ser ajustados para os hiperparâmetros do modelo Multimodal Embeddings. Os valores padrão funcionarão bem para a maioria dos casos de uso.

  • Taxa de aprendizado (taxa de aprendizado mínima/máxima): padrão de 5,00E-05, mín. de 5,00E-08, máx. de 1

  • Tamanho do lote (tamanho efetivo do lote): padrão de 576, mín. de 256, máx. de 9.216

  • Máximo de épocas: padrão de “auto”, mín. de 1, máx. de 100