Ingestão de vetores - OpenSearch Serviço Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Ingestão de vetores

A ingestão de vetores ajuda você a ingerir e indexar rapidamente OpenSearch domínios e OpenSearch coleções sem servidor. O serviço examina seu domínio ou coleção e cria um pipeline de ingestão em seu nome para carregar seus dados. OpenSearch A ingestão e a indexação do seu domínio ou coleção são gerenciadas para você pela ingestão de vetores.

Você pode acelerar e otimizar o processo de indexação Aceleração por GPU para indexação vetorial ativando Otimização automática recursos. Com a ingestão de vetores, você não precisa gerenciar a infraestrutura subjacente, corrigir o software ou escalar clusters para dar suporte à indexação e ingestão de seu banco de dados vetoriais. Isso permite que você crie rapidamente seu banco de dados vetoriais para atender às suas necessidades.

Como funciona

A ingestão de vetores examina seu domínio ou coleção e seu índice. Você pode configurar manualmente seus campos de índice vetorial ou OpenSearch permitir o uso da configuração automática.

A ingestão de vetores usa a OpenSearch ingestão (OSI) como o pipeline de dados entre o Amazon S3 e. OpenSearch O serviço processa vetores em paralelo para otimizar a velocidade de ingestão, respeitando os limites de escala do OSI e. OpenSearch

OpenSearch Preços de ingestão de vetores

Em qualquer momento específico, você paga apenas pelo número de ingestão OCUs de vetores alocados a um pipeline, independentemente de haver dados fluindo pelo pipeline. OpenSearch a ingestão de vetores acomoda imediatamente suas cargas de trabalho aumentando ou diminuindo a capacidade do pipeline com base no uso.

Para obter detalhes completos sobre preços, consulte Amazon OpenSearch Service Pricing.

Pré-requisitos

Antes de usar a ingestão de vetores, verifique se você tem os seguintes recursos:

  • Bucket Amazon S3 contendo seus documentos OpenSearch JSON em formato parquet

  • OpenSearch recurso - um domínio ou uma coleção

  • OpenSearch versão 2.19 ou posterior (necessária para a integração de otimização automática)

Criar banco de dados vetoriais

Use o fluxo de trabalho de criação de tarefas de ingestão vetorial para configurar o ajuste automatizado do índice vetorial e acelerar a criação de índices em grande escala.

nota

O conteúdo processual desta seção está sujeito a alterações à medida que a interface do usuário é finalizada. O fluxo de trabalho pode ser atualizado em versões futuras para refletir a experiência mais recente do console.

Para criar um trabalho de injeção vetorial
  1. Na seção Detalhes da tarefa de ingestão de vetores, em Nome, insira um nome para sua tarefa de ingestão.

  2. Na seção Fonte de dados, configure o seguinte:

    1. Para o URI do Amazon S3, insira a localização do bucket do Amazon S3 contendo OpenSearch seus documentos JSON de serviço.

    2. Escolha Navegar no Amazon S3 para selecionar entre os buckets disponíveis ou escolha Exibir para visualizar o conteúdo do bucket.

    3. Em Tipo de conteúdo, selecione uma das seguintes opções:

      • Vetores - Os documentos já contêm vetores e não exigem geração adicional de incorporação vetorial.

      • Texto, imagem ou áudio: os documentos contêm conteúdo como texto, imagens ou bytes de áudio que precisam ser codificados em incorporações vetoriais.

  3. Na seção Permissões da fonte de dados, configure as permissões de acesso:

    1. Para Perfil do IAM, escolha uma das seguintes opções:

      • Criar uma nova função

      • Use uma função existente

    2. Em Nome da função do IAM, insira um nome para a função.

  4. Na seção Destino, configure o endpoint do OpenSearch serviço:

    1. Para Endpoint, escolha Escolha uma opção para selecionar entre seus domínios ou coleções compatíveis na região atual.

    2. Escolha Avançar para continuar com o endpoint selecionado.

  5. Escolha Avançar para continuar na próxima etapa ou escolha Cancelar para sair sem salvar.

A ingestão de vetores funciona com os seguintes recursos do Amazon OpenSearch Service para otimizar o desempenho do seu banco de dados vetoriais:

Aceleração por GPU para indexação vetorial

A aceleração por GPU reduz o tempo necessário para criar, atualizar e excluir índices vetoriais. Quando usado com a ingestão de vetores, você pode acelerar significativamente o processo de ingestão e indexação para bancos de dados vetoriais de grande escala.

Otimização automática

A otimização automática descobre automaticamente as melhores compensações entre latência de pesquisa, qualidade e requisitos de memória. A ingestão de vetores pode aplicar recomendações de otimização automática durante o processo de ingestão para garantir que seus índices vetoriais sejam configurados de forma ideal.

Para obter melhores resultados, considere ativar a aceleração por GPU e a otimização automática ao usar a ingestão de vetores para criar bancos de dados vetoriais em grande escala.