Aceleração por GPU para indexação vetorial - OpenSearch Serviço Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Aceleração por GPU para indexação vetorial

A aceleração por GPU ajuda você a criar bancos de dados vetoriais em grande escala com mais rapidez e eficiência. Você pode ativar esse recurso em OpenSearch domínios novos ou existentes e coleções sem OpenSearch servidor. Esse recurso usa aceleração por GPU para reduzir o tempo necessário para indexar dados em índices vetoriais.

Com a aceleração por GPU, você pode aumentar a velocidade de indexação vetorial em até 10 vezes a um quarto do custo de indexação.

Pré-requisitos

A aceleração por GPU é compatível com OpenSearch domínios que executam a OpenSearch versão 3.1 ou posterior e coleções sem servidor. OpenSearch Para obter mais informaçõesAtualizando domínios do Amazon OpenSearch Service, consulte UpdateDomainConfig, UpdateCollection APIse.

Como funciona

Os índices vetoriais exigem recursos computacionais significativos para criar estruturas de dados, como gráficos Hierarchical Navigable Small Worlds (HNSW). Quando você ativa a aceleração de GPU em seu domínio ou coleção, detecta OpenSearch automaticamente oportunidades para acelerar suas criações de índice e transfere as compilações de índice para instâncias de GPU. OpenSearch O serviço gerencia as instâncias da GPU em seu nome, atribuindo-as ao seu domínio ou coleção quando necessário. Isso significa que você não gerencia a utilização nem paga pelo tempo ocioso.

Você paga somente pelo processamento útil por meio de Unidades de Computação (OCU) - Aceleração vetorial. Cada OCU de aceleração vetorial é uma combinação de aproximadamente 8 GiB de memória de CPU, 2 CPUs v e 6 GiB de memória de GPU. Para obter mais informações, consulte Preços de aceleração de GPU.

Para ativar a aceleração de GPU para seu domínio ou coleção, consulteAtivando a aceleração da GPU.

Preços de aceleração de GPU

AWScobra quando OpenSearch detecta oportunidades de acelerar as cargas de trabalho de criação de índices do seu domínio ou coleção. Cada OCU de aceleração vetorial é uma combinação de aproximadamente 8 GiB de memória de CPU, 2 CPUs v e 6 GiB de memória de GPU.

AWSfatura a OCU com granularidade de segundo nível. No extrato da sua conta, você verá uma entrada para computação em horas de OCU.

Por exemplo, quando você usa a aceleração de GPU por uma hora para criar um índice, usando 2 vCPU e 1 GiB de memória de GPU, você recebe a cobrança de 1 OCU. Se você usar 9 GiB de memória de CPU enquanto usa a aceleração por GPU, serão cobradas 2 OCUs.

OpenSearch O Serverless adiciona mais OCUs em incrementos de 1 OCU com base na potência computacional e no armazenamento necessários para dar suporte às suas coleções. Você pode configurar um número máximo de OCUs para sua conta para controlar os custos.

nota

O número de OCUs provisionados a qualquer momento pode variar e não é exato. Com o tempo, o OpenSearch algoritmo usado pelo OpenSearch Serverless continuará melhorando para minimizar melhor o uso do sistema.

Para obter detalhes completos sobre preços, consulte Amazon OpenSearch Service Pricing.

Operações de aceleração e gravação de GPU

A aceleração da GPU é ativada quando a taxa de ingestão OpenSearch do vetor (MB/seg) está dentro de uma faixa. Em OpenSearch domínios, você tem a flexibilidade de configurar esse intervalo por meio de index.knn.remote_index_build.size.min e. index.knn.remote_index_build.size.max Por exemplo, com o intervalo inferior padrão de 50 MB, gravar 15.000 vetores de precisão total com 768 dimensões entre os intervalos de atualização acionará a aceleração da GPU por padrão.

Os dados são gravados com as seguintes operações de API:

A aceleração da GPU é ativada com mesclagens automáticas e manuais de segmentos.

Configurações de índice suportadas

O motor Faiss suporta aceleração por GPU.

As configurações a seguir não oferecem suporte à aceleração por GPU:

Práticas recomendadas

Siga estas melhores práticas para maximizar os benefícios da aceleração por GPU para suas cargas de trabalho de pesquisa vetorial:

  • Aumente os clientes do índice - Para aproveitar ao máximo GPUs a criação do índice, aumente o número de clientes do índice que estão ingerindo OpenSearch dados. Isso permite uma melhor paralelização e utilização dos recursos da GPU.

  • Ajuste o limite aproximado - altere a index.knn.advanced.approximate_threshold configuração para garantir que não ocorram construções menores de índices de segmentos, o que melhora a velocidade geral de ingestão. Um valor de 10.000 é um bom ponto de partida. Para coleções, você deve especificar explicitamente um valor para essa configuração.

  • Otimize o tamanho do fragmento - tente criar fragmentos que tenham pelo menos 1 milhão de documentos. Fragmentos com menos do que esse número de documentos podem não ver os benefícios gerais da aceleração da GPU.