Como funciona - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como funciona

As bases de conhecimento do Amazon Bedrock ajudam você a aproveitar as vantagens da Retrieval Augmented Generation (RAG), uma técnica popular que envolve extrair informações de um armazenamento de dados para aumentar as respostas geradas pelos Large Language Models (LLMs). Quando você configura uma base de conhecimento com fontes de dados, a aplicação pode consultar a base de conhecimento para retornar informações e responder à consulta com citações diretas das fontes ou com respostas naturais geradas com base nos resultados da consulta.

Com as bases de conhecimento, é possível criar aplicações enriquecidas pelo contexto recebido da consulta de uma base de conhecimento. Ele permite um tempo de lançamento mais rápido no mercado ao se abstrair do trabalho pesado dos pipelines de construção e fornecer a você uma solução out-of-the-box RAG para reduzir o tempo de construção de seu aplicativo. Adicionar uma base de conhecimento também aumenta a relação custo-benefício, eliminando a necessidade de treinar continuamente o modelo para poder aproveitar os dados privados.

Os diagramas a seguir ilustram esquematicamente como a RAG é realizada. A base de conhecimento simplifica a configuração e a implementação da RAG, automatizando várias etapas desse processo.

Pré-processamento de dados

Para habilitar a recuperação efetiva de dados privados, uma prática comum é começar dividindo os documentos em partes gerenciáveis para uma recuperação eficiente. Depois, os fragmentos são convertidos em incorporações e gravados em um índice vetorial, mantendo um mapeamento para o documento original. Essas incorporações são usadas para determinar a semelhança semântica entre as consultas e o texto das fontes de dados. A imagem a seguir ilustra o pré-processamento de dados para o banco de dados de vetores.

Pré-processamento de dados para geração de recuperação aumentada

Execução em runtime

Em runtime, um modelo de incorporação é usado para converter a consulta do usuário em um vetor. O índice vetorial é consultado para encontrar partes que sejam semanticamente semelhantes à consulta do usuário, comparando os vetores do documento com o vetor de consulta do usuário. Na etapa final, o prompt do usuário é aumentado com o contexto adicional dos fragmentos que são recuperados do índice vetorial. O prompt e o contexto adicional são enviados ao modelo para gerar uma resposta para o usuário. A imagem a seguir ilustra como a RAG opera em runtime para aumentar as respostas às consultas dos usuários.

Geração aumentada de recuperação em runtime