Configure um índice vetorial para sua base de conhecimento em um repositório de vetores compatível - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configure um índice vetorial para sua base de conhecimento em um repositório de vetores compatível

Você configura um índice vetorial compatível para indexar suas fontes de dados criando campos para armazenar os dados a seguir.

  • Os vetores gerados a partir do texto em sua fonte de dados pelo modelo de incorporação que você escolher.

  • Os trechos de texto extraídos dos arquivos na sua fonte de dados.

  • Metadados relacionados à sua base de conhecimento que o Amazon Bedrock gerencia.

  • (Se você usa um banco de dados Amazon Aurora e deseja configurar a filtragem) Metadados que você associa aos seus arquivos de origem. Se você planeja configurar a filtragem em outros repositórios de vetores, não precisa configurar esses campos para filtragem.

Selecione a guia correspondente ao serviço que você usará para criar seu índice vetorial.

nota

Se você preferir que o Amazon Bedrock crie automaticamente um índice vetorial no Amazon OpenSearch Serverless para você, ignore esse pré-requisito e prossiga até. Crie uma base de conhecimento Para saber como configurar um índice vetorial, selecione a guia correspondente ao seu método de escolha e siga as etapas.

Amazon OpenSearch Serverless
  1. Para configurar permissões e criar uma coleção de pesquisa vetorial no Amazon OpenSearch Serverless no AWS Management Console, siga as etapas 1 e 2 em Trabalhando com coleções de pesquisa vetorial no Amazon OpenSearch Service Developer Guide. Observe as seguintes considerações ao configurar sua coleção:

    1. Dê à coleção um nome e uma descrição de sua escolha.

    2. Para tornar sua coleção privada, selecione Criação padrão na seção Segurança. Em seguida, na seção Configurações de acesso à rede, selecione VPC como o tipo de acesso e escolha um VPC endpoint. Para obter mais informações sobre como configurar um VPC endpoint para uma coleção Amazon OpenSearch Serverless, consulte Acesse o Amazon OpenSearch Serverless usando um endpoint de interface ()AWS PrivateLink no Amazon Service Developer Guide. OpenSearch

  2. Depois que a coleção for criada, anote o ARN da coleção para criar a base de conhecimento.

  3. No painel de navegação esquerdo, selecione Coleções em Sem servidor. Em seguida, selecione sua coleção de pesquisa vetorial.

  4. Selecione a guia Índices. Em seguida, escolha Criar índice vetorial.

  5. Na seção Detalhes do índice vetorial, insira um nome para seu índice no campo Nome do índice vetorial.

  6. Na seção Campos vetoriais, escolha Adicionar campo vetorial. O Amazon Bedrock armazena as incorporações vetoriais da sua fonte de dados nesse campo. Forneça as seguintes configurações:

    • Nome do campo vetorial — Forneça um nome para o campo (por exemplo,embeddings).

    • Motor — O mecanismo vetorial usado para pesquisa. Selecione faiss.

    • Dimensões: o número de dimensões no vetor. Consulte a tabela a seguir para determinar quantas dimensões o vetor deve conter:

      Modelo Dimensões
      TitanIncorporações G1 - Texto 1.536
      CohereEmbedinglês 1,024
      CohereEmbedMultilíngue 1,024
    • Métrica de distância: a métrica usada para medir a semelhança entre vetores. Recomendamos usar Euclidean.

  7. Expanda a seção Gerenciamento de metadados e adicione dois campos para configurar o índice vetorial para armazenar metadados adicionais que uma base de conhecimento pode recuperar com vetores. A tabela a seguir descreve os campos e os valores a serem especificados para cada campo:

    Descrição do campo Campo de mapeamento Tipo de dados Filtrável
    O Amazon Bedrock fragmenta o texto bruto dos seus dados e armazena os fragmentos nesse campo. Nome de sua escolha (por exemplo,text) String Verdadeiro
    O Amazon Bedrock armazena metadados relacionados à sua base de conhecimento nesse campo. Nome de sua escolha (por exemplo,bedrock-metadata) String Falso
  8. Anote os nomes escolhidos para o nome do índice vetorial, o nome do campo vetorial e os nomes dos campos de mapeamento do gerenciamento de metadados para criar sua base de conhecimento. Em seguida, selecione Criar.

Depois que o índice vetorial for criado, você poderá continuar criando sua base de conhecimento. A tabela a seguir resume onde você inserirá cada informação que anotou.

Campo Campo correspondente na configuração da base de conhecimento (console) Campo correspondente na configuração da base de conhecimento (API) Descrição
ARN de coleção ARN de coleção Coleção ARN O Amazon Resource Name (ARN) da coleção de pesquisa vetorial.
Nome do índice vetorial Nome do índice vetorial vectorIndexName O nome do índice vetorial.
Nome do campo vetorial Campo vetorial Campo vetorial O nome do campo no qual armazenar incorporações vetoriais para suas fontes de dados.
Gerenciamento de metadados (primeiro campo de mapeamento) Campo de texto Campo de texto O nome do campo no qual armazenar o texto bruto de suas fontes de dados.
Gerenciamento de metadados (segundo campo de mapeamento) Campo de metadados gerenciado pelo Bedrock Campo de metadados O nome do campo no qual armazenar os metadados gerenciados pelo Amazon Bedrock.

Para obter uma documentação mais detalhada sobre a configuração de um armazenamento vetorial no Amazon OpenSearch Serverless, consulte Como trabalhar com coleções de pesquisa vetorial no Amazon OpenSearch Service Developer Guide.

Amazon Aurora
  1. Crie um cluster, esquema e tabela de banco de dados (DB) Amazon Aurora seguindo as etapas em Preparando o Aurora PostgreSQL para ser usado como base de conhecimento. Ao criar a tabela, configure-a com as seguintes colunas e tipos de dados. Você pode usar nomes de colunas de sua preferência em vez dos listados na tabela a seguir. Anote os nomes de coluna escolhidos para poder fornecê-los durante a configuração da base de conhecimento.

    Nome da coluna Tipo de dados Campo correspondente na configuração da base de conhecimento (console) Campo correspondente na configuração da base de conhecimento (API) Descrição
    id Chave primária de UUID Chave primária primaryKeyField Contém identificadores exclusivos para cada registro.
    incorporação Vetor Campo vetorial vectorField Contém as incorporações vetoriais das fontes de dados.
    pedaços Texto Campo de texto textField Contém os fragmentos de texto bruto das fontes de dados.
    metadata JSON Campo de metadados gerenciado pelo Bedrock metadataField Contém os metadados necessários para realizar a atribuição da fonte e permitir a ingestão e a consulta de dados.
  2. (Opcional) Se você adicionou metadados aos seus arquivos para filtragem, também deverá criar uma coluna para cada atributo de metadados nos seus arquivos e especificar o tipo de dados (texto, número ou booleano). Por exemplo, se o atributo genre existir na sua fonte de dados, você adicionaria uma coluna chamada genre e especificaria text como o tipo de dados. Durante a ingestão, essas colunas serão preenchidas com os valores dos atributos correspondentes.

  3. Configure um AWS Secrets Manager segredo para seu cluster de banco de dados Aurora seguindo as etapas em Gerenciamento de senhas com Amazon Aurora e. AWS Secrets Manager

  4. Anote as informações a seguir depois de criar o cluster de banco de dados e configurar o segredo.

    Campo na configuração da base de conhecimento (console) Campo na configuração da base de conhecimento (API) Descrição
    ARN do cluster de banco de dados do Amazon Aurora resourceArn O ARN do cluster de banco de dados.
    Database name databaseName O nome do banco de dados.
    Nome da tabela tableName O nome da tabela no cluster de banco de dados.
    ARN do segredo credentialsSecretArn O ARN da AWS Secrets Manager chave para seu cluster de banco de dados
Pinecone
nota

Se você usarPinecone, você concorda em autorizar o acesso AWS à fonte terceirizada designada em seu nome, a fim de fornecer serviços de armazenamento de vetores para você. Você é responsável por cumprir todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.

Para obter documentação detalhada sobre como configurar um armazenamento vetorial emPinecone, consulte Pinecone como base de conhecimento para o Amazon Bedrock.

Durante a configuração do armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:

  • Cadeia de conexão — O URL do endpoint para sua página de gerenciamento de índice.

  • Namespace — (Opcional) O namespace a ser usado para gravar novos dados em seu banco de dados. Para obter mais informações, consulte Usando namespaces.

Há configurações adicionais que você deve fornecer ao criar um Pinecone índice:

  • Nome: o nome do índice vetorial. Selecione qualquer nome válido de sua escolha. Posteriormente, ao criar sua base de conhecimento, insira o nome escolhido no campo Nome do índice vetorial.

  • Dimensões: o número de dimensões no vetor. Consulte a tabela a seguir para determinar quantas dimensões o vetor deve conter.

    Modelo Dimensões
    TitanIncorporações G1 - Texto 1.536
    CohereEmbedinglês 1,024
    CohereEmbedMultilíngue 1,024
  • Métrica de distância: a métrica usada para medir a semelhança entre vetores. Recomendamos que você experimente métricas diferentes para seu caso de uso. Recomendamos começar com a similaridade do cosseno.

Para acessar seu Pinecone índice, você deve fornecer sua chave de Pinecone API para o Amazon Bedrock por meio do AWS Secrets Manager.

Para configurar um segredo para sua Pinecone configuração
  1. Siga as etapas em Criar um AWS Secrets Manager segredo, definindo a chave como apiKey e o valor como a chave da API para acessar seu Pinecone índice.

  2. Para encontrar a chave de API, abra o console do Pinecone e selecione API Keys.

  3. Depois de criar o segredo, anote o ARN da chave do KMS.

  4. Anexe permissões ao perfil de serviço para descriptografar o ARN da chave do KMS seguindo as etapas em Permissões para descriptografar um AWS Secrets Manager segredo para o armazenamento de vetores que contém sua base de conhecimento.

  5. Posteriormente, ao criar a base de conhecimento, insira o ARN no campo ARN do segredo das credenciais.

Redis Enterprise Cloud
nota

Se você usarRedis Enterprise Cloud, você concorda em autorizar o acesso AWS à fonte terceirizada designada em seu nome, a fim de fornecer serviços de armazenamento de vetores para você. Você é responsável por cumprir todos os termos de terceiros aplicáveis ao uso e transferência de dados do serviço de terceiros.

Para obter documentação detalhada sobre como configurar um armazenamento vetorial emRedis Enterprise Cloud, consulte Integração Redis Enterprise Cloud com o Amazon Bedrock.

Durante a configuração do armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:

  • URL do endpoint — O URL público do endpoint do seu banco de dados.

  • Nome do índice vetorial — O nome do índice vetorial do seu banco de dados.

  • Campo vetorial — O nome do campo em que as incorporações vetoriais serão armazenadas. Consulte a tabela a seguir para determinar quantas dimensões o vetor deve conter.

    Modelo Dimensões
    TitanIncorporações G1 - Texto 1.536
    CohereEmbedinglês 1,024
    CohereEmbedMultilíngue 1,024
  • Campo de texto — O nome do campo em que o Amazon Bedrock armazena os pedaços de texto bruto.

  • Campo de metadados gerenciado pelo Bedrock — O nome do campo em que o Amazon Bedrock armazena metadados relacionados à sua base de conhecimento.

Para acessar seu Redis Enterprise Cloud cluster, você deve fornecer sua configuração de Redis Enterprise Cloud segurança ao Amazon Bedrock por meio do AWS Secrets Manager.

Para configurar um segredo para sua Redis Enterprise Cloud configuração
  1. Habilite o TLS para usar seu banco de dados com o Amazon Bedrock seguindo as etapas em Transport Layer Security (TLS).

  2. Siga as etapas em Criar um AWS Secrets Manager segredo. Configure as seguintes chaves com os valores apropriados de sua Redis Enterprise Cloud configuração no segredo:

    • username— O nome de usuário para acessar seu Redis Enterprise Cloud banco de dados. Para encontrar seu nome de usuário, consulte a seção Segurança do seu banco de dados no Console do Redis.

    • password— A senha para acessar seu Redis Enterprise Cloud banco de dados. Para encontrar sua senha, consulte a seção Segurança do seu banco de dados no Console do Redis.

    • serverCertificate: o conteúdo do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates.

    • clientPrivateKey: a chave privada do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates.

    • clientCertificate: a chave pública do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates.

  3. Depois de criar o segredo, anote o ARN dele. Posteriormente, ao criar sua base de conhecimento, insira o ARN no campo ARN do segredo de credenciais.

MongoDB Atlas
nota

Se você usa o MongoDB Atlas, concorda em AWS autorizar o acesso à fonte terceirizada designada em seu nome para fornecer serviços de armazenamento de vetores para você. Você é responsável por cumprir todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.

Para obter documentação detalhada sobre como configurar um armazenamento vetorial no MongoDB Atlas, consulte MongoDB Atlas as a Knowledge Base for Amazon Bedrock.

Ao configurar o armazenamento vetorial, observe as seguintes informações que você adicionará ao criar uma base de conhecimento:

  • URL do endpoint — O URL do endpoint do seu cluster MongoDB Atlas.

  • Nome do banco de dados — O nome do banco de dados em seu cluster MongoDB Atlas.

  • Nome da coleção — O nome da coleção em seu banco de dados.

  • ARN secreto de credenciais — O Amazon Resource Name (ARN) do segredo que você criou no AWS Secrets Manager que contém o nome de usuário e a senha de um usuário de banco de dados em seu cluster MongoDB Atlas.

  • (Opcional) Chave KMS gerenciada pelo cliente para seu ARN secreto de credenciais — se você criptografou o ARN secreto de suas credenciais, forneça a chave KMS para que o Amazon Bedrock possa descriptografá-la.

Há configurações adicionais para mapeamento de campo que você deve fornecer ao criar um índice do MongoDB Atlas:

  • Nome do índice vetorial — O nome do MongoDB Atlas Vector Search Index em sua coleção.

  • Nome do campo vetorial — O nome do campo no qual o Amazon Bedrock deve armazenar incorporações vetoriais.

  • Nome do campo de texto — O nome do campo no qual o Amazon Bedrock deve armazenar o texto bruto.

  • Nome do campo de metadados — O nome do campo no qual o Amazon Bedrock deve armazenar os metadados de atribuição de origem.

(Opcional) Para que o Amazon Bedrock se conecte ao seu cluster MongoDB Atlas pela PrivateLink AWS, consulte Fluxo de trabalho do RAG com o MongoDB Atlas usando o Amazon Bedrock.