Configura un índice vectorial para tu base de conocimientos en una tienda vectorial compatible - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configura un índice vectorial para tu base de conocimientos en una tienda vectorial compatible

Para configurar un índice vectorial compatible para indexar las fuentes de datos, debe crear campos para almacenar los siguientes datos.

  • Los vectores generados a partir del texto de la fuente de datos mediante el modelo de incrustaciones que elija.

  • Los fragmentos de texto extraídos de los archivos de la fuente de datos.

  • Metadatos relacionados con la base de conocimientos que administra Amazon Bedrock.

  • (Si utiliza una base de datos de Amazon Aurora y desea configurar el filtrado) Metadatos que asocie a sus archivos de origen. Si planea configurar el filtrado en otros almacenes de vectores, no tiene que configurar estos campos para el filtrado.

Selecciona la pestaña correspondiente al servicio que usarás para crear tu índice vectorial.

nota

Si prefiere que Amazon Bedrock cree automáticamente un índice vectorial en Amazon OpenSearch Serverless, omita este requisito previo y continúe con. Creación de una base de conocimientos Para obtener información sobre cómo configurar un índice vectorial, seleccione la pestaña correspondiente al método que prefiera y siga los pasos.

Amazon OpenSearch Serverless
  1. Para configurar los permisos y crear una colección de búsquedas vectoriales en Amazon OpenSearch Serverless AWS Management Console, siga los pasos 1 y 2 de Cómo trabajar con colecciones de búsquedas vectoriales de la Guía para desarrolladores de Amazon OpenSearch Service. Tenga en cuenta las siguientes consideraciones al configurar su colección:

    1. Dé a la colección un nombre y una descripción de su elección.

    2. Para hacer que su colección sea privada, seleccione Creación estándar en la sección Seguridad. A continuación, en la sección Configuración de acceso a la red, seleccione VPC como tipo de acceso y elija un punto final de VPC. Para obtener más información sobre la configuración de un punto de enlace de VPC para una colección de Amazon OpenSearch Serverless, consulte Acceder a Amazon OpenSearch Serverless mediante un punto de enlace de interfaz ()AWS PrivateLink en la Guía para desarrolladores de Amazon OpenSearch Service.

  2. Una vez creada la colección, anote el ARN de la colección para crear la base de conocimientos.

  3. En el panel de navegación izquierdo, selecciona Colecciones en Serverless. A continuación, selecciona tu colección de búsqueda vectorial.

  4. Selecciona la pestaña Índices. A continuación, elija Crear índice vectorial.

  5. En la sección de detalles del índice vectorial, introduce un nombre para el índice en el campo Nombre del índice vectorial.

  6. En la sección Campos vectoriales, selecciona Añadir campo vectorial. Amazon Bedrock almacena las incrustaciones vectoriales de la fuente de datos en este campo. Proporcione las siguientes configuraciones:

    • Nombre del campo vectorial: proporcione un nombre para el campo (por ejemplo,embeddings).

    • Motor: el motor vectorial utilizado para la búsqueda. Selecciona faiss.

    • Dimensiones: el número de dimensiones del vector. Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector:

      Modelo Dimensiones
      TitanIncrustaciones G1: texto 1536
      CohereEmbedInglés 1 024
      CohereEmbedmultilingüe 1 024
    • Métrica de distancia: métrica que se utiliza para medir la similitud entre los vectores. Recomendamos usar Euclidean.

  7. Amplíe la sección de administración de metadatos y añada dos campos para configurar el índice vectorial a fin de almacenar metadatos adicionales que una base de conocimientos pueda recuperar con vectores. En la siguiente tabla se describen los campos y los valores que se deben especificar para cada campo:

    Descripción del campo Campo de mapeo Tipo de datos Filtrable
    Amazon Bedrock divide el texto sin procesar de los datos y los almacena en este campo. Nombre de su elección (por ejemplo,) text Cadena True
    Amazon Bedrock almacena los metadatos relacionados con su base de conocimientos en este campo. Nombre de su elección (por ejemplo,bedrock-metadata) Cadena False
  8. Al crear la base de conocimientos, tome nota de los nombres que elija para el nombre del índice vectorial, el nombre del campo vectorial y los nombres de los campos de mapeo de gestión de metadatos. A continuación, seleccione Crear.

Una vez creado el índice vectorial, puede continuar con la creación de su base de conocimientos. En la siguiente tabla se resume dónde ingresará cada dato del que haya tomado nota.

Campo Campo correspondiente en la configuración de la base de conocimientos (consola) Campo correspondiente en la configuración de la base de conocimientos (API) Descripción
ARN de colección ARN de colección Colección ARN El nombre del recurso de Amazon (ARN) de la colección de búsqueda vectorial.
Nombre del índice vectorial Nombre del índice vectorial vectorIndexName Nombre del índice vectorial.
Nombre del campo vectorial Campo vectorial Campo vectorial El nombre del campo en el que se van a almacenar las incrustaciones vectoriales para las fuentes de datos.
Administración de metadatos (primer campo de mapeo) Campo de texto Campo de texto El nombre del campo en el que se almacenará el texto sin procesar de las fuentes de datos.
Administración de metadatos (segundo campo de mapeo) Campo de metadatos gestionado por Bedrock Campo de metadatos El nombre del campo en el que se almacenan los metadatos que administra Amazon Bedrock.

Para obtener documentación más detallada sobre la configuración de un almacén vectorial en Amazon OpenSearch Serverless, consulte Cómo trabajar con colecciones de búsquedas vectoriales en la Guía para desarrolladores de Amazon OpenSearch Service.

Amazon Aurora
  1. Cree un clúster, un esquema y una tabla de base de datos (DB) de Amazon Aurora siguiendo los pasos que se indican en Preparación de Aurora PostgreSQL para su uso como base de conocimientos. Al crear la tabla, configúrela con las siguientes columnas y tipos de datos. Puede utilizar los nombres de columna que prefiera en lugar de los que aparecen en la tabla siguiente. Tome nota de los nombres de las columnas que elija para poder proporcionarlos durante la configuración de la base de conocimientos.

    Nombre de la columna Tipo de datos Campo correspondiente en la configuración de la base de conocimientos (consola) Campo correspondiente en la configuración de la base de conocimientos (API) Descripción
    id UUID clave principal Clave principal primaryKeyField Contiene identificadores únicos para cada registro.
    Incrustación Vector Campo vectorial vectorField Contiene las incrustaciones vectoriales de los orígenes de datos.
    trozos Texto Campo de texto textField Contiene los fragmentos de texto sin procesar de los orígenes de datos.
    metadatos JSON Campo de metadatos gestionado por Bedrock metadataField Contiene los metadatos necesarios para llevar a cabo la atribución del origen y para permitir la ingesta y consulta de datos
  2. (Opcional) Si ha añadido metadatos a los archivos para filtrarlos, también debe crear una columna para cada atributo de metadatos de los archivos y especificar el tipo de datos (texto, número o booleano). Por ejemplo, si el atributo genre existe en la fuente de datos, añadiría una columna con el nombre genre y la especificaría text como tipo de datos. Durante la ingesta, estas columnas se rellenarán con los valores de atributo correspondientes.

  3. Configure un AWS Secrets Manager secreto para su clúster de base de datos Aurora siguiendo los pasos de Administración de contraseñas con Amazon Aurora y AWS Secrets Manager.

  4. Tome nota de la siguiente información después de crear el clúster de base de datos y configurar el secreto.

    Campo en la configuración de la base de conocimientos (consola) Campo en la configuración de la base de conocimientos (API) Descripción
    ARN del clúster de base de datos de Amazon Aurora resourceArn El ARN del clúster de base de datos.
    Nombre de base de datos databaseName El nombre de la base de datos
    Nombre de la tabla tableName El nombre de la tabla en su clúster de base de datos.
    ARN del secreto credentialsSecretArn El ARN de la AWS Secrets Manager clave de su clúster de base de datos
Pinecone
nota

Si lo usaPinecone, acepta autorizar el acceso AWS a la fuente externa designada en su nombre para proporcionarle servicios de almacenamiento vectorial. Usted es responsable de cumplir con las condiciones de terceros aplicables al uso y la transferencia de datos desde el servicio de terceros.

Para obtener documentación detallada sobre cómo configurar un almacén de vectores enPinecone, consulte Pinecone como base de conocimientos para Amazon Bedrock.

Mientras configura el almacén vectorial, anote la información siguiente, que deberá rellenar al crear una base de conocimientos.

  • Cadena de conexión: la URL del punto final de la página de administración del índice.

  • Espacio de nombres: (opcional) el espacio de nombres que se utilizará para escribir nuevos datos en la base de datos. Para obtener más información, consulte Uso de espacios de nombres.

Hay configuraciones adicionales que debe proporcionar al crear un índice: Pinecone

  • Nombre: el nombre del índice vectorial. Elija cualquier nombre válido que desee. Más adelante, cuando cree su base de conocimientos, introduzca el nombre que elija en el campo Nombre del índice vectorial.

  • Dimensiones: el número de dimensiones del vector. Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector.

    Modelo Dimensiones
    TitanIncrustaciones G1: texto 1536
    CohereEmbedInglés 1 024
    CohereEmbedmultilingüe 1 024
  • Métrica de distancia: métrica que se utiliza para medir la similitud entre los vectores. Le recomendamos que experimente con diferentes métricas para su caso de uso. Recomendamos comenzar con la similitud de coseno.

Para acceder a su Pinecone índice, debe proporcionar su clave de Pinecone API a Amazon Bedrock a través del AWS Secrets Manager.

Para configurar un secreto para su Pinecone configuración
  1. Siga los pasos que se indican en Crear un AWS Secrets Manager secreto y establezca la clave como clave de API apiKey y el valor como clave de API para acceder a su Pinecone índice.

  2. Para encontrar su clave de API, abra la consola de Pinecone y seleccione Claves de API.

  3. Después de crear el secreto, anote el ARN de la clave KMS.

  4. Asocie permisos a su rol de servicio para descifrar el ARN de la clave KMS siguiendo los pasos que se indican en Permisos para descifrar un AWS Secrets Manager secreto para el almacén de vectores que contiene tu base de conocimientos.

  5. Más adelante, cuando cree su base de conocimientos, introduzca el ARN en el campo ARN secreto de credenciales.

Redis Enterprise Cloud
nota

Si la utilizasRedis Enterprise Cloud, aceptas autorizarte AWS a acceder a la fuente externa designada en tu nombre para proporcionarte servicios de tienda vectorial. Eres responsable de cumplir con las condiciones de terceros aplicables al uso y la transferencia de datos desde el servicio de terceros.

Para obtener documentación detallada sobre cómo configurar un almacén de vectores enRedis Enterprise Cloud, consulte Integración Redis Enterprise Cloud con Amazon Bedrock.

Mientras configura el almacén vectorial, anote la información siguiente, que deberá rellenar al crear una base de conocimientos.

  • URL de punto final: la URL de punto final pública de su base de datos.

  • Nombre del índice vectorial: el nombre del índice vectorial de la base de datos.

  • Campo vectorial: el nombre del campo en el que se almacenarán las incrustaciones vectoriales. Consulte la siguiente tabla para determinar cuántas dimensiones debe contener el vector.

    Modelo Dimensiones
    TitanIncrustaciones G1: texto 1536
    CohereEmbedInglés 1 024
    CohereEmbedmultilingüe 1 024
  • Campo de texto: el nombre del campo en el que Amazon Bedrock almacena los fragmentos de texto sin procesar.

  • Campo de metadatos gestionado por Bedrock: el nombre del campo en el que Amazon Bedrock almacena los metadatos relacionados con su base de conocimientos.

Para acceder a su Redis Enterprise Cloud clúster, debe proporcionar su configuración Redis Enterprise Cloud de seguridad a Amazon Bedrock a través del AWS Secrets Manager.

Para configurar un secreto para su Redis Enterprise Cloud configuración
  1. Habilite TLS para usar su base de datos con Amazon Bedrock siguiendo los pasos de seguridad de la capa de transporte (TLS).

  2. Sigue los pasos que se indican en Crear un AWS Secrets Manager secreto. Configure las siguientes claves con los valores correspondientes de su Redis Enterprise Cloud configuración en el secreto:

    • username— El nombre de usuario para acceder a la Redis Enterprise Cloud base de datos. Para encontrar el nombre de usuario, busque en la sección Seguridad de su base de datos en la Consola de Redis.

    • password— La contraseña para acceder a su Redis Enterprise Cloud base de datos. Para encontrar la contraseña, busque en la sección Seguridad de su base de datos en la Consola de Redis.

    • serverCertificate: el contenido del certificado de la autoridad de certificación de Redis Cloud. Descargue el certificado del servidor desde la Consola de administración de Redis siguiendo los pasos que se indican en Descargar los certificados.

    • clientPrivateKey: la clave privada del certificado de la autoridad de certificación de Redis Cloud. Descargue el certificado del servidor desde la Consola de administración de Redis siguiendo los pasos que se indican en Descargar los certificados.

    • clientCertificate: la clave pública del certificado de la autoridad de certificación de Redis Cloud. Descargue el certificado del servidor desde la Consola de administración de Redis siguiendo los pasos que se indican en Descargar los certificados.

  3. Después de crear el secreto, anote su ARN. Más adelante, cuando cree su base de conocimientos, introduzca el ARN en el campo ARN secreto de credenciales.

MongoDB Atlas
nota

Si utiliza MongoDB Atlas, acepta AWS autorizar el acceso a la fuente externa designada en su nombre para proporcionarle servicios de almacenamiento vectorial. Usted es responsable de cumplir con las condiciones de terceros aplicables al uso y la transferencia de datos desde el servicio de terceros.

Para obtener documentación detallada sobre la configuración de un almacén de vectores en MongoDB Atlas, consulte MongoDB Atlas como base de conocimientos para Amazon Bedrock.

Cuando configure el almacén de vectores, anote la siguiente información, que añadirá al crear una base de conocimientos:

  • URL del punto final: la URL del punto final de su clúster de MongoDB Atlas.

  • Nombre de la base de datos: el nombre de la base de datos de su clúster de MongoDB Atlas.

  • Nombre de la colección: el nombre de la colección de la base de datos.

  • ARN secreto de credenciales: el nombre de recurso de Amazon (ARN) del secreto que creó en AWS Secrets Manager y que contiene el nombre de usuario y la contraseña de un usuario de base de datos de su clúster de MongoDB Atlas.

  • (Opcional) Clave de KMS administrada por el cliente para el ARN secreto de sus credenciales: si ha cifrado el ARN secreto de sus credenciales, proporcione la clave de KMS para que Amazon Bedrock pueda descifrarla.

Hay configuraciones adicionales para el mapeo de campos que debe proporcionar al crear un índice de MongoDB Atlas:

  • Nombre del índice vectorial: el nombre del índice de búsqueda vectorial de MongoDB Atlas de su colección.

  • Nombre del campo vectorial: el nombre del campo en el que Amazon Bedrock debe almacenar las incrustaciones vectoriales.

  • Nombre del campo de texto: el nombre del campo en el que Amazon Bedrock debe almacenar el texto sin procesar.

  • Nombre del campo de metadatos: el nombre del campo en el que Amazon Bedrock debe almacenar los metadatos de atribución de origen.

(Opcional) Para que Amazon Bedrock se conecte a su clúster de MongoDB Atlas a través de PrivateLink AWS, consulte Flujo de trabajo de RAG con MongoDB Atlas mediante Amazon Bedrock.