Configurez un index vectoriel pour votre base de connaissances dans un magasin de vecteurs compatible - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configurez un index vectoriel pour votre base de connaissances dans un magasin de vecteurs compatible

Vous configurez un index vectoriel pris en charge pour indexer vos sources de données en créant des champs pour stocker les données suivantes.

  • Les vecteurs générés à partir du texte de votre source de données par le modèle d'intégration que vous avez choisi.

  • Les fragments de texte extraits des fichiers de votre source de données.

  • Métadonnées relatives à votre base de connaissances gérée par Amazon Bedrock.

  • (Si vous utilisez une base de données Amazon Aurora et que vous souhaitez configurer le filtrage) Métadonnées que vous associez à vos fichiers source. Si vous envisagez de configurer le filtrage dans d'autres magasins de vecteurs, il n'est pas nécessaire de configurer ces champs pour le filtrage.

Sélectionnez l'onglet correspondant au service que vous allez utiliser pour créer votre index vectoriel.

Note

Si vous préférez qu'Amazon Bedrock crée automatiquement un index vectoriel dans Amazon OpenSearch Serverless pour vous, ignorez cette condition préalable et passez à. Création d’une base de connaissances Pour savoir comment configurer un index vectoriel, sélectionnez l'onglet correspondant à la méthode de votre choix et suivez les étapes.

Amazon OpenSearch Serverless
  1. Pour configurer les autorisations et créer une collection de recherche vectorielle dans Amazon OpenSearch Serverless dans le AWS Management Console, suivez les étapes 1 et 2 de la section Utilisation des collections de recherche vectorielle dans le manuel Amazon OpenSearch Service Developer Guide. Tenez compte des considérations suivantes lors de la configuration de votre collection :

    1. Donnez à la collection un nom et une description de votre choix.

    2. Pour rendre votre collection privée, sélectionnez Création standard dans la section Sécurité. Ensuite, dans la section Paramètres d'accès au réseau, sélectionnez VPC comme type d'accès et choisissez un point de terminaison VPC. Pour plus d'informations sur la configuration d'un point de terminaison VPC pour une collection Amazon Serverless, consultez Access Amazon OpenSearch OpenSearch Serverless à l'aide d'un point de terminaison d'interface ()AWS PrivateLink dans le manuel Amazon OpenSearch Service Developer Guide.

  2. Une fois la collection créée, prenez note de l'ARN de la collection lorsque vous créez la base de connaissances.

  3. Dans le volet de navigation de gauche, sélectionnez Collections sous Serverless. Sélectionnez ensuite votre collection de recherche vectorielle.

  4. Sélectionnez l'onglet Indexes. Choisissez ensuite Créer un index vectoriel.

  5. Dans la section Détails de l'index vectoriel, entrez le nom de votre index dans le champ Nom de l'index vectoriel.

  6. Dans la section Champs vectoriels, choisissez Ajouter un champ vectoriel. Amazon Bedrock stocke les intégrations vectorielles de votre source de données dans ce champ. Fournissez les configurations suivantes :

    • Nom du champ vectoriel — Donnez un nom au champ (par exemple,embeddings).

    • Moteur — Le moteur vectoriel utilisé pour la recherche. Sélectionnez Faiss.

    • Dimensions : nombre de dimensions du vecteur. Reportez-vous au tableau suivant pour déterminer le nombre de dimensions que le vecteur doit contenir :

      Modèle Dimensions
      TitanIntégrations G1 - Texte 1 536
      CohereEmbedAnglais 1,024
      CohereEmbedMultilingue 1,024
    • Métrique de distance : métrique utilisée pour mesurer la similarité entre les vecteurs. Nous vous recommandons d'utiliser Euclidean.

  7. Développez la section Gestion des métadonnées et ajoutez deux champs pour configurer l'index vectoriel afin de stocker des métadonnées supplémentaires qu'une base de connaissances peut récupérer à l'aide de vecteurs. Le tableau suivant décrit les champs et les valeurs à spécifier pour chaque champ :

    Description du champ Champ de mappage Type de données Filtrable
    Amazon Bedrock découpe le texte brut de vos données et stocke les fragments dans ce champ. Nom de votre choix (par exemple,text) Chaîne True
    Amazon Bedrock stocke les métadonnées relatives à votre base de connaissances dans ce domaine. Nom de votre choix (par exemple,bedrock-metadata) Chaîne False
  8. Prenez note des noms que vous choisissez pour le nom de l'index vectoriel, le nom du champ vectoriel et les noms des champs de mappage de gestion des métadonnées lorsque vous créez votre base de connaissances. Ensuite, choisissez Créer.

Une fois l'index vectoriel créé, vous pouvez procéder à la création de votre base de connaissances. Le tableau suivant indique où vous allez entrer chaque information dont vous avez pris note.

Champ Champ correspondant dans la configuration de la base de connaissances (console) Champ correspondant dans la configuration de la base de connaissances (API) Description
ARN de collecte ARN de collecte Collection Arn Le nom de ressource Amazon (ARN) de la collection de recherche vectorielle.
Nom de l'index vectoriel Nom de l'index vectoriel vectorIndexName Nom de l'index vectoriel.
Nom du champ vectoriel Champ vectoriel Champ vectoriel Nom du champ dans lequel vous souhaitez stocker les intégrations vectorielles pour vos sources de données.
Gestion des métadonnées (premier champ de mappage) Champ de texte Champ de texte Nom du champ dans lequel vous souhaitez stocker le texte brut issu de vos sources de données.
Gestion des métadonnées (deuxième champ de mappage) Champ de métadonnées géré par Bedrock Champ de métadonnées Nom du champ dans lequel stocker les métadonnées gérées par Amazon Bedrock.

Pour une documentation plus détaillée sur la configuration d'un magasin vectoriel dans Amazon OpenSearch Serverless, consultez la section Utilisation des collections de recherche vectorielle dans le manuel Amazon OpenSearch Service Developer Guide.

Amazon Aurora
  1. Créez un cluster, un schéma et une table de base de données (DB) Amazon Aurora en suivant les étapes décrites dans Préparation d'Aurora PostgreSQL à utiliser comme base de connaissances. Lorsque vous créez la table, configurez-la avec les colonnes et les types de données suivants. Vous pouvez utiliser les noms de colonne de votre choix au lieu de ceux répertoriés dans le tableau suivant. Prenez note des noms de colonne que vous choisissez afin de pouvoir les fournir lors de la configuration de la base de connaissances.

    Nom de la colonne Type de données Champ correspondant dans la configuration de la base de connaissances (console) Champ correspondant dans la configuration de la base de connaissances (API) Description
    id Clé primaire UUID Clé primaire primaryKeyField Contient des identifiants uniques pour chaque enregistrement.
    embedding Vector Champ vectoriel vectorField Contient les intégrations vectorielles des sources de données.
    morceaux Texte Champ de texte textField Contient les segments de texte brut provenant de vos sources de données.
    métadonnées JSON Champ de métadonnées géré par Bedrock metadataField Contient les métadonnées nécessaires pour effectuer l’attribution de la source et pour permettre l’ingestion et l’interrogation des données
  2. (Facultatif) Si vous avez ajouté des métadonnées à vos fichiers à des fins de filtrage, vous devez également créer une colonne pour chaque attribut de métadonnées de vos fichiers et spécifier le type de données (texte, nombre ou booléen). Par exemple, si l'attribut genre existe dans votre source de données, vous devez ajouter une colonne nommée genre et spécifier text comme type de données. Pendant l'ingestion, ces colonnes seront remplies avec les valeurs d'attribut correspondantes.

  3. Configurez un AWS Secrets Manager secret pour votre cluster de base de données Aurora en suivant les étapes décrites dans Gestion des mots de passe avec Amazon Aurora et AWS Secrets Manager.

  4. Prenez note des informations suivantes après avoir le votre cluster de bases de données et après avoir configuré le secret.

    Champ dans la configuration de la base de connaissances (console) Champ dans la configuration de la base de connaissances (API) Description
    ARN du cluster de bases de données Amazon Aurora resourceArn ARN du cluster de bases de données.
    Nom de base de données databaseName Nom de la base de données.
    Nom de la table tableName Nom de la table dans le cluster de bases de données
    ARN du secret credentialsSecretArn L'ARN de la AWS Secrets Manager clé pour votre cluster de base de données
Pinecone
Note

Si vous l'utilisezPinecone, vous acceptez d'autoriser l'accès AWS à la source tierce désignée en votre nom afin de vous fournir des services de boutique vectorielle. Vous êtes tenu de respecter toutes les conditions de tiers applicables pour l'utilisation et le transfert de données à partir du service tiers.

Pour une documentation détaillée sur la configuration d'un magasin vectoriel dansPinecone, consultez Pinecone en tant que base de connaissances pour Amazon Bedrock.

Lorsque vous configurez le stockage vectoriel, prenez note des informations suivantes, que vous renseignerez lors de la création d’une base de connaissances :

  • Chaîne de connexion : URL du point de terminaison de votre page de gestion d'index.

  • Namespace — (Facultatif) L'espace de noms à utiliser pour écrire de nouvelles données dans votre base de données. Pour plus d’informations, consultez Utilisation d’espaces de noms.

Vous devez fournir des configurations supplémentaires lors de la création d'un Pinecone index :

  • Nom : nom de l’index vectoriel. Utilisez n’importe quel nom valide de votre choix. Ultérieurement, lorsque vous créerez votre base de connaissances, entrez le nom que vous avez choisi dans le champ Nom de l’index vectoriel.

  • Dimensions : nombre de dimensions du vecteur. Reportez-vous au tableau suivant pour déterminer le nombre de dimensions que le vecteur doit contenir.

    Modèle Dimensions
    TitanIntégrations G1 - Texte 1 536
    CohereEmbedAnglais 1,024
    CohereEmbedMultilingue 1,024
  • Métrique de distance : métrique utilisée pour mesurer la similarité entre les vecteurs. Nous vous recommandons de tester différentes métriques pour votre cas d’utilisation. Nous vous recommandons de commencer par la similitude des cosinus.

Pour accéder à votre Pinecone index, vous devez fournir votre clé Pinecone d'API à Amazon Bedrock via le AWS Secrets Manager.

Pour définir un secret pour votre Pinecone configuration
  1. Suivez les étapes décrites dans Créer un AWS Secrets Manager secret, en définissant la clé apiKey et la valeur comme clé d'API pour accéder à votre Pinecone index.

  2. Pour trouver votre clé d’API, ouvrez la console Pinecone et sélectionnez Clés d’API.

  3. Après avoir créé le secret, prenez note de l’ARN de la clé KMS.

  4. Associez des autorisations à votre fonction du service pour déchiffrer l’ARN de la clé KMS en suivant les étapes décrites dans Autorisations permettant de déchiffrer un AWS Secrets Manager secret pour le magasin de vecteurs contenant votre base de connaissances.

  5. Ultérieurement, lorsque vous créerez votre base de connaissances, entrez l’ARN dans le champ ARN secret des informations d’identification.

Redis Enterprise Cloud
Note

Si vous l'utilisezRedis Enterprise Cloud, vous acceptez d'autoriser l'accès AWS à la source tierce désignée en votre nom afin de vous fournir des services de boutique vectorielle. Vous êtes responsable du respect de toutes les conditions de tiers applicables à l'utilisation et au transfert de données depuis le service tiers.

Pour une documentation détaillée sur la configuration d'un magasin vectoriel dansRedis Enterprise Cloud, consultez la section Intégration Redis Enterprise Cloud à Amazon Bedrock.

Lorsque vous configurez le stockage vectoriel, prenez note des informations suivantes, que vous renseignerez lors de la création d’une base de connaissances :

  • URL du point de terminaison : URL du point de terminaison public de votre base de données.

  • Nom de l'index vectoriel : nom de l'index vectoriel de votre base de données.

  • Champ vectoriel : nom du champ dans lequel les intégrations vectorielles seront stockées. Reportez-vous au tableau suivant pour déterminer le nombre de dimensions que le vecteur doit contenir.

    Modèle Dimensions
    TitanIntégrations G1 - Texte 1 536
    CohereEmbedAnglais 1,024
    CohereEmbedMultilingue 1,024
  • Champ de texte : nom du champ dans lequel Amazon Bedrock stocke les parties de texte brut.

  • Champ de métadonnées géré par Bedrock : nom du champ dans lequel Amazon Bedrock stocke les métadonnées relatives à votre base de connaissances.

Pour accéder à votre Redis Enterprise Cloud cluster, vous devez fournir votre configuration Redis Enterprise Cloud de sécurité à Amazon Bedrock via le AWS Secrets Manager.

Pour définir un secret pour votre Redis Enterprise Cloud configuration
  1. Activez TLS pour utiliser la base de données avec Amazon Bedrock en suivant les étapes décrites dans Transport Layer Security (TLS).

  2. Suivez les étapes décrites dans la section Créer un AWS Secrets Manager secret. Configurez les clés suivantes avec les valeurs appropriées de votre Redis Enterprise Cloud configuration dans le secret :

    • username— Le nom d'utilisateur pour accéder à votre Redis Enterprise Cloud base de données. Pour trouver votre nom d’utilisateur, consultez la section Sécurité de votre base de données dans la console Redis.

    • password— Le mot de passe pour accéder à votre Redis Enterprise Cloud base de données. Pour trouver votre mot de passe, consultez la section Sécurité de votre base de données dans la console Redis.

    • serverCertificate : contenu du certificat délivré par l’autorité de certification Redis Cloud. Téléchargez le certificat de serveur depuis la console d’administration Redis en suivant les étapes de la section Télécharger les certificats.

    • clientPrivateKey : clé privée du certificat délivré par l’autorité de certification Redis Cloud. Téléchargez le certificat de serveur depuis la console d’administration Redis en suivant les étapes de la section Télécharger les certificats.

    • clientCertificate : clé publique du certificat délivré par l’autorité de certification Redis Cloud. Téléchargez le certificat de serveur depuis la console d’administration Redis en suivant les étapes de la section Télécharger les certificats.

  3. Après avoir créé le secret, prenez note de son ARN. Ultérieurement, lorsque vous créerez votre base de connaissances, entrez l’ARN dans le champ ARN secret des informations d’identification.

MongoDB Atlas
Note

Si vous utilisez MongoDB Atlas, vous acceptez d'autoriser l'accès AWS à la source tierce désignée en votre nom afin de vous fournir des services de boutique vectorielle. Vous êtes tenu de respecter toutes les conditions de tiers applicables pour l'utilisation et le transfert de données à partir du service tiers.

Pour une documentation détaillée sur la configuration d'un magasin vectoriel dans MongoDB Atlas, consultez MongoDB Atlas en tant que base de connaissances pour Amazon Bedrock.

Lorsque vous configurez le magasin vectoriel, notez les informations suivantes que vous ajouterez lors de la création d'une base de connaissances :

  • URL du point de terminaison : URL du point de terminaison de votre cluster MongoDB Atlas.

  • Nom de la base de données : nom de la base de données de votre cluster MongoDB Atlas.

  • Nom de la collection : nom de la collection dans votre base de données.

  • ARN secret des informations d'identification : nom de ressource Amazon (ARN) du secret que vous avez créé dans AWS Secrets Manager et qui contient le nom d'utilisateur et le mot de passe d'un utilisateur de base de données dans votre cluster MongoDB Atlas.

  • (Facultatif) Clé KMS gérée par le client pour votre ARN secret d'identification : si vous avez chiffré l'ARN secret de vos informations d'identification, fournissez la clé KMS afin qu'Amazon Bedrock puisse la déchiffrer.

Il existe des configurations supplémentaires pour le mappage de champs que vous devez fournir lors de la création d'un index MongoDB Atlas :

  • Nom de l'index vectoriel : nom de l'index de recherche vectorielle MongoDB Atlas de votre collection.

  • Nom du champ vectoriel : nom du champ dans lequel Amazon Bedrock doit stocker les intégrations vectorielles.

  • Nom du champ de texte : nom du champ dans lequel Amazon Bedrock doit stocker le texte brut.

  • Nom du champ de métadonnées : nom du champ dans lequel Amazon Bedrock doit stocker les métadonnées d'attribution de source.

(Facultatif) Pour qu'Amazon Bedrock se connecte à votre cluster MongoDB Atlas via PrivateLink AWS, consultez le flux de travail RAG avec MongoDB Atlas à l'aide d'Amazon Bedrock.