Comment ça marche

Les bases de connaissances d'Amazon Bedrock vous aident à tirer parti de la génération augmentée de récupération (RAG), une technique populaire qui consiste à extraire des informations d'un magasin de données pour augmenter les réponses générées par les grands modèles linguistiques (LLM). Lorsque vous configurez une base de connaissances avec vos sources de données, votre application peut interroger la base de connaissances pour renvoyer des informations permettant de répondre à la requête soit avec des citations directes provenant des sources, soit avec des réponses naturelles générées à partir des résultats de la requête.

Avec les bases de connaissances, vous pouvez créer des applications qui sont enrichies par le contexte reçu lors de l’interrogation d’une base de connaissances. Il permet de réduire les délais de mise sur le marché en vous évitant les lourdes tâches liées à la construction de pipelines et en vous fournissant une solution out-of-the-box RAG pour réduire le temps de création de votre application. L’ajout d’une base de connaissances augmente également la rentabilité en évitant d’avoir à entraîner en permanence le modèle afin de tirer parti de vos données privées.

Les schémas suivants illustrent grossièrement le fonctionnement du modèle RAG. La base de connaissances simplifie la configuration et la mise en œuvre de RAG en automatisant plusieurs étapes de ce processus.

Traitement préalable des données

Pour permettre une extraction efficace des données privées, une pratique courante consiste à convertir les données en texte et à les diviser en éléments faciles à gérer. Les pièces ou les morceaux sont ensuite convertis en éléments incorporés et écrits dans un index vectoriel, tout en conservant un mappage avec le document original. Ces intégrations sont utilisées pour déterminer la similitude sémantique entre les requêtes et le texte provenant des sources de données. L’image suivante illustre le traitement préalable des données pour la base de données vectorielles.

Exécution du runtime

Au moment de l’exécution, un modèle d’intégration est utilisé pour convertir la requête de l’utilisateur en vecteur. L’index vectoriel est ensuite interrogé pour trouver les segments dont la sémantique est similaire à la requête de l’utilisateur en comparant les vecteurs de documents au vecteur de requête de l’utilisateur. Au cours de la dernière étape, l’invite utilisateur est complétée par le contexte supplémentaire provenant des segments extraits de l’index vectoriel. L’invite associée au contexte supplémentaire est ensuite envoyée au modèle pour générer une réponse pour l’utilisateur. L’image suivante montre comment la génération augmentée par récupération fonctionne au moment de l’exécution pour compléter les réponses aux requêtes des utilisateurs.

Génération augmentée par récupération au moment de l’exécution

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Bases de connaissances pour Amazon Bedrock

Découpage et analyse du contenu