Comment ça marche - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Comment ça marche

Les bases de connaissances d'Amazon Bedrock vous aident à tirer parti de la génération augmentée de récupération (RAG), une technique populaire qui consiste à extraire des informations d'un magasin de données pour augmenter les réponses générées par les grands modèles linguistiques (LLM). Lorsque vous configurez une base de connaissances avec vos sources de données, votre application peut interroger la base de connaissances pour renvoyer des informations permettant de répondre à la requête soit avec des citations directes provenant des sources, soit avec des réponses naturelles générées à partir des résultats de la requête.

Avec les bases de connaissances, vous pouvez créer des applications qui sont enrichies par le contexte reçu lors de l’interrogation d’une base de connaissances. Il permet de réduire les délais de mise sur le marché en vous évitant les lourdes tâches liées à la construction de pipelines et en vous fournissant une solution out-of-the-box RAG pour réduire le temps de création de votre application. L’ajout d’une base de connaissances augmente également la rentabilité en évitant d’avoir à entraîner en permanence le modèle afin de tirer parti de vos données privées.

Les schémas suivants illustrent grossièrement le fonctionnement du modèle RAG. La base de connaissances simplifie la configuration et la mise en œuvre de RAG en automatisant plusieurs étapes de ce processus.

Traitement préalable des données

Pour permettre une récupération efficace à partir des données privées, une pratique courante consiste à commencer par fractionner les documents en segments faciles à gérer. Les segments sont ensuite convertis en intégrations et écrits dans un index vectoriel, tout en conservant un mappage avec le document d’origine. Ces intégrations sont utilisées pour déterminer la similitude sémantique entre les requêtes et le texte provenant des sources de données. L’image suivante illustre le traitement préalable des données pour la base de données vectorielles.

Traitement préalable des données pour une génération augmentée par récupération

Exécution du runtime

Au moment de l’exécution, un modèle d’intégration est utilisé pour convertir la requête de l’utilisateur en vecteur. L’index vectoriel est ensuite interrogé pour trouver les segments dont la sémantique est similaire à la requête de l’utilisateur en comparant les vecteurs de documents au vecteur de requête de l’utilisateur. Au cours de la dernière étape, l’invite utilisateur est complétée par le contexte supplémentaire provenant des segments extraits de l’index vectoriel. L’invite associée au contexte supplémentaire est ensuite envoyée au modèle pour générer une réponse pour l’utilisateur. L’image suivante montre comment la génération augmentée par récupération fonctionne au moment de l’exécution pour compléter les réponses aux requêtes des utilisateurs.

Génération augmentée par récupération au moment de l’exécution