Come funziona - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Come funziona

Le basi di conoscenza per Amazon Bedrock ti aiutano a sfruttare Retrieval Augmented Generation (RAG), una tecnica popolare che prevede l'estrazione di informazioni da un archivio dati per aumentare le risposte generate dai Large Language Models (LLM). Quando configuri una knowledge base con le tue origini dati, l'applicazione può interrogare la knowledge base per restituire informazioni utili a rispondere alla domanda con citazioni dirette dalle origini o con risposte naturali generate dai risultati della query.

Con le knowledge base, è possibile creare applicazioni arricchite dal contesto ottenuto dall'interrogazione di una knowledge base. Consente un time-to-market più rapido evitando il carico di lavoro delle pipeline di costruzione e fornendoti una soluzione out-of-the-box RAG per ridurre i tempi di creazione della tua applicazione. L'aggiunta di una knowledge base aumenta anche l'efficacia dei costi, eliminando la necessità di addestrare continuamente il modello per poter sfruttare i dati privati.

I seguenti diagrammi illustrano schematicamente come viene eseguita la RAG. La knowledge base semplifica la configurazione e l'implementazione della RAG automatizzando diverse fasi di questo processo.

Pre-elaborazione dei dati

Per consentire un recupero efficace dei dati privati, una pratica comune è quella di suddividere i documenti in blocchi gestibili per un recupero efficiente. I blocchi vengono quindi convertiti in incorporamenti e scritti in un indice vettoriale, mantenendo al contempo una mappatura al documento originale. Questi incorporamenti vengono utilizzati per determinare la somiglianza semantica tra le query e il testo delle origini dati. L'immagine seguente illustra la pre-elaborazione dei dati per il database vettoriale.

Pre-elaborazione dei dati per la Retrieval Augmented Generation

Esecuzione in fase di runtime

In fase di runtime, viene utilizzato un modello di incorporamento per convertire la query dell'utente in un vettore. L'indice vettoriale viene quindi interrogato per trovare blocchi semanticamente simili alla query dell'utente confrontando i vettori del documento con il vettore di query dell'utente. Nel passaggio finale, il prompt dell'utente viene aumentato con il contesto aggiuntivo proveniente dai blocchi recuperati dall'indice vettoriale. Il prompt insieme al contesto aggiuntivo viene quindi inviato al modello per generare una risposta per l'utente. L'immagine seguente mostra come la RAG opera in fase di runtime per migliorare le risposte alle query degli utenti.

Retrieval-Augmented Generation in fase di runtime