Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Crea una base di conoscenze per contenuti multimodali
Amazon Bedrock Knowledge Bases supporta contenuti multimodali tra cui immagini, file audio e video. Puoi effettuare ricerche utilizzando immagini come query, recuperare contenuti visivamente simili ed elaborare file multimediali insieme ai tradizionali documenti di testo. Questa funzionalità consente di estrarre informazioni da diversi tipi di dati: immagini autonome, registrazioni audio e file video archiviati in tutta l'organizzazione.
Le Knowledge Base di Amazon Bedrock consentono di indicizzare e recuperare informazioni da contenuti testuali, visivi e audio. Le organizzazioni possono ora cercare nei cataloghi di prodotti utilizzando immagini, trovare momenti specifici nei video di formazione e recuperare segmenti pertinenti dalle registrazioni delle chiamate all'assistenza clienti.
Disponibilità regionale
Gli approcci di elaborazione multimodale hanno una disponibilità regionale diversa. Per informazioni dettagliate, consulta Disponibilità regionale.
Caratteristiche e funzionalità
Le basi di conoscenza multimodali forniscono le seguenti funzionalità chiave:
- Interrogazioni basate su immagini
-
Invia immagini come query di ricerca per trovare contenuti visivamente simili quando usi Nova Multimodal Embeddings. Supporta la corrispondenza dei prodotti, la ricerca di somiglianze visive e il recupero delle immagini.
- Recupero di contenuti audio
-
Cerca file audio utilizzando interrogazioni di testo. Recupera segmenti specifici dalle registrazioni con riferimenti a data e ora. La trascrizione audio consente la ricerca testuale tra i contenuti vocali, tra cui riunioni, chiamate e podcast.
- Estrazione di segmenti video
-
Individua momenti specifici all'interno dei file video utilizzando query di testo. Recupera segmenti video con timestamp precisi.
- Ricerca intermodale
-
Cerca tra diversi tipi di dati tra cui documenti di testo, immagini, audio e video. Recupera i contenuti pertinenti indipendentemente dal formato originale.
- Riferimenti alle fonti con timestamp
-
I risultati del recupero includono riferimenti a file originali con metadati temporali per audio e video. Consente una navigazione precisa verso i segmenti pertinenti all'interno dei contenuti multimediali.
- Opzioni di elaborazione flessibili
-
Scegliete tra incorporamenti multimodali nativi per la somiglianza visiva o la conversione del testo per contenuti basati sul parlato. Configura l'approccio di elaborazione in base alle caratteristiche dei contenuti e ai requisiti delle applicazioni.
Come funziona
Le knowledge base multimodali elaborano e recuperano i contenuti attraverso una pipeline in più fasi che gestisce in modo appropriato diversi tipi di dati:
Ingestione ed elaborazione
-
Connessione alla fonte di dati: Collega la tua knowledge base a bucket Amazon S3 o sorgenti dati personalizzate contenenti documenti di testo, immagini, file audio e file video.
-
Rilevamento del tipo di file: il sistema identifica ogni tipo di file in base alla sua estensione e lo indirizza alla pipeline di elaborazione appropriata.
-
Elaborazione del contenuto: a seconda della configurazione, i file vengono elaborati utilizzando uno dei due approcci seguenti:
-
Nova Multimodal Embeddings: conserva il formato nativo per la corrispondenza delle somiglianze visive e audio. Immagini, audio e video vengono incorporati direttamente senza conversione in testo.
-
Bedrock Data Automation (BDA): converte i contenuti multimediali in rappresentazioni testuali. L'audio viene trascritto utilizzando il riconoscimento vocale automatico (ASR), il video viene elaborato per estrarre riassunti e trascrizioni delle scene e le immagini vengono sottoposte all'OCR e all'estrazione del contenuto visivo.
-
-
Generazione di incorporamento: i contenuti elaborati vengono convertiti in incorporamenti vettoriali utilizzando il modello di incorporamento selezionato. Questi incorporamenti catturano il significato semantico e consentono il recupero basato sulla somiglianza.
-
Archiviazione vettoriale: gli incorporamenti vengono archiviati nel database vettoriale configurato insieme ai metadati, tra cui riferimenti ai file, timestamp (per audio e video) e informazioni sul tipo di contenuto.
-
Archiviazione multimodale (opzionale): se configurata, i file multimediali originali vengono copiati su una destinazione di archiviazione multimodale dedicata per un recupero affidabile, garantendo la disponibilità anche se i file di origine vengono modificati o eliminati.
Interrogazione e recupero
-
Elaborazione delle query: le query degli utenti (testo o immagine) vengono convertite in incorporamenti utilizzando lo stesso modello di incorporamento utilizzato durante l'ingestione.
-
Ricerca per similarità: l'incorporamento delle query viene confrontato con gli incorporamenti memorizzati nel database vettoriale per identificare i contenuti più pertinenti.
-
Recupero dei risultati: il sistema restituisce i contenuti corrispondenti con i metadati, tra cui:
-
URI di origine (posizione del file originale)
-
Metadati del timestamp (per segmenti audio e video)
-
Informazioni sul tipo di contenuto e sulla modalità
-
-
Generazione di risposte (opzionale): per
RetrieveAndGeneratele richieste, il contenuto recuperato viene passato a un modello di base per generare risposte testuali pertinenti al contesto. Questa funzionalità è supportata quando si utilizza l'elaborazione BDA o quando la knowledge base contiene contenuto testuale.
Importante
Il sistema restituisce riferimenti a file completi con metadati con timestamp per contenuti audio e video. L'applicazione deve estrarre e riprodurre segmenti specifici in base ai timestamp di inizio e fine forniti. Lo Console di gestione AWS gestisce automaticamente.