As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Crie uma base de conhecimento para conteúdo multimodal
O Amazon Bedrock Knowledge Bases oferece suporte a conteúdo multimodal, incluindo arquivos de imagens, áudio e vídeo. Você pode pesquisar usando imagens como consultas, recuperar conteúdo visualmente semelhante e processar arquivos multimídia junto com documentos de texto tradicionais. Esse recurso permite que você extraia insights de diversos tipos de dados — imagens independentes, gravações de áudio e arquivos de vídeo armazenados em toda a sua organização.
As bases de conhecimento Amazon Bedrock permitem que você indexe e recupere informações de conteúdo de texto, visual e áudio. Agora, as organizações podem pesquisar catálogos de produtos usando imagens, encontrar momentos específicos em vídeos de treinamento e recuperar segmentos relevantes das gravações de chamadas de suporte ao cliente.
Disponibilidade regional
As abordagens de processamento multimodal têm diferentes disponibilidades regionais. Para obter informações detalhadas, consulte Disponibilidade regional.
Recursos e capacidades
As bases de conhecimento multimodais fornecem os seguintes recursos principais:
- Consultas baseadas em imagens
-
Envie imagens como consultas de pesquisa para encontrar conteúdo visualmente semelhante ao usar o Nova Multimodal Embeddings. Oferece suporte à correspondência de produtos, à pesquisa visual por similaridade e à recuperação de imagens.
- Recuperação de conteúdo de áudio
-
Pesquise arquivos de áudio usando consultas de texto. Recupere segmentos específicos de gravações com referências de carimbo de data/hora. A transcrição de áudio permite a pesquisa baseada em texto em conteúdo falado, incluindo reuniões, chamadas e podcasts.
- Extração de segmentos de vídeo
-
Localize momentos específicos em arquivos de vídeo usando consultas de texto. Recupere segmentos de vídeo com registros de data e hora precisos.
- Pesquisa multimodal
-
Pesquise em diferentes tipos de dados, incluindo documentos de texto, imagens, áudio e vídeo. Recupere conteúdo relevante, independentemente do formato original.
- Referências de origem com carimbos de data/hora
-
Os resultados da recuperação incluem referências aos arquivos originais com metadados temporais para áudio e vídeo. Permite uma navegação precisa para segmentos relevantes dentro do conteúdo multimídia.
- Opções flexíveis de processamento
-
Escolha entre incorporações multimodais nativas para semelhança visual ou conversão de texto para conteúdo baseado em fala. Configure a abordagem de processamento com base nas características do conteúdo e nos requisitos do aplicativo.
Como funciona
As bases de conhecimento multimodais processam e recuperam conteúdo por meio de um pipeline de vários estágios que lida adequadamente com diferentes tipos de dados:
Ingestão e processamento
-
Conexão com a fonte de dados: conecte sua base de conhecimento aos buckets do Amazon S3 ou fontes de dados personalizadas contendo documentos de texto, imagens, arquivos de áudio e arquivos de vídeo.
-
Detecção do tipo de arquivo: o sistema identifica cada tipo de arquivo por sua extensão e o encaminha para o pipeline de processamento apropriado.
-
Processamento de conteúdo: dependendo da sua configuração, os arquivos são processados usando uma das duas abordagens:
-
Nova Multimodal Embeddings: preserva o formato nativo para correspondência de similaridade visual e de áudio. Imagens, áudio e vídeo são incorporados diretamente sem conversão em texto.
-
Bedrock Data Automation (BDA): converte multimídia em representações de texto. O áudio é transcrito usando o Reconhecimento Automático de Fala (ASR), o vídeo é processado para extrair resumos e transcrições de cenas e as imagens passam por OCR e extração de conteúdo visual.
-
-
Geração de incorporação: o conteúdo processado é convertido em incorporações vetoriais usando o modelo de incorporação selecionado. Essas incorporações capturam o significado semântico e permitem a recuperação baseada em similaridade.
-
Armazenamento vetorial: as incorporações são armazenadas em seu banco de dados vetoriais configurado junto com metadados, incluindo referências de arquivos, registros de data e hora (para áudio e vídeo) e informações do tipo de conteúdo.
-
Armazenamento multimodal (opcional): se configurados, os arquivos multimídia originais são copiados para um destino de armazenamento multimodal dedicado para recuperação confiável, garantindo a disponibilidade mesmo se os arquivos de origem forem modificados ou excluídos.
Consulta e recuperação
-
Processamento de consultas: as consultas do usuário (texto ou imagem) são convertidas em incorporações usando o mesmo modelo de incorporação usado durante a ingestão.
-
Pesquisa por similaridade: a incorporação da consulta é comparada com as incorporações armazenadas no banco de dados vetoriais para identificar o conteúdo mais relevante.
-
Recuperação do resultado: o sistema retorna o conteúdo correspondente com metadados, incluindo:
-
URI de origem (localização do arquivo original)
-
Metadados de timestamp (para segmentos de áudio e vídeo)
-
Informações sobre tipo e modalidade de conteúdo
-
-
Geração de resposta (opcional): para
RetrieveAndGeneratesolicitações, o conteúdo recuperado é passado para um modelo básico para gerar respostas de texto contextualmente relevantes. Isso é suportado ao usar o processamento do BDA ou quando a base de conhecimento contém conteúdo de texto.
Importante
O sistema retorna referências a arquivos completos com metadados de registro de data e hora para conteúdo de áudio e vídeo. Seu aplicativo deve extrair e reproduzir segmentos específicos com base nos registros de data e hora de início e término fornecidos. Eles Console de gerenciamento da AWS lidam com isso automaticamente.