Crie uma base de conhecimento para conteúdo multimodal - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Crie uma base de conhecimento para conteúdo multimodal

O Amazon Bedrock Knowledge Bases oferece suporte a conteúdo multimodal, incluindo arquivos de imagens, áudio e vídeo. Você pode pesquisar usando imagens como consultas, recuperar conteúdo visualmente semelhante e processar arquivos multimídia junto com documentos de texto tradicionais. Esse recurso permite que você extraia insights de diversos tipos de dados — imagens independentes, gravações de áudio e arquivos de vídeo armazenados em toda a sua organização.

As bases de conhecimento Amazon Bedrock permitem que você indexe e recupere informações de conteúdo de texto, visual e áudio. Agora, as organizações podem pesquisar catálogos de produtos usando imagens, encontrar momentos específicos em vídeos de treinamento e recuperar segmentos relevantes das gravações de chamadas de suporte ao cliente.

Disponibilidade regional

As abordagens de processamento multimodal têm diferentes disponibilidades regionais. Para obter informações detalhadas, consulte Disponibilidade regional.

Recursos e capacidades

As bases de conhecimento multimodais fornecem os seguintes recursos principais:

Consultas baseadas em imagens

Envie imagens como consultas de pesquisa para encontrar conteúdo visualmente semelhante ao usar o Nova Multimodal Embeddings. Oferece suporte à correspondência de produtos, à pesquisa visual por similaridade e à recuperação de imagens.

Recuperação de conteúdo de áudio

Pesquise arquivos de áudio usando consultas de texto. Recupere segmentos específicos de gravações com referências de carimbo de data/hora. A transcrição de áudio permite a pesquisa baseada em texto em conteúdo falado, incluindo reuniões, chamadas e podcasts.

Extração de segmentos de vídeo

Localize momentos específicos em arquivos de vídeo usando consultas de texto. Recupere segmentos de vídeo com registros de data e hora precisos.

Pesquisa multimodal

Pesquise em diferentes tipos de dados, incluindo documentos de texto, imagens, áudio e vídeo. Recupere conteúdo relevante, independentemente do formato original.

Referências de origem com carimbos de data/hora

Os resultados da recuperação incluem referências aos arquivos originais com metadados temporais para áudio e vídeo. Permite uma navegação precisa para segmentos relevantes dentro do conteúdo multimídia.

Opções flexíveis de processamento

Escolha entre incorporações multimodais nativas para semelhança visual ou conversão de texto para conteúdo baseado em fala. Configure a abordagem de processamento com base nas características do conteúdo e nos requisitos do aplicativo.

Como funciona

As bases de conhecimento multimodais processam e recuperam conteúdo por meio de um pipeline de vários estágios que lida adequadamente com diferentes tipos de dados:

Ingestão e processamento
  1. Conexão com a fonte de dados: conecte sua base de conhecimento aos buckets do Amazon S3 ou fontes de dados personalizadas contendo documentos de texto, imagens, arquivos de áudio e arquivos de vídeo.

  2. Detecção do tipo de arquivo: o sistema identifica cada tipo de arquivo por sua extensão e o encaminha para o pipeline de processamento apropriado.

  3. Processamento de conteúdo: dependendo da sua configuração, os arquivos são processados usando uma das duas abordagens:

    • Nova Multimodal Embeddings: preserva o formato nativo para correspondência de similaridade visual e de áudio. Imagens, áudio e vídeo são incorporados diretamente sem conversão em texto.

    • Bedrock Data Automation (BDA): converte multimídia em representações de texto. O áudio é transcrito usando o Reconhecimento Automático de Fala (ASR), o vídeo é processado para extrair resumos e transcrições de cenas e as imagens passam por OCR e extração de conteúdo visual.

  4. Geração de incorporação: o conteúdo processado é convertido em incorporações vetoriais usando o modelo de incorporação selecionado. Essas incorporações capturam o significado semântico e permitem a recuperação baseada em similaridade.

  5. Armazenamento vetorial: as incorporações são armazenadas em seu banco de dados vetoriais configurado junto com metadados, incluindo referências de arquivos, registros de data e hora (para áudio e vídeo) e informações do tipo de conteúdo.

  6. Armazenamento multimodal (opcional): se configurados, os arquivos multimídia originais são copiados para um destino de armazenamento multimodal dedicado para recuperação confiável, garantindo a disponibilidade mesmo se os arquivos de origem forem modificados ou excluídos.

Consulta e recuperação
  1. Processamento de consultas: as consultas do usuário (texto ou imagem) são convertidas em incorporações usando o mesmo modelo de incorporação usado durante a ingestão.

  2. Pesquisa por similaridade: a incorporação da consulta é comparada com as incorporações armazenadas no banco de dados vetoriais para identificar o conteúdo mais relevante.

  3. Recuperação do resultado: o sistema retorna o conteúdo correspondente com metadados, incluindo:

    • URI de origem (localização do arquivo original)

    • Metadados de timestamp (para segmentos de áudio e vídeo)

    • Informações sobre tipo e modalidade de conteúdo

  4. Geração de resposta (opcional): para RetrieveAndGenerate solicitações, o conteúdo recuperado é passado para um modelo básico para gerar respostas de texto contextualmente relevantes. Isso é suportado ao usar o processamento do BDA ou quando a base de conhecimento contém conteúdo de texto.

Importante

O sistema retorna referências a arquivos completos com metadados de registro de data e hora para conteúdo de áudio e vídeo. Seu aplicativo deve extrair e reproduzir segmentos específicos com base nos registros de data e hora de início e término fornecidos. Eles Console de gerenciamento da AWS lidam com isso automaticamente.