Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Áudio

Modo de foco
Áudio - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O recurso Amazon Bedrock Data Automation (BDA) oferece um conjunto de saídas padrão para processar e gerar insights para arquivos de áudio. Aqui está uma visão detalhada de cada tipo de operação:

Resumo completo do áudio

O resumo completo do áudio gera um resumo geral de todo o arquivo de áudio. Ele destila os principais temas, eventos e informações apresentados ao longo do áudio em um resumo conciso.

Transcrição de áudio completa

O recurso de transcrição de áudio completo fornece uma representação de texto completa de todo o conteúdo falado no vídeo. Ele usa tecnologia avançada de reconhecimento de fala para transcrever com precisão diálogos, narrações e outros elementos de áudio. A transcrição inclui identificação do locutor e registro de data e hora, facilitando a navegação e a pesquisa no conteúdo do vídeo com base nas palavras faladas.

Moderação de conteúdo

A moderação de conteúdo usa dicas baseadas em áudio e texto para identificar e classificar o conteúdo tóxico baseado em voz em sete categorias diferentes:

  • Profanação: discurso que contém palavras, frases ou acrônimos que são indelicados, vulgares ou ofensivos.

  • Discurso de ódio: discurso que critica, insulta, denuncia ou desumaniza uma pessoa ou grupo com base em uma identidade (como raça, etnia, gênero, religião, orientação sexual, capacidade e origem nacional).

  • Sexual: discurso que indica interesse, atividade ou excitação sexual usando referências diretas ou indiretas a partes do corpo, características físicas ou sexo.

  • Insultos: discurso que inclui linguagem degradante, humilhante, zombeteira, insultante ou depreciativa. Esse tipo de linguagem também é rotulado como bullying

  • Violência ou ameaça: discurso que inclui ameaças com o objetivo de infligir dor, lesão ou hostilidade a uma pessoa ou grupo.

  • Gráfico: discurso que usa imagens visualmente descritivas e desagradavelmente vívidas. Em geral, esse tipo de linguagem é intencionalmente prolixo para ampliar o desconforto do destinatário.

  • Assédio ou abuso: discurso destinado a afetar o bem-estar psicológico do destinatário, incluindo termos humilhantes e objetificantes. Esse tipo de linguagem também é chamado de assédio.

Saída padrão de áudio

Veja a seguir um exemplo de uma saída padrão para um arquivo de áudio processado por meio do BDA:

{ "metadata": { "id": "audio_123", "semantic_modality": "AUDIO", "s3_bucket": "my-audio-bucket", "s3_prefix": "audios/", "format": "MP3", "sample_rate": 44100, "bit_rate": 128000, "duration_millis": 180000, "channels": 2 }, "audio": { "summary": "A podcast discussion about recent advancements in artificial intelligence and their potential impact on various industries.", "transcript": { "representation": { "text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance." } }, "content_moderation": [ { "id": "mod_12345", "type": "CONTENT_MODERATION", "confidence": 0.1, "start_timestamp_millis": 0, "end_timestamp_millis": 180000, "moderation_categories": [ { "category": "profanity", "confidence": 0.05 } ] } ], "audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 30000, "id": "audio_segment_1", "type": "TRANSCRIPT", "text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance.", "speaker": { "speaker_id": "SPK_001" } }, { "start_timestamp_millis": 30000, "end_timestamp_millis": 60000, "id": "audio_segment_2", "type": "TRANSCRIPT", "text": "Let's start by looking at the healthcare industry. AI is revolutionizing diagnostics, drug discovery, and personalized medicine.", "speaker": { "speaker_id": "SPK_002" } } ] }, "statistics": { "word_count": 150, "speaker_count": 2, "segment_count": 6 } }

Essa saída inclui:

  • Metadados de áudio

  • Resumo de áudio

  • Transcrição completa com identificação do palestrante

  • Resultados da moderação de conteúdo

  • Estatísticas sobre o conteúdo analisado

Este exemplo ilustra a natureza abrangente da saída BDA para áudio, fornecendo dados ricos e estruturados que podem ser facilmente integrados a vários aplicativos para análise ou processamento adicionais.

Restrições de processamento de áudio do BDA

O BDA suporta clipes de áudio nos formatos de arquivo AMR, FLAC, M4A, Ogg e WAV. MP3 O tamanho máximo dos arquivos de áudio é 2048 MB. A taxa mínima de amostragem de áudio é 8000 Hz e a taxa máxima de amostragem é 48000 Hz. A duração máxima do áudio é 240 minutos e a duração mínima é 500 milissegundos.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.