As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Áudio
O recurso Amazon Bedrock Data Automation (BDA) oferece um conjunto de saídas padrão para processar e gerar insights para arquivos de áudio. Aqui está uma visão detalhada de cada tipo de operação:
Resumo completo do áudio
O resumo completo do áudio gera um resumo geral de todo o arquivo de áudio. Ele destila os principais temas, eventos e informações apresentados ao longo do áudio em um resumo conciso.
Transcrição de áudio completa
O recurso de transcrição de áudio completo fornece uma representação de texto completa de todo o conteúdo falado no áudio. Ele usa tecnologia avançada de reconhecimento de fala para transcrever com precisão diálogos, narrações e outros elementos de áudio. A transcrição inclui registro de data e hora, facilitando a navegação e a pesquisa no conteúdo de áudio com base nas palavras faladas.
Resumo do tópico
O resumo do tópico de áudio separa o arquivo de áudio em seções chamadas tópicos e as resume para fornecer informações importantes. Esses tópicos recebem carimbos de data/hora para ajudar a colocá-los no arquivo de áudio como um todo. Esse recurso não está habilitado por padrão.
Moderação de conteúdo
A moderação de conteúdo usa dicas baseadas em áudio e texto para identificar e classificar o conteúdo tóxico baseado em voz em sete categorias diferentes:
-
Profanação: discurso que contém palavras, frases ou acrônimos que são indelicados, vulgares ou ofensivos.
-
Discurso de ódio: discurso que critica, insulta, denuncia ou desumaniza uma pessoa ou grupo com base em uma identidade (como raça, etnia, gênero, religião, orientação sexual, capacidade e origem nacional).
-
Sexual: discurso que indica interesse, atividade ou excitação sexual usando referências diretas ou indiretas a partes do corpo, características físicas ou sexo.
-
Insultos: discurso que inclui linguagem degradante, humilhante, zombeteira, insultante ou depreciativa. Esse tipo de linguagem também é rotulado como bullying
-
Violência ou ameaça: discurso que inclui ameaças com o objetivo de infligir dor, lesão ou hostilidade a uma pessoa ou grupo.
-
Gráfico: discurso que usa imagens visualmente descritivas e desagradavelmente vívidas. Em geral, esse tipo de linguagem é intencionalmente prolixo para ampliar o desconforto do destinatário.
-
Assédio ou abuso: discurso destinado a afetar o bem-estar psicológico do destinatário, incluindo termos humilhantes e objetificantes. Esse tipo de linguagem também é chamado de assédio.
Saída padrão de áudio
Esta seção se concentra nos diferentes objetos de resposta que você recebe ao executar a operação da API InvokeDataAutomation em um arquivo de áudio. Abaixo, detalharemos cada seção do objeto de resposta e, em seguida, veremos uma resposta completa e preenchida para um documento de exemplo. A primeira seção que receberemos émetadata
.
{ "metadata": { "asset_id": "0", "semantic_modality": "AUDIO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav", "sample_rate": 8000, "bitrate": 256000, "number_of_channels": 2, "codec": "pcm_s16le", "duration_millis": 237560, "format": "wav" },
Esta seção detalha as informações sobre o arquivo, como localização s3, taxa de bits, canais de áudio e formato. Em seguida, analisamosaudio_items
.
"audio_items": [ { "item_index": 0, "audio_segment_index": 0, "content": "Auto", "start_timestamp_millis": 9, "end_timestamp_millis": 119 },
A seção de itens inclui um detalhamento do arquivo de áudio, som por som. Cada item geralmente tem o tamanho de uma palavra. O item_index indica a posição do item nos índices audio_items e o audio_segment_index indica onde ele está nos índices de segmentos que discutiremos a seguir.
"audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "segment_index": 0, "type": "TRANSCRIPT", "text": "Auto sales, Cherry speaking. How can I help you?", "audio_item_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ] },
Aqui, obtemos um detalhamento do arquivo com base em períodos de tempo mais longos, com cada segmento igual a aproximadamente uma frase. Ele nos diz quais itens de áudio estão incluídos no segmento e o texto do próprio segmento. A seguir, vamos analisar a moderação de conteúdo.
"content_moderation": [ { "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0", "type": "AUDIO_MODERATION", "confidence": 0.0476, "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "moderation_categories": [ { "category": "profanity", "confidence": 0.1582 },
A seção de moderação de conteúdo examina cada segmento individual e o analisa para qualquer uma das sete categorias de moderação, fornecendo pontuações de confiança para cada seção. Nossa próxima seção é sobre tópicos.
"topics": [ { "topic_index": 0, "start_timestamp_millis": 0, "end_timestamp_millis": 36790, "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.", "transcript": { "representation": { "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens." } }, "audio_segment_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ] },
As seções de tópicos são o próximo nível de granularidade dos segmentos. Esses são agrupamentos de segmentos divididos aproximadamente por conceitos. Cada tópico vem com um resumo gerado do tópico e o teste exato do tópico. Nossa parte final de uma resposta são estatísticas.
"statistics": { "word_count": 749, "topic_count": 4 }
Esta seção resume as informações sobre o arquivo de áudio. Isso inclui a contagem de palavras e o total de tópicos.