As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O recurso Amazon Bedrock Data Automation (BDA) oferece um conjunto de saídas padrão para processar e gerar insights para arquivos de áudio. Aqui está uma visão detalhada de cada tipo de operação:
Resumo completo do áudio
O resumo completo do áudio gera um resumo geral de todo o arquivo de áudio. Ele destila os principais temas, eventos e informações apresentados ao longo do áudio em um resumo conciso.
Transcrição de áudio completa
O recurso de transcrição de áudio completo fornece uma representação de texto completa de todo o conteúdo falado no áudio. Ele usa tecnologia avançada de reconhecimento de fala para transcrever com precisão diálogos, narrações e outros elementos de áudio. A transcrição inclui registro de data e hora, facilitando a navegação e a pesquisa no conteúdo de áudio com base nas palavras faladas.
Resumo do tópico
O resumo do tópico de áudio separa o arquivo de áudio em seções chamadas tópicos e as resume para fornecer informações importantes. Esses tópicos recebem carimbos de data/hora para ajudar a colocá-los no arquivo de áudio como um todo. Esse recurso não está habilitado por padrão.
Moderação de conteúdo
A moderação de conteúdo usa dicas baseadas em áudio e texto para identificar e classificar o conteúdo tóxico baseado em voz em sete categorias diferentes:
-
Profanação: discurso que contém palavras, frases ou acrônimos que são indelicados, vulgares ou ofensivos.
-
Discurso de ódio: discurso que critica, insulta, denuncia ou desumaniza uma pessoa ou grupo com base em uma identidade (como raça, etnia, gênero, religião, orientação sexual, capacidade e origem nacional).
-
Sexual: discurso que indica interesse, atividade ou excitação sexual usando referências diretas ou indiretas a partes do corpo, características físicas ou sexo.
-
Insultos: discurso que inclui linguagem degradante, humilhante, zombeteira, insultante ou depreciativa. Esse tipo de linguagem também é rotulado como bullying
-
Violência ou ameaça: discurso que inclui ameaças com o objetivo de infligir dor, lesão ou hostilidade a uma pessoa ou grupo.
-
Gráfico: discurso que usa imagens visualmente descritivas e desagradavelmente vívidas. Em geral, esse tipo de linguagem é intencionalmente prolixo para ampliar o desconforto do destinatário.
-
Assédio ou abuso: discurso destinado a afetar o bem-estar psicológico do destinatário, incluindo termos humilhantes e objetificantes. Esse tipo de linguagem também é chamado de assédio.
Saída padrão de áudio
Veja a seguir um exemplo de uma saída padrão para um arquivo de áudio processado por meio do BDA:
{
"metadata": {
"id": "audio_123",
"semantic_modality": "AUDIO",
"s3_bucket": "my-audio-bucket",
"s3_prefix": "audios/",
"format": "MP3",
"sample_rate": 44100,
"bit_rate": 128000,
"duration_millis": 180000,
"channels": 2
},
"audio_segments": [
{
"start_timestamp_millis": 0,
"end_timestamp_millis": 30000,
"id": "audio_segment_1",
"type": "TRANSCRIPT",
"text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance.",
},
{
"start_timestamp_millis": 30000,
"end_timestamp_millis": 60000,
"id": "audio_segment_2",
"type": "TRANSCRIPT",
"text": "Let's start by looking at the healthcare industry. AI is revolutionizing diagnostics, drug discovery, and personalized medicine.",
}
}
]
"topics": [
{
"topic_index": 0,
"start_timestamp_millis": 0,
"end_timestamp_millis": 30000,
"summary": "As follows: The opening of a podcast, introducing the topic of discussion, which involves how AI is impacting various industries.",
"transcript": {
"representation": {
"text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance."
}
},
"audio": {
"summary": "A podcast discussion about recent advancements in artificial intelligence and their potential impact on various industries.",
"transcript": {
"representation": {
"text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance. Let's start by looking at the healthcare industry. AI is revolutionizing diagnostics, drug discovery, and personalized medicine."
}
},
"content_moderation": [
{
"id": "mod_12345",
"type": "CONTENT_MODERATION",
"confidence": 0.1,
"start_timestamp_millis": 0,
"end_timestamp_millis": 180000,
"moderation_categories": [
{
"category": "profanity",
"confidence": 0.05
}
]
}
],
},
"statistics": {
"word_count": 150,
"segment_count": 6
}
}
Essa saída inclui:
-
Metadados de áudio
-
Resumo de áudio
-
Resumo do tópico
-
Transcrição completa
-
Resultados da moderação de conteúdo
-
Estatísticas sobre o conteúdo analisado
Este exemplo ilustra a natureza abrangente da saída BDA para áudio, fornecendo dados ricos e estruturados que podem ser facilmente integrados a vários aplicativos para análise ou processamento adicionais.
Restrições de processamento de áudio do BDA
O BDA suporta clipes de áudio nos formatos de arquivo AMR, FLAC, M4A, Ogg e WAV. MP3 O tamanho máximo dos arquivos de áudio é 2048 MB. A taxa mínima de amostragem de áudio é 8000 Hz e a taxa máxima de amostragem é 48000 Hz. A duração máxima do áudio é 240 minutos e a duração mínima é 500 milissegundos. Se um arquivo de áudio tiver vários fluxos de áudio, ele processará somente o primeiro fluxo.