As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O recurso Amazon Bedrock Data Automation (BDA) oferece um conjunto de saídas padrão para processar e gerar insights para arquivos de áudio. Aqui está uma visão detalhada de cada tipo de operação:
Resumo completo do áudio
O resumo completo do áudio gera um resumo geral de todo o arquivo de áudio. Ele destila os principais temas, eventos e informações apresentados ao longo do áudio em um resumo conciso.
Transcrição de áudio completa
O recurso de transcrição de áudio completo fornece uma representação de texto completa de todo o conteúdo falado no vídeo. Ele usa tecnologia avançada de reconhecimento de fala para transcrever com precisão diálogos, narrações e outros elementos de áudio. A transcrição inclui identificação do locutor e registro de data e hora, facilitando a navegação e a pesquisa no conteúdo do vídeo com base nas palavras faladas.
Moderação de conteúdo
A moderação de conteúdo usa dicas baseadas em áudio e texto para identificar e classificar o conteúdo tóxico baseado em voz em sete categorias diferentes:
-
Profanação: discurso que contém palavras, frases ou acrônimos que são indelicados, vulgares ou ofensivos.
-
Discurso de ódio: discurso que critica, insulta, denuncia ou desumaniza uma pessoa ou grupo com base em uma identidade (como raça, etnia, gênero, religião, orientação sexual, capacidade e origem nacional).
-
Sexual: discurso que indica interesse, atividade ou excitação sexual usando referências diretas ou indiretas a partes do corpo, características físicas ou sexo.
-
Insultos: discurso que inclui linguagem degradante, humilhante, zombeteira, insultante ou depreciativa. Esse tipo de linguagem também é rotulado como bullying
-
Violência ou ameaça: discurso que inclui ameaças com o objetivo de infligir dor, lesão ou hostilidade a uma pessoa ou grupo.
-
Gráfico: discurso que usa imagens visualmente descritivas e desagradavelmente vívidas. Em geral, esse tipo de linguagem é intencionalmente prolixo para ampliar o desconforto do destinatário.
-
Assédio ou abuso: discurso destinado a afetar o bem-estar psicológico do destinatário, incluindo termos humilhantes e objetificantes. Esse tipo de linguagem também é chamado de assédio.
Saída padrão de áudio
Veja a seguir um exemplo de uma saída padrão para um arquivo de áudio processado por meio do BDA:
{
"metadata": {
"id": "audio_123",
"semantic_modality": "AUDIO",
"s3_bucket": "my-audio-bucket",
"s3_prefix": "audios/",
"format": "MP3",
"sample_rate": 44100,
"bit_rate": 128000,
"duration_millis": 180000,
"channels": 2
},
"audio": {
"summary": "A podcast discussion about recent advancements in artificial intelligence and their potential impact on various industries.",
"transcript": {
"representation": {
"text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance."
}
},
"content_moderation": [
{
"id": "mod_12345",
"type": "CONTENT_MODERATION",
"confidence": 0.1,
"start_timestamp_millis": 0,
"end_timestamp_millis": 180000,
"moderation_categories": [
{
"category": "profanity",
"confidence": 0.05
}
]
}
],
"audio_segments": [
{
"start_timestamp_millis": 0,
"end_timestamp_millis": 30000,
"id": "audio_segment_1",
"type": "TRANSCRIPT",
"text": "Welcome to our podcast on AI advancements. Today, we'll be discussing how recent developments in artificial intelligence are reshaping industries from healthcare to finance.",
"speaker": {
"speaker_id": "SPK_001"
}
},
{
"start_timestamp_millis": 30000,
"end_timestamp_millis": 60000,
"id": "audio_segment_2",
"type": "TRANSCRIPT",
"text": "Let's start by looking at the healthcare industry. AI is revolutionizing diagnostics, drug discovery, and personalized medicine.",
"speaker": {
"speaker_id": "SPK_002"
}
}
]
},
"statistics": {
"word_count": 150,
"speaker_count": 2,
"segment_count": 6
}
}
Essa saída inclui:
-
Metadados de áudio
-
Resumo de áudio
-
Transcrição completa com identificação do palestrante
-
Resultados da moderação de conteúdo
-
Estatísticas sobre o conteúdo analisado
Este exemplo ilustra a natureza abrangente da saída BDA para áudio, fornecendo dados ricos e estruturados que podem ser facilmente integrados a vários aplicativos para análise ou processamento adicionais.
Restrições de processamento de áudio do BDA
O BDA suporta clipes de áudio nos formatos de arquivo AMR, FLAC, M4A, Ogg e WAV. MP3 O tamanho máximo dos arquivos de áudio é 2048 MB. A taxa mínima de amostragem de áudio é 8000 Hz e a taxa máxima de amostragem é 48000 Hz. A duração máxima do áudio é 240 minutos e a duração mínima é 500 milissegundos.