Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Audio
La función Amazon Bedrock Data Automation (BDA) ofrece un conjunto de salidas estándar para procesar y generar información para los archivos de audio. A continuación, se ofrece un análisis detallado de cada tipo de operación:
Resumen de audio completo
El resumen de audio completo genera un resumen general de todo el archivo de audio. Representa los temas, eventos e información clave presentados a lo largo del audio en un resumen conciso.
Transcripción completa del audio
La función de transcripción de audio completa proporciona una representación textual completa de todo el contenido hablado del audio. Utiliza tecnología avanzada de reconocimiento de voz para transcribir con precisión el diálogo, la narración y otros elementos de audio. La transcripción incluye una marca de tiempo, lo que facilita la navegación y la búsqueda en el contenido de audio en función de las palabras habladas.
Resumen del tema
El resumen del tema de audio separa el archivo de audio en secciones denominadas temas y las resume para proporcionar información clave. Estos temas reciben marcas de tiempo para ayudar a colocarlos en el archivo de audio en su conjunto. Esta función no está habilitada de forma predeterminada.
Moderación de contenido
La moderación de contenido utiliza señales de audio y texto para identificar y clasificar el contenido tóxico basado en la voz en siete categorías diferentes:
-
Blasfemia: discurso que contiene palabras, frases o acrónimos que son de mala educación, vulgares u ofensivos.
-
Incitación al odio: discurso que critica, insulta, denuncia o deshumaniza a una persona o grupo sobre la base de una identidad, ya sea de raza, etnia, identidad de género, religión, orientación sexual, capacidad, origen nacional u otro grupo de identidad.
-
Sexual: discurso que indica interés, actividad o excitación sexual mediante referencias directas o indirectas a partes del cuerpo o rasgos físicos o al sexo.
-
Insultos: discurso que incluye lenguaje degradante, humillante, burlón, insultante o denigrante. Este tipo de lenguaje también se denomina acoso
-
Violencia o amenaza: discurso que incluye amenazas que tienen por objeto infligir dolor, lesión u hostilidad a una persona o grupo.
-
Gráfico: el discurso gráfico utiliza imágenes visualmente descriptivas, detalladas y desagradablemente vívidas. Este tipo de lenguaje suele ser intencionalmente detallado para aumentar la incomodidad del destinatario.
-
Acoso o abuso: discurso destinado a afectar el bienestar psicológico del destinatario, incluidos términos degradantes y deshumanizantes. Este tipo de lenguaje también se denomina acoso.
Salida estándar de audio
Esta sección se centra en los diferentes objetos de respuesta que se reciben al ejecutar la operación de la API InvokeDataAutomation en un archivo de audio. A continuación, desglosaremos cada sección del objeto de respuesta y, a continuación, veremos una respuesta completa y completa para un documento de ejemplo. La primera sección que recibiremos esmetadata
.
{ "metadata": { "asset_id": "0", "semantic_modality": "AUDIO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav", "sample_rate": 8000, "bitrate": 256000, "number_of_channels": 2, "codec": "pcm_s16le", "duration_millis": 237560, "format": "wav" },
En esta sección se desglosa la información sobre el archivo, como su ubicación en S3, la velocidad de bits, los canales de audio y el formato. A continuación analizamos. audio_items
"audio_items": [ { "item_index": 0, "audio_segment_index": 0, "content": "Auto", "start_timestamp_millis": 9, "end_timestamp_millis": 119 },
La sección de elementos incluye un desglose del archivo de audio sonido por sonido. Cada elemento suele tener una longitud aproximada de una palabra. El item_index indica el lugar que ocupa el elemento en los índices audio_items y el audio_segment_index indica su ubicación en los índices de los segmentos, algo que veremos a continuación.
"audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "segment_index": 0, "type": "TRANSCRIPT", "text": "Auto sales, Cherry speaking. How can I help you?", "audio_item_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ] },
Aquí obtenemos un desglose del archivo basado en períodos de tiempo más largos, en los que cada segmento equivale aproximadamente a una oración. Nos indica qué elementos de audio están incluidos en el segmento y el texto del segmento en sí. A continuación, veamos la moderación del contenido.
"content_moderation": [ { "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0", "type": "AUDIO_MODERATION", "confidence": 0.0476, "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "moderation_categories": [ { "category": "profanity", "confidence": 0.1582 },
La sección de moderación de contenido analiza cada segmento individual y lo analiza en función de cualquiera de las siete categorías de moderación, proporcionando puntuaciones de confianza para cada sección. Nuestra siguiente sección son los temas.
"topics": [ { "topic_index": 0, "start_timestamp_millis": 0, "end_timestamp_millis": 36790, "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.", "transcript": { "representation": { "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens." } }, "audio_segment_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ] },
Las secciones temáticas representan el siguiente nivel de granularidad con respecto a los segmentos. Estas son agrupaciones de segmentos que se desglosan aproximadamente por conceptos. Cada tema viene con un resumen generado del tema y la prueba exacta del tema. La parte final de la respuesta son las estadísticas.
"statistics": { "word_count": 749, "topic_count": 4 }
En esta sección se resume la información sobre el archivo de audio. Esto incluye el recuento de palabras y el total de temas.