Audio
La funzionalità Amazon Bedrock Data Automation (BDA) offre un set di output standard per elaborare e generare approfondimenti per i file audio. Ecco una panoramica dettagliata di ogni tipo di operazione:
Riepilogo completo dell’audio
Il riepilogo completo dell’audio genera un riepilogo generale di tutto il file audio. Distilla i temi, gli eventi e le informazioni chiave presentati nel video in un riepilogo conciso.
Trascrizione completa dell’audio
La funzionalità di trascrizione completa dell’audio fornisce una rappresentazione testuale completa di tutto il testo parlato nel file audio. Utilizza una tecnologia avanzata di riconoscimento vocale per trascrivere con precisione dialoghi, narrazioni e altri elementi audio. La trascrizione include i timestamp, il che semplifica la navigazione e la ricerca nei contenuti audio in base al testo parlato.
Etichettatura di persone che parlano e canali
Per la trascrizione generata è possibile abilitare l’etichettatura dei canali e/o delle persone che parlano. In questo modo a ogni canale o persona che parla viene assegnato un numero e la trascrizione indicherà quando un canale è attivo e chi sta parlando in quel momento. Questa etichetta appare nella risposta come “spk_” seguito da un numero univoco per ogni persona che parla, fino a 30. La prima persona che parla sarebbe “spk_0”,”spk_1” e così via. I canali audio sono indicati in modo analogo con il primo canale etichettato come “ch_0”, ma è possibile etichettare solo due canali al massimo.
Riepilogo degli argomenti
Il riepilogo degli argomenti audio suddivide il file audio in sezioni denominate argomenti e le riepiloga per fornire informazioni chiave. A questi argomenti vengono assegnati timestamp per facilitarne l’individuazione all’interno del file audio. Questa funzionalità non è abilitata per impostazione predefinita.
Moderazione dei contenuti
La moderazione dei contenuti sfrutta segnali audio e testuali per identificare e classificare i contenuti tossici vocali in sette diverse categorie:
-
Volgarità: linguaggio che contiene parole, frasi o acronimi maleducati, volgari o offensivi.
-
Incitamento all’odio: linguaggio che critica, insulta, denuncia o disumanizza una persona o un gruppo sulla base di un’identità (come razza, etnia, genere, religione, orientamento sessuale, abilità e origine nazionale).
-
Sessuale: linguaggio che indica interesse, attività o eccitazione sessuale utilizzando riferimenti diretti o indiretti a parti del corpo, tratti fisici o sesso.
-
Insulti: linguaggio che include parole umilianti, derisorie, offensive o sminuenti. Questo tipo di linguaggio è anche etichettato come bullismo.
-
Violenza o minaccia: linguaggio che include minacce volte a infliggere dolore, lesioni o ostilità verso una persona o un gruppo.
-
Discorso grafico: linguaggio che utilizza un immaginario visivamente descrittivo e sgradevolmente vivido. Questo tipo di linguaggio è spesso intenzionalmente prolisso per amplificare il disagio del destinatario.
-
Molestie o abusi: linguaggio inteso a influire sul benessere psicologico del destinatario, compresi termini umilianti e oggettivanti. Questo tipo di linguaggio è anche etichettato come molestia.
Output standard per audio
Questa sezione si concentra sui diversi oggetti di risposta ricevuti dall’esecuzione dell’operazione API InvokeDataAutomation su un file audio. Di seguito analizziamo ogni sezione dell’oggetto di risposta e poi vedremo una risposta completa e popolata per un documento di esempio. La prima sezione che riceviamo è metadata.
{ "metadata": { "asset_id": "0", "semantic_modality": "AUDIO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav", "sample_rate": 8000, "bitrate": 256000, "number_of_channels": 2, "codec": "pcm_s16le", "duration_millis": 237560, "format": "wav" },
Questa sezione analizza le informazioni sul file come la posizione s3, il bitrate, i canali audio e il formato. Poi esaminiamo la sezione audio_items.
"audio_items": [ { "item_index": 0, "audio_segment_index": 0, "content": "Auto", "start_timestamp_millis": 9, "end_timestamp_millis": 119 },
La sezione items include una suddivisione del file audio suono per suono. Di solito ogni elemento riguarda la lunghezza delle parole. L’item_index indica la posizione dell’elemento negli indici audio_items e l’audio_segment_index indica dove si trova negli indici dei segmenti di cui parleremo in seguito.
"audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "segment_index": 0, "type": "TRANSCRIPT", "text": "Auto sales, Cherry speaking. How can I help you?", "speaker": { "speaker_label": "spk_0" }, "channel": { "channel_label": "ch_0" }, "audio_item_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ] },
Qui otteniamo una suddivisione del file in base a periodi di tempo più lunghi, con ogni segmento uguale a circa una frase. Ci dice quali elementi audio sono inclusi nel segmento e il testo del segmento stesso. Ora diamo un’occhiata alla sezione sulla moderazione dei contenuti.
Con l’etichettatura delle persone che parlano e dei canali abilitata, è possibile visualizzare le sezioni speaker_label e channel_label che indicano quale persona che parla e quale canale sono presenti in questo segmento.
"content_moderation": [ { "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0", "type": "AUDIO_MODERATION", "confidence": 0.0476, "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "moderation_categories": [ { "category": "profanity", "confidence": 0.1582 },
La sezione sulla moderazione dei contenuti analizza ogni singolo segmento per ognuna delle sette categorie di moderazione, fornendo punteggi di attendibilità per ciascuna sezione. La sezione successiva è topics.
"topics": [ { "topic_index": 0, "start_timestamp_millis": 0, "end_timestamp_millis": 36790, "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.", "transcript": { "representation": { "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens." } }, "audio_segment_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ] },
Le sezioni topic rappresentano il livello di granularità successivo ai segmenti. Si tratta di raggruppamenti di segmenti suddivisi approssimativamente per concetti. Ogni argomento viene fornito con un riepilogo generato dell’argomento e il test esatto dell’argomento. La sezione finale di una risposta è statistics,
"statistics": { "word_count": 749, "topic_count": 4 }
che riassume le informazioni sul file audio, tra cui il conteggio delle parole e il totale degli argomenti.