Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Audio
La funzionalità Amazon Bedrock Data Automation (BDA) offre un set di output standard per elaborare e generare informazioni dettagliate per i file audio. Ecco una panoramica dettagliata di ogni tipo di operazione:
Riepilogo audio completo
Il riepilogo audio completo genera un riepilogo generale dell'intero file audio. Distilla i temi, gli eventi e le informazioni chiave presentati nell'audio in un riepilogo conciso.
Trascrizione audio completa
La funzione di trascrizione audio completa fornisce una rappresentazione testuale completa di tutti i contenuti parlati nell'audio. Utilizza una tecnologia avanzata di riconoscimento vocale per trascrivere con precisione dialoghi, narrazioni e altri elementi audio. La trascrizione include la marcatura temporale, che semplifica la navigazione e la ricerca nei contenuti audio in base alle parole pronunciate.
Riepilogo dell'argomento
Il riepilogo degli argomenti audio separa il file audio in sezioni denominate argomenti e le riepiloga per fornire informazioni chiave. A questi argomenti vengono assegnati timestamp per aiutarli a inserirli nel file audio nel suo insieme. Questa funzionalità non è abilitata per impostazione predefinita.
Moderazione dei contenuti
La moderazione dei contenuti utilizza segnali audio e testuali per identificare e classificare i contenuti tossici basati sulla voce in sette diverse categorie:
-
Volgarità: linguaggio che contiene parole, frasi o acronimi maleducati, volgari o offensivi.
-
Incitamento all'odio: linguaggio che critica, insulta, denuncia o disumanizza una persona o un gruppo sulla base di un'identità (come razza, etnia, genere, religione, orientamento sessuale, abilità e origine nazionale).
-
Sessuale: linguaggio che indica interesse, attività o eccitazione sessuale utilizzando riferimenti diretti o indiretti a parti del corpo, tratti fisici o sesso.
-
Insulti: linguaggio che include parole umilianti, derisorie, offensive o sminuenti. Questo tipo di linguaggio è anche etichettato come bullismo
-
Violenza o minaccia: linguaggio che include minacce volte a infliggere dolore, lesioni o ostilità verso una persona o un gruppo.
-
Discorso grafico: linguaggio che utilizza un immaginario visivamente descrittivo e sgradevolmente vivido. Questo tipo di linguaggio è spesso intenzionalmente prolisso per amplificare il disagio del destinatario.
-
Molestie o abusi: linguaggio inteso a influire sul benessere psicologico del destinatario, compresi termini umilianti e oggettivanti. Questo tipo di linguaggio è anche etichettato come molestia.
Uscita audio standard
Questa sezione si concentra sui diversi oggetti di risposta ricevuti dall'esecuzione dell'operazione API InvokeDataAutomation su un file audio. Di seguito analizzeremo ogni sezione dell'oggetto di risposta e poi vedremo una risposta completa e popolata per un documento di esempio. La prima sezione che riceveremo èmetadata
.
{ "metadata": { "asset_id": "0", "semantic_modality": "AUDIO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav", "sample_rate": 8000, "bitrate": 256000, "number_of_channels": 2, "codec": "pcm_s16le", "duration_millis": 237560, "format": "wav" },
Questa sezione analizza le informazioni sul file come la posizione s3, il bitrate, i canali audio e il formato. Successivamente esaminiamo. audio_items
"audio_items": [ { "item_index": 0, "audio_segment_index": 0, "content": "Auto", "start_timestamp_millis": 9, "end_timestamp_millis": 119 },
La sezione degli elementi include una suddivisione del file audio in base al suono. Di solito ogni elemento riguarda la lunghezza delle parole. L'item_index indica la posizione dell'elemento negli indici audio_items e l'audio_segment_index indica dove si trova negli indici dei segmenti di cui parleremo in seguito.
"audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "segment_index": 0, "type": "TRANSCRIPT", "text": "Auto sales, Cherry speaking. How can I help you?", "audio_item_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ] },
Qui otteniamo una suddivisione del file in base a periodi di tempo più lunghi, con ogni segmento uguale a circa una frase. Ci dice quali elementi audio sono inclusi nel segmento e il testo del segmento stesso. Ora diamo un'occhiata alla moderazione dei contenuti.
"content_moderation": [ { "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0", "type": "AUDIO_MODERATION", "confidence": 0.0476, "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "moderation_categories": [ { "category": "profanity", "confidence": 0.1582 },
La sezione sulla moderazione dei contenuti analizza ogni singolo segmento e lo analizza per ognuna delle sette categorie di moderazione, fornendo punteggi di affidabilità per ciascuna sezione. La nostra prossima sezione è dedicata agli argomenti.
"topics": [ { "topic_index": 0, "start_timestamp_millis": 0, "end_timestamp_millis": 36790, "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.", "transcript": { "representation": { "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens." } }, "audio_segment_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ] },
Le sezioni tematiche rappresentano il livello di granularità successivo dei segmenti. Si tratta di raggruppamenti di segmenti suddivisi approssimativamente per concetti. Ogni argomento viene fornito con un riepilogo generato dell'argomento e il test esatto dell'argomento. La nostra parte finale di una risposta sono le statistiche.
"statistics": { "word_count": 749, "topic_count": 4 }
Questa sezione riassume le informazioni sul file audio. Ciò include il conteggio delle parole e il totale degli argomenti.