Streaming e risultati parziali

Poiché lo streaming funziona in tempo reale, le trascrizioni vengono prodotte con risultati parziali. Amazon Transcribe suddivide il flusso audio in entrata in base a segmenti vocali naturali, ad esempio un cambio di altoparlante o una pausa nell'audio. La trascrizione viene restituita all'applicazione in un flusso di eventi di trascrizione, con ciascuna risposta contenete una parte sempre maggiore del discorso trascritto fino a quando l'intero segmento è completo.

Un'approssimazione di questo viene mostrata nel seguente blocco di codice. Puoi visualizzare questo processo in azione accedendo alla AWS Management Console, selezionando Trascrizione in tempo reale e parlando al microfono. Guarda il riquadro di output della trascrizione mentre parli.

In questo esempio, ogni riga è il risultato parziale di un segmento audio.


The      
The Amazon.
The Amazon is
The Amazon is the law.
The Amazon is the largest
The Amazon is the largest ray
The Amazon is the largest rain for
The Amazon is the largest rainforest.
The Amazon is the largest rainforest on the
The Amazon is the largest rainforest on the planet.

Questi risultati parziali sono presenti nell'output della trascrizione all'interno degli oggetti dei Results. In questo blocco di oggetti c'è anche un campo. IsPartial Se questo campo è vero, il segmento di trascrizione non è ancora completo. Di seguito puoi visualizzare la differenza tra un segmento incompleto e uno completo:


"IsPartial": true (incomplete segment)
            
"Transcript": "The Amazon is the largest rainforest."

"EndTime": 4.545,
"IsPartial": true,
"ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12",
"StartTime": 0.025


"IsPartial": false (complete segment)
            
"Transcript": "The Amazon is the largest rainforest on the planet."

"EndTime": 6.025,
"IsPartial": false,
"ResultId": "34567e89-0fa1-2bc3-4d56-78e90123456f",
"StartTime": 0.025

A ogni parola all'interno di un segmento completo è associato un punteggio di affidabilità, che è un valore compreso tra 0 e 1. Un valore maggiore indica una maggiore probabilità che la parola venga trascritta correttamente.

Suggerimento

L’StartTime e l’EndTime di un segmento audio possono essere utilizzate per sincronizzare l'uscita della trascrizione con i dialoghi video.

Se stai eseguendo un'applicazione che richiede una bassa latenza, potresti voler utilizzare la stabilizzazione dei risultati parziali.

Stabilizzazione dei risultati parziali

Amazon Transcribe inizia a restituire i risultati della trascrizione non appena si avvia lo streaming dell'audio. Restituisce questi risultati parziali in modo incrementale fino a generare un risultato finale a livello di un segmento vocale naturale. Un segmento vocale naturale è un discorso continuo che contiene una pausa o un cambio di parlante.

Amazon Transcribe continua a emettere risultati parziali finché non genera il risultato di trascrizione finale per un segmento vocale. Poiché il riconoscimento vocale può modificare le parole man mano che acquisisce maggiore contesto, le trascrizioni in streaming possono cambiare leggermente a ogni nuovo risultato parziale.

Questo processo offre due opzioni per ogni segmento vocale:

Attendi il segmento finito
Usa i risultati parziali del segmento

La stabilizzazione parziale del risultato modifica la modalità di Amazon Transcribe produzione del risultato finale della trascrizione per ogni segmento completo. Se attivata, possono cambiare solo le ultime parole dei risultati parziali. Per questo motivo, la precisione della trascrizione potrebbe risentirne. Tuttavia, la trascrizione viene restituita più rapidamente che senza la stabilizzazione dei risultati parziali. Questa riduzione della latenza può essere utile quando si sottotitolano video o si generano didascalie per gli streaming in diretta.

Gli esempi seguenti mostrano come viene gestito lo stesso flusso audio quando la stabilizzazione dei risultati parziali non è attivata e quando lo è. Tieni presente che puoi impostare il livello di stabilità su basso, medio o alto. La bassa stabilità offre la massima precisione. L'elevata stabilità trascrive più velocemente, ma con una precisione leggermente inferiore.

"Trascrizione":	"EndTime":	"IsPartial":
Stabilizzazione dei risultati parziali non abilitata
`The The The Amazon. The Amazon is The Amazon is the law. The Amazon is the largest The Amazon is the largest ray The Amazon is the largest rain for The Amazon is the largest rainforest. The Amazon is the largest rainforest on the The Amazon is the largest rainforest on the planet. The Amazon is the largest rainforest on the planet. The Amazon is the largest rainforest on the planet.`	`0.545 1.045 1.545 2.045 2.545 3.045 3.545 4.045 4.545 5.045 5.545 6.025 6.025`	`true true true true true true true true true true true true false`
Stabilizzazione dei risultati parziali abilitata (alta stabilità)
`The The The Amazon. The Amazon is The Amazon is the large The Amazon is the largest The Amazon is the largest rainfall. The Amazon is the largest rain forest. The Amazon is the largest rain forest on The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet.`	`0.515 1.015 1.515 2.015 2.515 3.015 3.515 4.015 4.515 5.015 5.515 6.015 6.335 6.335`	`true true true true true true true true true true true true true false`

Quando attivi la stabilizzazione dei risultati parziali, Amazon Transcribe utilizza un Stable campo per indicare se un elemento è stabile, dove «elemento» si riferisce a una parola o a un segno di punteggiatura trascritti. I valori per Stable sono true o false. È più probabile che gli elementi contrassegnati come false (non stabili) cambino man mano che il segmento viene trascritto. Al contrario, gli elementi contrassegnati come true (stabili) non cambieranno.

Puoi scegliere di rendere le parole non stabili in modo che le didascalie siano allineate al parlato. Anche se le didascalie cambiano leggermente man mano che viene aggiunto il contesto, si tratta di un'esperienza utente migliore rispetto ai picchi di testo periodici, che possono o meno essere allineati al parlato.

Puoi anche scegliere di visualizzare le parole non stabili in un formato diverso, ad esempio in corsivo, per indicare agli spettatori che queste parole potrebbero cambiare. La visualizzazione dei risultati parziali limita la quantità di testo visualizzato in un determinato momento. Questo può essere importante quando si ha a che fare con vincoli di spazio, come per le didascalie dei video.

Approfondisci con il AWS Machine Learning Blog

Per saperne di più su come migliorare la precisione delle trascrizioni in tempo reale, consulta:

Esempio di output di stabilizzazione dei risultati parziali

L'esempio di output seguente mostra i flag Stable per un segmento incompleto ("IsPartial": true). Come puoi vedere, le parole "to" e "Amazon" non sono stabili e pertanto potrebbero cambiare prima della finalizzazione del segmento.


"Transcript": {
    "Results": [
        {
            "Alternatives": [
                {
                    "Items": [
                        {
                            "Content": "Welcome",
                            "EndTime": 2.4225,
                            "Stable": true,
                            "StartTime": 1.65,
                            "Type": "pronunciation",
                            "VocabularyFilterMatch": false
                        },
                        { 
                            "Content": "to",
                            "EndTime": 2.8325,
                            "Stable": false,
                            "StartTime": 2.4225,
                            "Type": "pronunciation",
                            "VocabularyFilterMatch": false
                        },
                        {
                            "Content": "Amazon",
                            "EndTime": 3.635,
                            "Stable": false,
                            "StartTime": 2.8325,
                            "Type": "pronunciation",
                            "VocabularyFilterMatch": false
                        },
                        {
                            "Content": ".",
                            "EndTime": 3.635,
                            "Stable": false,
                            "StartTime": 3.635,
                            "Type": "punctuation",
                            "VocabularyFilterMatch": false
                        }
                    ],
                    "Transcript": "Welcome to Amazon."
                }
            ],
            "EndTime": 4.165,
            "IsPartial": true,
            "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12",
            "StartTime": 1.65
        }
    ]
}

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Trascrizioni in streaming

Impostazione di una trascrizione in streaming