Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Streaming e risultati parziali
Poiché lo streaming funziona in tempo reale, le trascrizioni vengono prodotte con risultati parziali. Amazon Transcribe suddivide il flusso audio in entrata in base a segmenti vocali naturali, ad esempio un cambio di altoparlante o una pausa nell'audio. La trascrizione viene restituita all'applicazione in un flusso di eventi di trascrizione, con ciascuna risposta contenete una parte sempre maggiore del discorso trascritto fino a quando l'intero segmento è completo.
Un'approssimazione di questo viene mostrata nel seguente blocco di codice. Puoi visualizzare questo processo in azione accedendo alla AWS Management Console
In questo esempio, ogni riga è il risultato parziale di un segmento audio.
The
The Amazon.
The Amazon is
The Amazon is the law.
The Amazon is the largest
The Amazon is the largest ray
The Amazon is the largest rain for
The Amazon is the largest rainforest.
The Amazon is the largest rainforest on the
The Amazon is the largest rainforest on the planet.
Questi risultati parziali sono presenti nell'output della trascrizione all'interno degli oggetti dei Results
. In questo blocco di oggetti c'è anche un campo. IsPartial Se questo campo è vero, il segmento di trascrizione non è ancora completo. Di seguito puoi visualizzare la differenza tra un segmento incompleto e uno completo:
"IsPartial": true (incomplete segment)
"Transcript": "The Amazon is the largest rainforest." "EndTime": 4.545, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 0.025"IsPartial": false (complete segment)
"Transcript": "The Amazon is the largest rainforest on the planet." "EndTime": 6.025, "IsPartial": false, "ResultId": "34567e89-0fa1-2bc3-4d56-78e90123456f", "StartTime": 0.025
A ogni parola all'interno di un segmento completo è associato un punteggio di affidabilità, che è un valore compreso tra 0
e 1
. Un valore maggiore indica una maggiore probabilità che la parola venga trascritta correttamente.
Suggerimento
L’StartTime
e l’EndTime
di un segmento audio possono essere utilizzate per sincronizzare l'uscita della trascrizione con i dialoghi video.
Se stai eseguendo un'applicazione che richiede una bassa latenza, potresti voler utilizzare la stabilizzazione dei risultati parziali.
Stabilizzazione dei risultati parziali
Amazon Transcribe inizia a restituire i risultati della trascrizione non appena si avvia lo streaming dell'audio. Restituisce questi risultati parziali in modo incrementale fino a generare un risultato finale a livello di un segmento vocale naturale. Un segmento vocale naturale è un discorso continuo che contiene una pausa o un cambio di parlante.
Amazon Transcribe continua a emettere risultati parziali finché non genera il risultato di trascrizione finale per un segmento vocale. Poiché il riconoscimento vocale può modificare le parole man mano che acquisisce maggiore contesto, le trascrizioni in streaming possono cambiare leggermente a ogni nuovo risultato parziale.
Questo processo offre due opzioni per ogni segmento vocale:
-
Attendi il segmento finito
-
Usa i risultati parziali del segmento
La stabilizzazione parziale del risultato modifica la modalità di Amazon Transcribe produzione del risultato finale della trascrizione per ogni segmento completo. Se attivata, possono cambiare solo le ultime parole dei risultati parziali. Per questo motivo, la precisione della trascrizione potrebbe risentirne. Tuttavia, la trascrizione viene restituita più rapidamente che senza la stabilizzazione dei risultati parziali. Questa riduzione della latenza può essere utile quando si sottotitolano video o si generano didascalie per gli streaming in diretta.
Gli esempi seguenti mostrano come viene gestito lo stesso flusso audio quando la stabilizzazione dei risultati parziali non è attivata e quando lo è. Tieni presente che puoi impostare il livello di stabilità su basso, medio o alto. La bassa stabilità offre la massima precisione. L'elevata stabilità trascrive più velocemente, ma con una precisione leggermente inferiore.
"Trascrizione": |
"EndTime": |
"IsPartial": |
---|---|---|
Stabilizzazione dei risultati parziali non abilitata |
||
|
|
|
Stabilizzazione dei risultati parziali abilitata (alta stabilità) |
||
|
|
|
Quando attivi la stabilizzazione dei risultati parziali, Amazon Transcribe utilizza un Stable
campo per indicare se un elemento è stabile, dove «elemento» si riferisce a una parola o a un segno di punteggiatura trascritti. I valori per Stable
sono true
o false
. È più probabile che gli elementi contrassegnati come false
(non stabili) cambino man mano che il segmento viene trascritto. Al contrario, gli elementi contrassegnati come true
(stabili) non cambieranno.
Puoi scegliere di rendere le parole non stabili in modo che le didascalie siano allineate al parlato. Anche se le didascalie cambiano leggermente man mano che viene aggiunto il contesto, si tratta di un'esperienza utente migliore rispetto ai picchi di testo periodici, che possono o meno essere allineati al parlato.
Puoi anche scegliere di visualizzare le parole non stabili in un formato diverso, ad esempio in corsivo, per indicare agli spettatori che queste parole potrebbero cambiare. La visualizzazione dei risultati parziali limita la quantità di testo visualizzato in un determinato momento. Questo può essere importante quando si ha a che fare con vincoli di spazio, come per le didascalie dei video.
Approfondisci con il AWS Machine Learning Blog
Per saperne di più su come migliorare la precisione delle trascrizioni in tempo reale, consulta:
Esempio di output di stabilizzazione dei risultati parziali
L'esempio di output seguente mostra i flag Stable
per un segmento incompleto ("IsPartial": true
). Come puoi vedere, le parole "to" e "Amazon" non sono stabili e pertanto potrebbero cambiare prima della finalizzazione del segmento.
"Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Content": "Welcome", "EndTime": 2.4225, "Stable": true, "StartTime": 1.65, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "to", "EndTime": 2.8325, "Stable": false, "StartTime": 2.4225, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "Amazon", "EndTime": 3.635, "Stable": false, "StartTime": 2.8325, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 3.635, "Stable": false, "StartTime": 3.635, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "Welcome to Amazon." } ], "EndTime": 4.165, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 1.65 } ] }