Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Trascrizione dell'audio in streaming
Utilizzando Amazon Transcribe lo streaming, puoi produrre trascrizioni in tempo reale per i tuoi contenuti multimediali. A differenza delle trascrizioni in batch, che prevedono il caricamento di file multimediali, i contenuti multimediali in streaming vengono forniti in tempo reale. Amazon Transcribe Amazon Transcribe restituisce quindi una trascrizione, anche in tempo reale.
Lo streaming può includere contenuti multimediali preregistrati (film, musica e podcast) e contenuti multimediali in tempo reale (trasmissioni di notizie in diretta). I casi d'uso più comuni dello streaming Amazon Transcribe includono i sottotitoli in diretta per eventi sportivi e il monitoraggio in tempo reale dell'audio dei call center.
I contenuti in streaming vengono forniti sotto forma di una serie di pacchetti di dati sequenziali, o “blocchi”, che Amazon Transcribe trascrive istantaneamente. I vantaggi dell'utilizzo dello streaming rispetto alla modalità batch includono speech-to-text funzionalità in tempo reale nelle applicazioni e tempi di trascrizione più rapidi. Tuttavia, questa maggiore velocità può avere limiti di precisione in alcuni casi.
Amazon Transcribe offre le seguenti opzioni per lo streaming:
-
SDKs(preferito)
Per trascrivere l'audio in streaming in AWS Management Console, parla nel microfono del computer.
Suggerimento
Per esempi di codice SDK, consulta il repository AWS Samples
I formati audio supportati per le trascrizioni in streaming sono:
FLAC
Audio con codifica Opus in un container Ogg
PCM (solo formati audio Little-endian firmati a 16 bit, che non includono WAV)
Sono consigliati i formati Lossless (FLAC o PCM).
Nota
Le trascrizioni in streaming non sono supportate in tutte le lingue. Per i dettagli, consulta la colonna “Input di dati” nella tabella delle lingue supportate.
Best practice
Le seguenti raccomandazioni migliorano l'efficienza della trascrizione in streaming:
-
Se possibile, utilizzare audio con codifica PCM.
-
Assicurarsi che lo streaming sia il più vicino possibile al tempo reale.
-
La latenza dipende dalle dimensioni dei blocchi audio. Se si riesce a specificare la dimensione dei blocchi in base al tipo di audio (ad esempio con PCM), impostare ogni blocco su un valore compreso tra 50 ms e 200 ms. Puoi calcolare la dimensione del blocco audio con la seguente formula:
chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
-
Usare una dimensione dei blocchi uniforme.
-
Assicurarsi di specificare correttamente il numero di canali audio.
-
Con l'audio PCM a canale singolo, ogni campione è composto da due byte, quindi ogni blocco deve essere composto da un numero pari di byte.
-
Con l'audio PCM a due canali, ogni campione è composto da quattro byte, quindi ogni blocco deve essere un multiplo di 4 byte.
-
Quando il flusso di audio non contiene voce, codificare e inviare la stessa quantità di silenzio. Ad esempio, il silenzio per PCM è un flusso di zero byte.
-
Assicurarsi di specificare la frequenza di campionamento corretta per l'audio. Se possibile, registrare a una frequenza di campionamento di 16.000 Hz; ciò offrirà il miglior compromesso tra qualità e volume di dati inviati sulla rete. Tenere presente che la maggior parte dei microfoni di fascia alta registra a 44.100 Hz o 48.000 Hz.