Utilizzo dei contrassegni vocali
Richiesta di contrassegni vocali
Per richiedere contrassegni vocali per il testo di input, utilizza il comando synthesize-speech
. Oltre al testo di input, sono necessari i seguenti elementi affinché vengano restituiti questi metadata:
-
output-format
Amazon Polly supporta solo il formato JSON quando restituisce i contrassegni vocali.
--output-format json
Se utilizzi un formato di output non supportato, Amazon Polly genera un'eccezione.
-
voice-id
Per garantire che i metadata corrispondano al flusso audio associato, specifica la stessa voce utilizzata per generare il flusso audio della sintesi vocale. Le voci disponibili non hanno velocità identiche. Se utilizzi una voce diversa da quella utilizzata per generare la sintesi vocale, i metadata non corrisponderanno al flusso audio.
--voice-id Joanna
-
speech-mark-types
Specifica il tipo o i tipi di contrassegni vocali desiderati. Puoi richiedere alcuni o tutti i tipi di contrassegni vocali, ma devi specificare almeno un tipo.
--speech-mark-types='["sentence", "word", "viseme", "ssml"]'
-
text-type
Il testo semplice è il testo di input predefinito per Amazon Polly, perciò devi utilizzare
text-type ssml
se desideri che vengano restituiti contrassegni vocali SSML. -
outfile
Specifica il file di output in cui sono scritti i metadata.
MaryLamb.txt
L'esempio seguente di AWS CLI è formattato per Unix, Linux e macOS. Per Windows, sostituisci il carattere di continuazione Unix barra rovesciata (\) al termine di ogni riga con un accento circonflesso (^) e usa virgolette (") attorno al testo di input con virgolette singole (') per i tag interni.
aws polly synthesize-speech \ --output-format json \ --voice-id
Voice ID
\ --text 'Input text
' \ --speech-mark-types='["sentence", "word", "viseme"]' \outfile
Output dei contrassegni vocali
Amazon Polly restituisce gli oggetti di contrassegni vocali in un flusso JSON delimitato da righe. Un oggetto di contrassegno vocale contiene i seguenti campi:
-
time (tempo): il timestamp in millisecondi dall'inizio del flusso audio corrispondente
-
type (tipo): il tipo di contrassegno vocale (frase, parola, visema o ssml).
-
start (avvio): lo spostamento in byte (non caratteri) dell'inizio dell'oggetto nel testo di input (non include i contrassegni visema)
-
end (fine): lo spostamento in byte (non caratteri) della fine dell'oggetto nel testo di input (non include i contrassegni visema)
-
value (valore): questo varia a seconda del tipo di contrassegno vocale
SSML: tag SSML <mark>
viseme (visema): nome del visema
word (parola) o sentence (frase): una sottostringa del testo di input delimitata dai campi di inizio e fine
Ad esempio, Amazon Polly genera il seguente oggetto di contrassegno vocale word
dal testo "Mary had a little lamb":
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
La parola descritta ("had") comincia 373 millisecondi dopo l'inizio del flusso audio, nonché inizia al byte 5 e finisce al byte 8 del testo di input.
Nota
Questi metadata sono relativi all'ID vocale Joanna
. Se utilizzi un'altra voce con lo stesso testo di input, i metadata possono variare.