Esempi di contrassegni vocali - Amazon Polly

Esempi di contrassegni vocali

I seguenti esempi di richieste di contrassegni vocali mostrano come effettuare richieste comuni e l'output generato.

Esempio 1: Contrassegni vocali senza SSML

L'esempio seguente mostra l'aspetto dei metadata richiesti sullo schermo per la frase semplice: "Mary had a little lamb". Per semplicità, non sono inclusi contrassegni vocali SSML in questo esempio.

L'esempio seguente di AWS CLI è formattato per Unix, Linux e macOS. Per Windows, sostituisci il carattere di continuazione Unix barra rovesciata (\) al termine di ogni riga con un accento circonflesso (^) e usa virgolette (") attorno al testo di input con virgolette singole (') per i tag interni.

aws polly synthesize-speech \ --output-format json \ --voice-id Joanna \ --text 'Mary had a little lamb.' \ --speech-mark-types='["viseme", "word", "sentence"]' \ MaryLamb.txt

Quando si effettua questa richiesta, Amazon Polly restituisce i seguenti elementi nel file .txt:

{"time":0,"type":"sentence","start":0,"end":23,"value":"Mary had a little lamb."} {"time":6,"type":"word","start":0,"end":4,"value":"Mary"} {"time":6,"type":"viseme","value":"p"} {"time":73,"type":"viseme","value":"E"} {"time":180,"type":"viseme","value":"r"} {"time":292,"type":"viseme","value":"i"} {"time":373,"type":"word","start":5,"end":8,"value":"had"} {"time":373,"type":"viseme","value":"k"} {"time":460,"type":"viseme","value":"a"} {"time":521,"type":"viseme","value":"t"} {"time":604,"type":"word","start":9,"end":10,"value":"a"} {"time":604,"type":"viseme","value":"@"} {"time":643,"type":"word","start":11,"end":17,"value":"little"} {"time":643,"type":"viseme","value":"t"} {"time":739,"type":"viseme","value":"i"} {"time":769,"type":"viseme","value":"t"} {"time":799,"type":"viseme","value":"t"} {"time":882,"type":"word","start":18,"end":22,"value":"lamb"} {"time":882,"type":"viseme","value":"t"} {"time":964,"type":"viseme","value":"a"} {"time":1082,"type":"viseme","value":"p"}

In questo output, ogni parte del testo è suddivisa a livello di contrassegni vocali:

  • La frase "Mary had a little lamb".

  • Ogni parola del testo: "Mary", "had", "a", "little" e "lamb".

  • Il visema di ogni suono nel flusso audio corrispondente: "p", "E", "r", "i" e così via. Per ulteriori informazioni sui visemi, consulta Visemi e Amazon Polly.

Esempio 2: Contrassegni vocali con SSML

Il processo di generazione dei contrassegni vocali da un testo ottimizzato per SSML è analogo al processo utilizzato quando SSML non è presente. Utilizza il comando synthesize-speech e specifica il testo ottimizzato per SSML e il tipo di contrassegni vocali che desideri, come mostrato nell'esempio seguente. Affinché l'esempio sia più facile da leggere, non sono inclusi i contrassegni vocali dei visemi, tuttavia si potrebbero anche includere.

L'esempio seguente di AWS CLI è formattato per Unix, Linux e macOS. Per Windows, sostituisci il carattere di continuazione Unix barra rovesciata (\) al termine di ogni riga con un accento circonflesso (^) e usa virgolette (") attorno al testo di input con virgolette singole (') per i tag interni.

aws polly synthesize-speech \ --output-format json \ --voice-id Joanna \ --text-type ssml \ --text '<speak><prosody volume="+20dB">Mary had <break time="300ms"/>a little <mark name="animal"/>lamb</prosody></speak>' \ --speech-mark-types='["sentence", "word", "ssml"]' \ output.txt

Quando si effettua questa richiesta, Amazon Polly restituisce i seguenti elementi nel file .txt:

{"time":0,"type":"sentence","start":31,"end":95,"value":"Mary had <break time=\"300ms\"\/>a little <mark name=\"animal\"\/>lamb"} {"time":6,"type":"word","start":31,"end":35,"value":"Mary"} {"time":325,"type":"word","start":36,"end":39,"value":"had"} {"time":897,"type":"word","start":40,"end":61,"value":"<break time=\"300ms\"\/>"} {"time":1291,"type":"word","start":61,"end":62,"value":"a"} {"time":1373,"type":"word","start":63,"end":69,"value":"little"} {"time":1635,"type":"ssml","start":70,"end":91,"value":"animal"} {"time":1635,"type":"word","start":91,"end":95,"value":"lamb"}