Utilizzo dei segni vocali - Amazon Polly

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo dei segni vocali

Richiesta di segni vocali

Per richiedere contrassegni vocali per il testo di input, utilizza il comando synthesize-speech. Oltre al testo di input, sono necessari i seguenti elementi affinché vengano restituiti questi metadata:

  • output-format

    Amazon Polly supporta solo il formato JSON quando restituisce i contrassegni vocali.

    --output-format json

    Se utilizzi un formato di output non supportato, Amazon Polly genera un'eccezione.

  • voice-id

    Per garantire che i metadata corrispondano al flusso audio associato, specifica la stessa voce utilizzata per generare il flusso audio della sintesi vocale. Le voci disponibili non hanno velocità identiche. Se utilizzi una voce diversa da quella utilizzata per generare la sintesi vocale, i metadata non corrisponderanno al flusso audio.

    --voice-id Joanna
  • speech-mark-types

    Specifica il tipo o i tipi di contrassegni vocali desiderati. Puoi richiedere alcuni o tutti i tipi di contrassegni vocali, ma devi specificare almeno un tipo.

    --speech-mark-types='["sentence", "word", "viseme", "ssml"]'
  • text-type

    Il testo semplice è il testo di input predefinito per Amazon Polly, perciò devi utilizzare text-type ssml se desideri che vengano restituiti contrassegni vocali SSML.

  • outfile

    Specifica il file di output in cui sono scritti i metadata.

    MaryLamb.txt

 

L' AWS CLI esempio seguente è formattato per Unix, Linux e macOS. Per Windows, sostituisci il carattere di continuazione Unix barra rovesciata (\) al termine di ogni riga con un accento circonflesso (^) e usa virgolette (") attorno al testo di input con virgolette singole (') per i tag interni.

aws polly synthesize-speech \ --output-format json \ --voice-id Voice ID \ --text 'Input text' \ --speech-mark-types='["sentence", "word", "viseme"]' \ outfile

Uscita con contrassegno vocale

Amazon Polly restituisce gli oggetti di contrassegni vocali in un flusso JSON delimitato da righe. Un oggetto di contrassegno vocale contiene i seguenti campi:

  • time (tempo): il timestamp in millisecondi dall'inizio del flusso audio corrispondente

  • type (tipo): il tipo di contrassegno vocale (frase, parola, visema o ssml).

  • start (avvio): lo spostamento in byte (non caratteri) dell'inizio dell'oggetto nel testo di input (non include i contrassegni visema)

  • end (fine): lo spostamento in byte (non caratteri) della fine dell'oggetto nel testo di input (non include i contrassegni visema)

  • value (valore): questo varia a seconda del tipo di contrassegno vocale

    • SSML: tag SSML <mark>

    • viseme (visema): nome del visema

    • word (parola) o sentence (frase): una sottostringa del testo di input delimitata dai campi di inizio e fine

Ad esempio, Amazon Polly genera il seguente oggetto di contrassegno vocale word dal testo "Mary had a little lamb":

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

La parola descritta ("had") comincia 373 millisecondi dopo l'inizio del flusso audio, nonché inizia al byte 5 e finisce al byte 8 del testo di input.

Nota

Questi metadata sono relativi all'ID vocale Joanna. Se utilizzi un'altra voce con lo stesso testo di input, i metadata possono variare.