Uso de marcas de voz - Amazon Polly

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de marcas de voz

Solicitar marcas de voz

Si desea solicitar marcas de voz para el texto de entrada, utilice el comando synthesize-speech. Además del texto de entrada, son necesarios los siguientes elementos para devolver estos metadatos:

  • output-format

    Amazon Polly solo es compatible con el formato JSON cuando se devuelven marcas de voz.

    --output-format json

    Si utiliza un formato de salida no compatible, Amazon Polly genera una excepción.

  • voice-id

    Para asegurarse de que los metadatos coinciden con la secuencia de audio asociada, especifique la misma voz que se utilizó para generar la secuencia de audio del fragmento sintetizado. La velocidad de habla no es la misma en todas las voces. Si utiliza una voz diferente que la que se empleó para generar el fragmento hablado, los metadatos no coincidirán con los de la secuencia de audio.

    --voice-id Joanna
  • speech-mark-types

    Especifique el tipo o los tipos de marcas de voz que desee. Puede solicitar algunos o todos los tipos de marcas de voz, pero debe especificar al menos un tipo.

    --speech-mark-types='["sentence", "word", "viseme", "ssml"]'
  • text-type

    El texto sin formato es el texto de entrada predeterminado en Amazon Polly, por tanto, debe usar text-type ssml si desea obtener marcas de voz SSML.

  • outfile

    Especifique el archivo de salida en el que se escribirán los metadatos.

    MaryLamb.txt

 

El siguiente AWS CLI ejemplo está formateado para Unix, Linux y macOS. En Windows, sustituya la barra invertida (\) del carácter de continuación de Unix al final de cada línea por un signo de intercalación (^) y utilice comillas completas (") alrededor del texto introducido con comillas simples (') para las etiquetas interiores.

aws polly synthesize-speech \ --output-format json \ --voice-id Voice ID \ --text 'Input text' \ --speech-mark-types='["sentence", "word", "viseme"]' \ outfile

Salida de marca de voz

Amazon Polly devuelve los objetos de marcas de voz en una secuencia JSON delimitada por saltos de línea. Los objetos de marca de voz tienen los siguientes campos:

  • time: marca temporal en milisegundos que indica el comienzo de la secuencia de audio correspondiente.

  • type: tipo de marca de voz (frase, palabra, visema o ssml)

  • start: desplazamiento en bytes (no caracteres) del inicio del objeto en el texto de entrada (sin incluir marcas de visemas)

  • end: desplazamiento en bytes (no caracteres) del final del objeto en el texto de entrada (sin incluir marcas de visemas)

  • value: varía en función del tipo de marca de voz.

    • SSML: etiqueta SSML <mark>.

    • viseme: nombre del visema

    • word o sentence: subcadena del texto de entrada delimitada por los campos start y end.

Por ejemplo, Amazon Polly genera el objeto de marca de voz word siguiente a partir del texto "Mary had a little lamb":

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

La palabra descrita ("had") comienza 373 milisegundos después de que comience la secuencia de audio; además, se inicia en el byte 5 y termina en el byte 8 del texto de entrada.

nota

Estos metadatos corresponden al ID de voz Joanna. Si utiliza otra voz con el mismo texto de entrada, los metadatos pueden variar.