Velocidad de la voz - Amazon Polly

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Velocidad de la voz

Debido a la variación natural existente entre las voces, cada voz disponible leerá el texto a velocidades ligeramente diferentes. Por ejemplo, con las voces del idioma inglés de Estados Unidos, Ivy y Joanna son ligeramente más rápidas que Matthew al decir "Mary had a little lamb" y notablemente más rápidas que Joey.

Dado que existe tanta variación entre las voces y que el grado de esa variación puede depender del texto que se lee, no hay una velocidad estándar (palabras por minuto) disponible para las voces de Amazon Polly. Sin embargo, puedes averiguar cuánto tarda tu voz en pronunciar el texto seleccionado usando SpeechMarks. Para obtener más información sobre el uso de marcas de voz en Amazon Polly, consulte Uso de marcas de voz

Para saber aproximadamente lo que se tarda en decir un fragmento de texto
  1. Abre el AWS CLI.

  2. Ejecute el siguiente código, rellenándolo con sus datos según sea necesario

    aws polly synthesize-speech \ --language-code optional language code if needed --output-format json \ --voice-id [name of desired voice] \ --text '[desired text]' \ --speech-mark-types='["viseme"]' \ LengthOfText.txt
  3. Abre LengthOfText .txt

Si el texto era "Mary had a little lamb", las últimas líneas devueltas por Amazon Polly serían:

{"time":882,"type":"viseme","value":"t"} {"time":964,"type":"viseme","value":"a"} {"time":1082,"type":"viseme","value":"p"}

El último visema, básicamente el sonido de las letras finales de "lamb" comienza 1082 milisegundos después del comienzo del fragmento de voz. Si bien no es exactamente la duración del audio, es un valor próximo y puede servir de base para la comparación entre voces.

Cambio de la velocidad de la voz

En determinadas aplicaciones, es posible que prefiera que la voz que le gusta sea más lenta o más rápida. Si la velocidad de la voz es un problema, Amazon Polly ofrece la posibilidad de modificarla mediante etiquetas SSML.

Por ejemplo:

Su organización está desarrollando una aplicación que lee libros a un público compuesto por inmigrantes. El público habla inglés, pero su fluidez es limitada. En este caso, puede considerar ralentizar la velocidad de la voz para dar al público un poco más de tiempo para que comprenda lo que aplicación está diciendo.

Amazon Polly le ayuda a ralentizar la velocidad de la voz mediante la etiqueta SSML <prosody>, como en este ejemplo:

<speak> In some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody> </speak>

o

<speak> In some cases, it might help your audience to <prosody rate="slow">slow the speaking rate slightly to aid in comprehension.</prosody> </speak>

Dispone de dos opciones de velocidad al utilizar SSML con Amazon Polly:

  • Velocidades preestablecidas: x-slow, slow, medium, fast y x-fast. En estos casos, la velocidad de cada opción es aproximada, dependiendo de la voz elegida. La opción medium es la velocidad normal de la voz.

  • n% de la velocidad de habla: se puede utilizar cualquier porcentaje de la velocidad de habla que esté comprendido entre 20% y 200%. En estos casos, puede elegir exactamente la velocidad que desea. Sin embargo, la velocidad real de la voz es aproximada, dependiendo de la voz que haya seleccionado. 100 % se considera la velocidad normal de la voz.

Debido a que la velocidad de cada opción es aproximada y depende de la voz que elija, le recomendamos que pruebe la voz seleccionada en varias velocidades para saber si satisface exactamente sus necesidades.

Para obtener más información sobre el uso de la etiqueta prosody para obtener el mejor efecto, consulte Control del volumen, velocidad de habla y tono