Velocidad de la voz - Amazon Polly

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Velocidad de la voz

Debido a la variación natural entre las voces, cada voz disponible habla a velocidades ligeramente diferentes. Por ejemplo, con las voces en inglés estadounidense, Ivy y Joanna son ligeramente más rápidas que Matthew y considerablemente más rápidas que Joey. Como hay tanta variación entre las voces, no hay una velocidad estándar (palabras por minuto) disponible para las voces de Amazon Polly. Sin embargo, puede averiguar cuánto tarda su voz en pronunciar el texto seleccionado mediante las marcas de voz.

Para medir la longitud de un pasaje de texto hablado
  1. Abre el AWS CLI.

  2. Ejecute el siguiente código y rellénelo según sea necesario.

    aws polly synthesize-speech \ --language-code optional language code if needed --output-format json \ --voice-id [name of desired voice] \ --text '[desired text]' \ --speech-mark-types='["viseme"]' \ LengthOfText.txt
  3. Abra LengthOfText.txt.

Si el texto era "Mary had a little lamb", las últimas líneas devueltas por Amazon Polly serían:

{"time":882,"type":"viseme","value":"t"} {"time":964,"type":"viseme","value":"a"} {"time":1082,"type":"viseme","value":"p"}

El último visema, básicamente el sonido de las letras finales de "lamb" comienza 1082 milisegundos después del comienzo del fragmento de voz. Si bien no es exactamente la duración del audio, es un valor próximo y puede servir de base para la comparación entre voces.

Cambio de la velocidad de la voz

En determinadas aplicaciones, es posible que prefiera que la voz que le gusta sea más lenta o más rápida. Si la velocidad de la voz es un problema, Amazon Polly ofrece la posibilidad de modificarla mediante etiquetas SSML. Por ejemplo, si su organización estaba creando una aplicación que lee libros para un público inmigrante, es posible que desee variar la velocidad de la voz. Es posible que su audiencia hable inglés, pero su fluidez es limitada. <prosody>Amazon Polly le ayuda a reducir la velocidad de la voz mediante la etiqueta SSML.

Puedes usar un porcentaje:

<speak> In some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody> </speak>

O una velocidad preestablecida:

<speak> In some cases, it might help your audience to <prosody rate="slow">slow the speaking rate slightly to aid in comprehension.</prosody> </speak>

Dispone de dos opciones de velocidad al utilizar SSML con Amazon Polly:

  • Velocidades preestablecidas: x-slowslow,medium,fast, yx-fast. En estos casos, la velocidad de cada opción es aproximada, dependiendo de la voz elegida. La opción medium es la velocidad normal de la voz.

  • n% de la velocidad de voz: se puede utilizar cualquier porcentaje de la velocidad de voz, entre el 20% y el 200%. En estos casos, puede elegir exactamente la velocidad que desea. Sin embargo, la velocidad real de la voz es aproximada, dependiendo de la voz que haya seleccionado. 100 % se considera la velocidad normal de la voz.

nota

Pon a prueba la voz seleccionada a varias velocidades. La velocidad de cada opción es aproximada y depende de la voz que elijas.

Para obtener más información sobre el uso de la prosody etiqueta, consulteControl del volumen, velocidad de habla y tono .