Marcas de voz

Las marcas de voz son metadatos que describen el fragmento que se sintetiza; por ejemplo, dónde empieza y termina una palabra o una frase en la secuencia de audio. Si solicita las marcas de voz de un texto, Amazon Polly devolverá estos metadatos en lugar del segmento de habla sintetizado. Si utiliza las marcas de voz con la secuencia de audio del fragmento hablado, podrá proporcionar a las aplicaciones una experiencia visual mejorada.

Por ejemplo, si combina los metadatos con la secuencia de audio del texto, podrá sincronizar el habla con animación facial (sincronización de los labios) o resaltar las palabras escritas a medida que se pronuncian.

Las marcas de voz están disponibles cuando se utilizan motores neuronales, de formato largo o estándar text-to-speech.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Elección de un motor de voz

Tipos de marcas de voz