Voces generativas disponibles Compatibilidad con características y regiones

Voces generativas

El motor generativo text-to-speech (TTS) de Amazon Polly ofrece las voces conversacionales más parecidas a las humanas, emocionalmente comprometidas y adaptables disponibles para su uso a través de la consola Amazon Polly.

El motor generativo es el modelo de Amazon Polly TTS más grande hasta la fecha. Implementa un transformador de mil millones de parámetros que convierte el texto sin procesar en códigos de voz, seguido de un descodificador basado en la convolución que convierte estos códigos de voz en formas de onda de forma gradual y reproducible. Este método muestra las habilidades emergentes de los modelos lingüísticos de gran tamaño (LLMs), que se conocen ampliamente, cuando se entrenan con volúmenes cada vez mayores de datos privados y disponibles al público que comprenden una variedad de voces, idiomas y estilos.

El motor generativo crea un discurso sintético que es emocionalmente expresivo, asertivo y muy coloquial, de una manera considerablemente similar a la voz humana. Puedes usar estas voces como un asistente de atención al cliente experto, un instructor virtual o un anunciante con un discurso sintético casi humano.

nota

La state-of-the-art tecnología en la que se basan estas voces se inscribe en el paradigma de la IA generativa para el modelado del lenguaje y la voz. Un efecto secundario de la tecnología es que cualquier actualización de los datos de entrenamiento y del modelo podría provocar ligeras variaciones en la forma en que suenan las voces, incluso en el caso de que la calidad general mejore con las actualizaciones del modelo. Esto podría repercutir en los casos de uso en los que distintas partes del contenido se sintetizan durante un período de tiempo prolongado (por ejemplo, una temporada de podcasts).

Voces generativas disponibles

Amazon Polly ofrece actualmente 27 voces en una variante generativa. Estas voces de formato largo también están disponibles en una variante NTTS conversacional.

	Idioma	Código de idioma	Nombre/ID	Gender
1	Inglés (Australia)	en-AU	Olivia	Mujer
2	Inglés (India)	en-IN	Kajal	Mujer
3	Inglés (sudafricano)	en-ZA	Ayanda	Mujer
4	Inglés (Reino Unido)	en-GB	Amy	Mujer
5	English (EE. UU.)	en-US	Danielle Joanna Matthew Ruth Salli Stephen	Mujer Mujer Hombre Mujer Mujer Hombre
6	Francés (belga)	fr-BE	Isabelle	Mujer
7	Francés (Canadá)	fr-CA	Gabrielle Liam	Mujer Hombre
8	Francés (Francia)	fr-FR	Céline Léa Rémi	Mujer Mujer Hombre
9	Alemán (Alemania)	de-DE	Daniel Vicki	Hombre Mujer
10	Italiano (Italia)	it-IT	Bianca	Mujer
11	Polaco (Polonia)	pl-PL	Ewa Ola	Mujer Mujer
12	Español (México)	es-MX	Andrés Mía	Hombre Mujer
13	Español (España)	es-ES	Lucía Sergio	Mujer Hombre
14	Español (EE. UU.)	es-US	Lupe Pedro	Mujer Hombre

nota

El costo de las voces generativas se especifica en la página de información de precios de Amazon Polly.

Compatibilidad con características y regiones

Las voces de formato largo de Amazon Polly están disponibles en las siguientes regiones:

Este de EE. UU. (Norte de Virginia): us-east-1
Europa (Fráncfort) eu-central-1
EE.UU. Oeste (Oregón): us-west-2
No hay disponibles otras regiones

Se admiten las siguientes características con las voces generativas:

Operaciones de síntesis de voz asíncronas y en tiempo real.
El estilo Presentador no se admite en el motor generativo.
La mayoría (pero no todas) de las etiquetas SSML son compatibles con Amazon Polly. Para obtener más información acerca de las etiquetas SSML compatibles con NTTS, consulte Etiquetas SSML admitidas
Al igual que ocurre con las voces estándar, puede elegir entre varias frecuencias de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Las velocidades de muestreo válidas para las voces estándar y neuronales son 8 kHz, 16 kHz, 22 kHz o 24 kHz. El valor predeterminado para las voces estándar es 22 kHz. El valor predeterminado para las voces estándar es 24 kHz. Amazon Polly admite los formatos de MP3 transmisión de audio OGG (Vorbis) y PCM sin procesar.

En estos momentos, no está disponible la compatibilidad con la generación de marcas de voz.

nota

En el improbable caso de que se produzca una alucinación del modelo (y dado el modelo de comportamiento del motor generativo, que consiste en reproducir el discurso símbolo por símbolo), se impone un mecanismo de parada de emergencia. El mecanismo incorporado impide que el modelo siga reproduciendo la voz. Esta característica de seguridad se basa en un análisis de datos en el que el modelo tiene el potencial de alucinar, por lo general, al final de la frase.

Puede haber casos en los que el modelo piense que va a alucinar y acabe cortando una palabra durante un paso de generación, por lo que traduce la mitad de la palabra. Esto podría generar resultados inapropiados.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Motores de voz

Motor de formato largo