Voci generative - Amazon Polly

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Voci generative

Il motore generativo text-to-speech (TTS) di Amazon Polly offre le voci conversazionali più simili a quelle umane, emotivamente coinvolgenti e adattive disponibili per l'uso tramite la console Amazon Polly.

Il motore Generative è il modello Amazon TTS Polly più grande mai realizzato fino ad oggi. Implementa un trasformatore da miliardi di parametri che converte il testo non elaborato in codici vocali, seguito da un decodificatore basato sulla convoluzione che converte questi codici vocali in forme d'onda in modo incrementale e semplificato. Questo metodo mostra le capacità emergenti ampiamente diffuse dei Large Language Models (LLMs) quando vengono addestrati su volumi crescenti di dati proprietari e disponibili al pubblico che comprendono una varietà di voci, lingue e stili.

Il motore generativo crea un linguaggio sintetico che è emotivamente coinvolgente, assertivo e altamente colloquiale in un modo notevolmente simile a una voce umana. Puoi usare queste voci come un assistente clienti esperto, un trainer virtuale o un inserzionista con un linguaggio sintetico quasi umano.

Nota

La state-of-the-art tecnologia alla base di queste voci rientra nel paradigma dell'intelligenza artificiale generativa per la modellazione del linguaggio e della voce. Un effetto collaterale della tecnologia è che qualsiasi aggiornamento ai dati di addestramento e al modello potrebbe comportare lievi variazioni nel modo in cui le voci suonano, anche nel caso in cui la loro qualità complessiva migliori con gli aggiornamenti del modello. Ciò potrebbe avere un impatto sui casi d'uso con diverse parti di contenuto sintetizzate per un lungo periodo di tempo, ad esempio una stagione di podcast.

Voci generative disponibili

Amazon Polly offre attualmente sette voci in una variante generativa. Queste voci generative sono disponibili anche in una variante conversazionale. NTTS

Lingua Codice lingua Nome/ID Gender

1

Inglese (Australia)

en-AU

Olivia

Femmina

2

Inglese (Regno Unito)

en-GB

Amy

Femmina

3

Inglese (Stati Uniti)

it-IT

Danielle

Femmina

4

Inglese (Stati Uniti)

it-IT

Joanna

Femmina

5

Inglese (Stati Uniti)

it-IT

Matthew

Maschio

6

Inglese (Stati Uniti)

it-IT

Ruth**

Femmina

7

Inglese (Stati Uniti)

it-IT

Stephen**

Maschio

Nota

Il costo delle voci generative è specificato nella pagina di informazioni sui prezzi di Amazon Polly.

Compatibilità tra funzionalità e aree geografiche

Le voci generative di Amazon Polly sono disponibili nelle seguenti regioni:

  • Stati Uniti orientali (Virginia settentrionale): us-east-1

  • Europa (Francoforte): eu-central-1

  • Stati Uniti occidentali (Oregon): us-west-2

  • Altre regioni non sono disponibili

Le seguenti funzionalità sono supportate per le voci generative:

  • Operazioni di sintesi vocale asincrona e in tempo reale.

  • Lo stile di pronuncia di Newscaster non è supportato nel motore Generative.

  • Molti SSML tag (ma non tutti) sono supportati da Amazon Polly. Per ulteriori informazioni sui tag NTTS -supported, consulta SSML Tag supportati SSML

  • Come per le voci standard, puoi scegliere tra diverse frequenze di campionamento per ottimizzare la larghezza di banda e la qualità audio della tua applicazione. Le frequenze di campionamento valide per le voci standard e neurali sono 8kHz, 16 kHzkHz, 22 o 24. kHz L'impostazione predefinita per le voci standard è 22. kHz L'impostazione predefinita per le voci generative è 24kHz. Amazon Polly supporta i formati di streaming PCM audioMP3, OGG (Vorbis) e raw.

Il supporto per la generazione di contrassegni vocali non è attualmente disponibile.

Nota

Nell'improbabile eventualità che si verifichi un'allucinazione del modello (e con il comportamento del motore Generative, che prevede la riproduzione vocale token per token), viene imposto un meccanismo di arresto di emergenza. Il meccanismo integrato impedisce al modello di riprodurre ulteriormente il parlato. Questa funzionalità di sicurezza si basa sull'analisi dei dati in cui il modello può generare allucinazioni, di solito alla fine della frase.

Potrebbero verificarsi casi in cui il modello pensa di provocare allucinazioni e poi finisce per tagliare una parola durante una fase generazionale, restituendo così metà della parola. Ciò potrebbe generare risultati inappropriati.