Regioni supportate Quote e velocità di limitazione Lessici di pronuncia SynthesizeSpeech Operazioni API SpeechSynthesisTask Operazioni API SSML (Speech Synthesis Markup Language)

Quote in Amazon Polly

Amazon Polly applica delle quote al traffico dei clienti rifiutando richieste eccessive. La quota predefinita per la richiesta SynthesizeSpeech con voci standard è di 80 transazioni al secondo (tps), in una singola regione, per una singola Account AWS. Se i limiti non sono aumentati e se ne hai generato 100 richieste SynthesizeSpeech al secondo utilizzando una voce standard, 80 richieste al secondo andrebbero a buon fine e 20 richieste al secondo verrebbero limitate da Amazon Polly. Queste richieste restituirebbero una risposta con lo stato HTTP 400 e un'intestazione di risposta che indica ThrottlingException. Amazon Polly inoltre limita il traffico verso tutte le operazioni in base alla frequenza delle richieste.

Esempi di limiti di sintesi vocale

Sintetizza le prime 24 lettere dell'alfabeto inglese una lettera alla volta. Se la sintesi di ogni lettera richiedesse meno di 50 millisecondi, con un limite operativo di otto tps, la sintesi di 24 lettere richiederebbe almeno tre secondi. Durante quel periodo, potresti sintetizzare fino a otto lettere al secondo. Eventuali ulteriori richieste verrebbero limitate. Poiché le richieste durano poco tempo, verrebbero sintetizzate in serie senza sovrapposizioni.
Sintetizza 16 paragrafi di testo. Se ogni paragrafo fosse sintetizzato e ricevuto completamente sul lato client in massimo due secondi, con un limite di operazioni di otto richieste simultanee, ci vorrebbero almeno quattro secondi per sintetizzare tutti i 16 articoli. Nel primo secondo, puoi avviare fino a otto richieste. Durante le richieste simultanee, qualsiasi tentativo di avviare una nuova sintesi verrebbe limitato a causa del limite di concorrenza. È possibile sintetizzare gli otto paragrafi rimanenti dopo i primi due secondi, al termine del primo batch di richieste.

Tieni a mente i seguenti limiti quando usi Amazon Polly.

Regioni supportate

Per un elenco delle AWS regioni in cui è disponibile Amazon Polly, consulta Amazon Polly Endpoints and Quotas nel. Riferimenti generali di Amazon Web Services

Per le regioni che supportano le voci generative, consulta Generative voices.
Per le regioni che supportano le voci in formato lungo, vedi Voci in formato lungo.
Per le regioni che supportano le voci neurali, vedi Compatibilità tra funzionalità e regioni per il TTS neurale.

Quote e velocità di limitazione

La tabella seguente definisce i tassi di limitazione per ogni operazione di Amazon Polly. È possibile utilizzare il AWS Management Console per richiedere aumenti delle quote per le quote regolabili quando necessario.

Operazione	Limite
Lessico
`DeleteLexicon` `PutLexicon` `GetLexicon` `ListLexicons`	Ogni 2 transazioni al secondo (tps) di queste operazioni combinate. Il massimo aumento delle prestazioni consentito è pari a 4 tps.
Voce
`DescribeVoices`	80 tps con un limite di aumento delle prestazioni pari a 100 tps
`SynthesizeSpeech`	Voce generativa: 8 tps Voce lunga: 8 tps con un limite di burst di 10 tps Voce neurale: 8 tps con un limite di aumento delle prestazioni pari a 10 tps Voce standard: 80 tps con un limite di aumento delle prestazioni pari a 100 tps
`StartSpeechSynthesisTask`	Voce generativa: 1 tps Voce lunga: 1 tps Voce neurale: 10 tps Voce standard: 10 tps con un limite di aumento delle prestazioni pari a 12 tps
`GetSynthesizeSpeechTask` e `ListSynthesizeSpeechTask`	Il massimo consentito è pari a 10 tps

Richieste simultanee

Per quanto riguarda la voce generativa, Amazon Polly supporta fino a 26 richieste simultanee. Per le chiamate in formato esteso, Amazon Polly supporta fino a 26 richieste simultanee. Per voce neurale, Amazon Polly supporta 8 tps con un limite di burst di 10 tps, per un massimo di 18 richieste simultanee. Amazon Polly supporta anche i limiti per le richieste simultanee. Per voce standard, Amazon Polly supporta 80 tps per un massimo di 80 richieste simultanee.

Best practice per mitigare la limitazione

Limitazioni di nuovi tentativi con backoff e jitter in modo da poter distribuire il carico su un breve periodo di tempo e gestire picchi di utilizzo imprevisti senza compromettere la disponibilità. AWS Code Sample Catalog è già configurato per eseguire questa operazione di default in molti linguaggi di programmazione. Visita comportamento dei nuovi tentativi di funzionalità per vedere i dettagli.
Usa le metriche Amazon Polly. Amazon Polly pubblica automaticamente su per CloudWatch analizzare l'utilizzo corrente e prevedere la crescita dell'utilizzo.

Nota

Prima di richiedere un aumento della quota (ove applicabile), calcola il fabbisogno di tps seguendo le linee guida in questa pagina. Amazon Polly si assicura solo le risorse di calcolo necessarie in base alla domanda dei clienti per mantenere bassi i costi.

Lessici di pronuncia

Puoi archiviare fino a 100 lessici per account.
I nomi dei lessici possono essere costituiti da stringhe alfanumeriche con una lunghezza massima di 20 caratteri.
Ogni lessico può avere una dimensione massima di 40.000 caratteri. (Tieni presente che la dimensione del lessico influisce sulla latenza dell'operazione.) SynthesizeSpeech
In un lessico puoi specificare fino a 100 caratteri per ogni sostituzione di <fonema> o <alias>.

Per informazioni sull'uso dei lessici, consulta Gestione dei lessici.

SynthesizeSpeech Operazioni API

Quando stimi l'utilizzo di SynthesizeSpeech, tieni presente che l'audio prodotto da Amazon Polly, in particolare per le applicazioni interattive, richiede in genere almeno alcuni secondi per essere riprodotto. Questo riduce il tasso di richieste a SynthesizeSpeech, anche per un numero significativo di consumatori simultanei. Inoltre, Amazon Polly limita le richieste SynthesizeSpeech in base al numero di richieste simultanee che sintetizza. Non esiste un'impostazione separata per le richieste simultanee. Il limite di richieste simultanee ha sempre lo stesso valore del numero di tps consentiti e si adatta ad esso.

Esempio di applicazione per un breve racconto. Puoi usare Amazon Polly per creare un'applicazione che riproduca una serie di racconti. Con questo tipo di app, inizia la riproduzione della prima storia, poi quella successiva e così via, fino a quando un utente non chiude l'applicazione. Ogni storia richiederebbe circa 0,5 secondi per essere sintetizzata e 10 secondi per essere riprodotta. In questo scenario, potresti aspettarti una chiamata a SynthesizeSpeech ogni 10 secondi trascorsi dal cliente nell'utilizzo dell'applicazione. Ciò si tradurrebbe in una chiamata al secondo per ogni 10 clienti che utilizzano contemporaneamente l'applicazione. Se avessi 1000 clienti che utilizzano contemporaneamente l'applicazione, potresti aspettarti una tariffa media di chiamata a SynthesizeSpeech di sole 100 transazioni al secondo.

Nota i seguenti limiti correlati all'uso dell'operazione dell'API SynthesizeSpeech:

Il testo di input può avere una dimensione massima di 3000 caratteri fatturati (6000 caratteri totali). I tag SSML non vengono conteggiati come caratteri fatturati.
Puoi specificare fino a cinque lessici da applicare al testo di input.
Lo streaming dell'audio di output (sintesi) è limitato a 10 minuti. Una volta raggiunto questo limite, qualsiasi sintesi vocale rimanente viene interrotta.

Per ulteriori informazioni, consulta SynthesizeSpeech.

Nota

Alcune limitazioni dell'operazione API SynthesizeSpeech possono essere ignorate utilizzando l'operazione API StartSythensizeSpeechTask. Per ulteriori informazioni, consulta File audio lunghi.

SpeechSynthesisTask Operazioni API

Nota i seguenti limiti correlati all'uso delle operazioni API StartSpeechSynthesisTask, GetSpeechSynthesisTask e ListSpeechSynthesisTasks:

Il testo di input può avere una dimensione massima di 100,000 caratteri fatturati (200,000 caratteri totali). I tag SSML non vengono conteggiati come caratteri fatturati.
Puoi specificare fino a cinque lessici da applicare al testo di input.

SSML (Speech Synthesis Markup Language)

Nota i seguenti limiti correlati all'uso di SSML:

Non sono supportati i tag <audio>, <lexicon>, <lookup> e <voice>.
Gli elementi <break> possono specificare una durata massima di 10 secondi ciascuno.
Il tag <prosody> non supporta i valori per l'attributo di velocità inferiori a -80%.

Per ulteriori informazioni, consulta Generazione vocale da documenti SSML.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Creazione di file audio lunghi

Codice e applicazioni di esempio