Quote in Amazon Polly - Amazon Polly

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Quote in Amazon Polly

Amazon Polly applica delle quote al traffico dei clienti rifiutando richieste eccessive. La quota predefinita per la richiesta SynthesizeSpeech con voci standard è di 80 transazioni al secondo (tps), in una singola regione, per una singola Account AWS. Se i limiti non sono aumentati e se ne hai generato 100 richieste SynthesizeSpeech al secondo utilizzando una voce standard, 80 richieste al secondo andrebbero a buon fine e 20 richieste al secondo verrebbero limitate da Amazon Polly. Queste richieste restituirebbero una risposta con lo stato HTTP 400 e un'intestazione di risposta che indica ThrottlingException. Amazon Polly inoltre limita il traffico verso tutte le operazioni in base alla frequenza delle richieste.

Esempi di limiti di sintesi vocale

  • Sintetizza le prime 24 lettere dell'alfabeto inglese una lettera alla volta. Se la sintesi di ogni lettera richiedesse meno di 50 millisecondi, con un limite operativo di otto tps, la sintesi di 24 lettere richiederebbe almeno tre secondi. Durante quel periodo, potresti sintetizzare fino a otto lettere al secondo. Eventuali ulteriori richieste verrebbero limitate. Poiché le richieste durano poco tempo, verrebbero sintetizzate in serie senza sovrapposizioni.

  • Sintetizza 16 paragrafi di testo. Se ogni paragrafo fosse sintetizzato e ricevuto completamente sul lato client in massimo due secondi, con un limite di operazioni di otto richieste simultanee, ci vorrebbero almeno quattro secondi per sintetizzare tutti i 16 articoli. Nel primo secondo, puoi avviare fino a otto richieste. Durante le richieste simultanee, qualsiasi tentativo di avviare una nuova sintesi verrebbe limitato a causa del limite di concorrenza. È possibile sintetizzare gli otto paragrafi rimanenti dopo i primi due secondi, al termine del primo batch di richieste.

Tieni a mente i seguenti limiti quando usi Amazon Polly.

Regioni supportate

Per l'elenco delle regioni AWS in cui è disponibile Amazon Polly, consulta l'argomento relativo a endpoint e quote di Amazon Polly nella Riferimenti generali di Amazon Web Services. Per le regioni che supportano le voci neurali, vedere Compatibilità tra funzionalità e aree geografiche per il TTS neurale. Le voci lunghe sono disponibili negli Stati Uniti orientali (Virginia settentrionale).

Quote e velocità di limitazione

La tabella seguente definisce i tassi di limitazione per ogni operazione di Amazon Polly. Puoi utilizzare AWS Management Console per richiedere aumenti di quota per le quote regolabili, quando necessario.

Operazione

Limite

Lessico

DeleteLexicon

PutLexicon

GetLexicon

ListLexicons

Ogni 2 transazioni al secondo (tps) di queste operazioni combinate.

Il massimo aumento delle prestazioni consentito è pari a 4 tps.

Voce

DescribeVoices

80 tps con un limite di aumento delle prestazioni pari a 100 tps

SynthesizeSpeech

Voce standard: 80 tps con un limite di aumento delle prestazioni pari a 100 tps

Voce neurale: 8 tps con un limite di aumento delle prestazioni pari a 10 tps

Voce lunga: 8 tps con un limite di burst di 10 tps

StartSpeechSynthesisTask

Voce standard: 10 tps con un limite di aumento delle prestazioni pari a 12 tps

Voce neurale: 1 tps

Voce lunga: 1 tps

GetSynthesizeSpeechTask e ListSynthesizeSpeechTask

Il massimo consentito è pari a 10 tps

Richieste simultanee

Amazon Polly supporta anche i limiti per le richieste simultanee. Per voce standard, Amazon Polly supporta 80 tps per un massimo di 80 richieste simultanee. Per voce neurale, Amazon Polly supporta 8 tps con un limite di burst di 10 tps, per un massimo di 18 richieste simultanee. Per le chiamate in formato esteso, Amazon Polly supporta fino a 26 richieste simultanee.

Best practice per mitigare la limitazione

  • Limitazioni di nuovi tentativi con backoff e jitter in modo da poter distribuire il carico su un breve periodo di tempo e gestire picchi di utilizzo imprevisti senza compromettere la disponibilità. AWS Code Sample Catalog è già configurato per eseguire questa operazione di default in molti linguaggi di programmazione. Visita comportamento dei nuovi tentativi di funzionalità per vedere i dettagli.

  • Usa le metriche Amazon Polly. Amazon Polly pubblica automaticamente su per CloudWatch analizzare l'utilizzo corrente e prevedere la crescita dell'utilizzo.

Nota

Prima di richiedere un aumento della quota (ove applicabile), calcola il fabbisogno di tps seguendo le linee guida in questa pagina. Amazon Polly si assicura solo le risorse di calcolo necessarie in base alla domanda dei clienti per mantenere bassi i costi.

Lessici di pronuncia

  • Puoi archiviare fino a 100 lessici per account.

  • I nomi dei lessici possono essere costituiti da stringhe alfanumeriche con una lunghezza massima di 20 caratteri.

  • Ogni lessico può avere una dimensione massima di 40.000 caratteri. (Tieni presente che la dimensione del lessico influisce sulla latenza dell'operazione.) SynthesizeSpeech

  • In un lessico puoi specificare fino a 100 caratteri per ogni sostituzione di <fonema> o <alias>.

Per informazioni sull'uso dei lessici, consulta Gestione dei lessici.

SynthesizeSpeech Operazioni API

Quando stimi l'utilizzo di SynthesizeSpeech, tieni presente che l'audio prodotto da Amazon Polly, in particolare per le applicazioni interattive, richiede in genere almeno alcuni secondi per essere riprodotto. Questo riduce il tasso di richieste a SynthesizeSpeech, anche per un numero significativo di consumatori simultanei. Inoltre, Amazon Polly limita le richieste SynthesizeSpeech in base al numero di richieste simultanee che sintetizza. Non esiste un'impostazione separata per le richieste simultanee. Il limite di richieste simultanee ha sempre lo stesso valore del numero di tps consentiti e si adatta ad esso.

Esempio di applicazione per un breve racconto. Puoi usare Amazon Polly per creare un'applicazione che riproduca una serie di racconti. Con questo tipo di app, inizia la riproduzione della prima storia, poi quella successiva e così via, fino a quando un utente non chiude l'applicazione. Ogni storia richiederebbe circa 0,5 secondi per essere sintetizzata e 10 secondi per essere riprodotta. In questo scenario, potresti aspettarti una chiamata a SynthesizeSpeech ogni 10 secondi trascorsi dal cliente nell'utilizzo dell'applicazione. Ciò si tradurrebbe in una chiamata al secondo per ogni 10 clienti che utilizzano contemporaneamente l'applicazione. Se avessi 1000 clienti che utilizzano contemporaneamente l'applicazione, potresti aspettarti una tariffa media di chiamata a SynthesizeSpeech di sole 100 transazioni al secondo.

Nota i seguenti limiti correlati all'uso dell'operazione dell'API SynthesizeSpeech:

  • Il testo di input può avere una dimensione massima di 3000 caratteri fatturati (6000 caratteri totali). I tag SSML non vengono conteggiati come caratteri fatturati.

  • Puoi specificare fino a cinque lessici da applicare al testo di input.

  • Lo streaming dell'audio di output (sintesi) è limitato a 10 minuti. Una volta raggiunto questo limite, qualsiasi sintesi vocale rimanente viene interrotta.

Per ulteriori informazioni, consulta SynthesizeSpeech.

Nota

Alcune limitazioni dell'operazione API SynthesizeSpeech possono essere ignorate utilizzando l'operazione API StartSythensizeSpeechTask. Per ulteriori informazioni, consulta Creazione di file audio lunghi.

SpeechSynthesisTask Operazioni API

Nota i seguenti limiti correlati all'uso delle operazioni API StartSpeechSynthesisTask, GetSpeechSynthesisTask e ListSpeechSynthesisTasks:

  • Il testo di input può avere una dimensione massima di 100,000 caratteri fatturati (200,000 caratteri totali). I tag SSML non vengono conteggiati come caratteri fatturati.

  • Puoi specificare fino a cinque lessici da applicare al testo di input.

SSML (Speech Synthesis Markup Language)

Nota i seguenti limiti correlati all'uso di SSML:

  • Non sono supportati i tag <audio>, <lexicon>, <lookup> e <voice>.

  • Gli elementi <break> possono specificare una durata massima di 10 secondi ciascuno.

  • Il tag <prosody> non supporta i valori per l'attributo di velocità inferiori a -80%.

Per ulteriori informazioni, consulta Generazione di input vocale da documenti SSML.