SynthesizeSpeech - Amazon Polly

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SynthesizeSpeech

Sintetizza input UTF-8, testo normale o SSML in un flusso di byte. L'input SSML deve essere valido e ben formato SSML. Alcuni alfabeti potrebbero non essere disponibili con tutte le voci (ad esempio, il cirillico potrebbe non essere letto affatto dalle voci inglesi) a meno che non venga utilizzata la mappatura dei fonemi. Per ulteriori informazioni, consulta How it Works (Come funziona).

Sintassi della richiesta

POST /v1/speech HTTP/1.1 Content-type: application/json { "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "SampleRate": "string", "SpeechMarkTypes": [ "string" ], "Text": "string", "TextType": "string", "VoiceId": "string" }

Parametri della richiesta URI:

La richiesta non utilizza parametri URI.

Corpo della richiesta

La richiesta accetta i seguenti dati in formato JSON.

Engine

Speciifica il motore (standard, neurallong-form, ogenerative) per Amazon Polly da utilizzare durante l'elaborazione del testo di input per la sintesi vocale. Fornisci un motore supportato dalla voce selezionata. Se non fornisci un motore, per impostazione predefinita viene selezionato il motore standard. Se una voce selezionata non è supportata dal motore standard, verrà generato un errore. Per informazioni sulle voci di Amazon Polly e sulle voci disponibili per ogni motore, consulta Available Voices.

▬Tipo: stringa

Valori validi: standard | neural | long-form | generative

Campo obbligatorio: sì

Tipo: String

Valori validi: standard | neural | long-form | generative

Campo obbligatorio: no

LanguageCode

Codice della lingua facoltativo per la richiesta di sintesi vocale. Ciò è necessario solo se si utilizza una voce bilingue, come Aditi, che può essere utilizzata sia per l'inglese indiano (en-IN) che per l'hindi (hi-IN).

Se viene utilizzata una voce bilingue e non viene specificato alcun codice lingua, Amazon Polly utilizza la lingua predefinita della voce bilingue. La lingua predefinita per ogni voce è quella restituita dall'DescribeVoicesoperazione per il LanguageCode parametro. Ad esempio, se non viene specificato alcun codice di lingua, Aditi utilizzerà l'inglese indiano anziché l'hindi.

▬Tipo: stringa

Valori validi: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS | en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT | ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR | en-NZ | en-ZA | ca-ES | de-AT | yue-CN | ar-AE | fi-FI | en-IE | nl-BE | fr-BE

Campo obbligatorio: no

LexiconNames

Elenco di uno o più nomi di lessico di pronuncia che si desidera applicare il servizio durante la sintesi. I lessici vengono applicati solo se la lingua del lessico corrisponde alla lingua della voce. Per informazioni sulla memorizzazione dei lessici, vedere PutLexicon.

Tipo: matrice di stringhe

Membri della matrice: numero massimo di 5 elementi.

Modello: [0-9A-Za-z]{1,20}

Campo obbligatorio: no

OutputFormat

Il formato in cui verrà codificato l'output restituito. Per il flusso audio, questo sarà mp3, ogg_vorbis, o pcm. Per i segni vocali, questo sarà json.

Quando viene utilizzato pcm, il contenuto restituito è audio/pcm in un formato little-endian a un canale (mono) da 16 bit.

▬Tipo: stringa

Valori validi: json | mp3 | ogg_vorbis | pcm

Campo obbligatorio: sì

SampleRate

La frequenza audio specificata in Hz.

I valori validi per mp3 e ogg_vorbis sono "8000", "16000", "22050" e "24000". Il valore predefinito per le voci standard è "22050". Il valore predefinito per le voci neurali è "24000". Il valore predefinito per le voci lunghe è «24000". Il valore predefinito per le voci generative è «24000".

I valori validi per pcm sono "8000" e "16000". Il valore predefinito è "16000".

▬Tipo: stringa

Campo obbligatorio: no

SpeechMarkTypes

Tipo di segni vocali restituiti per il testo di input.

Tipo: matrice di stringhe

Membri della matrice: numero massimo di 4 elementi.

Valori validi: sentence | ssml | viseme | word

Campo obbligatorio: no

Text

Inserisci testo da sintetizzare. Se si specifica ssml come TextType, seguire il formato SSML per il testo di input.

Tipo: stringa

Campo obbligatorio: sì

TextType

Specifica se il testo di input è testo normale o SSML. Il valore di default è testo normale. Per ulteriori informazioni, consulta Using SSML (Utilizzo di SSML).

▬Tipo: stringa

Valori validi: ssml | text

Campo obbligatorio: no

VoiceId

ID vocale da utilizzare per la sintesi. È possibile ottenere un elenco di ID vocali disponibili chiamando l'operazione. DescribeVoices

▬Tipo: stringa

Valori validi: Aditi | Amy | Astrid | Bianca | Brian | Camila | Carla | Carmen | Celine | Chantal | Conchita | Cristiano | Dora | Emma | Enrique | Ewa | Filiz | Gabrielle | Geraint | Giorgio | Gwyneth | Hans | Ines | Ivy | Jacek | Jan | Joanna | Joey | Justin | Karl | Kendra | Kevin | Kimberly | Lea | Liv | Lotte | Lucia | Lupe | Mads | Maja | Marlene | Mathieu | Matthew | Maxim | Mia | Miguel | Mizuki | Naja | Nicole | Olivia | Penelope | Raveena | Ricardo | Ruben | Russell | Salli | Seoyeon | Takumi | Tatyana | Vicki | Vitoria | Zeina | Zhiyu | Aria | Ayanda | Arlet | Hannah | Arthur | Daniel | Liam | Pedro | Kajal | Hiujin | Laura | Elin | Ida | Suvi | Ola | Hala | Andres | Sergio | Remi | Adriano | Thiago | Ruth | Stephen | Kazuha | Tomoko | Niamh | Sofie | Lisa | Isabelle | Zayd | Danielle | Gregory | Burcu

Campo obbligatorio: sì

Sintassi della risposta

HTTP/1.1 200 Content-Type: ContentType x-amzn-RequestCharacters: RequestCharacters AudioStream

Elementi di risposta

Se l'operazione riesce, il servizio restituisce una risposta HTTP 200.

La risposta restituisce le seguenti intestazioni HTTP.

ContentType

Specifica il tipo di flusso audio. Questo dovrebbe riflettere il parametro OutputFormat nella richiesta.

  • Se richiedi mp3 come OutputFormat, il ContentType restituito è audio/mpeg.

  • Se richiedi ogg_vorbis come OutputFormat, il ContentType restituito è audio/ogg.

  • Se richiedi pcm come OutputFormat, il ContentType restituito è audio/pcm in un formato little-endian a un canale (mono) da 16 bit.

  • Se lo richiedi json comeOutputFormat, il risultato ContentType restituito è application/x-json-stream.

RequestCharacters

Numero di caratteri sintetizzati.

La risposta restituisce quanto segue come corpo HTTP.

AudioStream

Flusso contenente il discorso sintetizzato.

Errori

EngineNotSupportedException

Questo motore non è compatibile con la voce designata. Scegli una nuova voce compatibile con il motore o cambia il motore e riavvia l'operazione.

Codice di stato HTTP: 400

InvalidSampleRateException

La frequenza di campionamento specificata non è valida.

Codice di stato HTTP: 400

InvalidSsmlException

L'SSML fornito non è valido. Verifica la sintassi SSML, l'ortografia dei tag e dei valori, quindi riprova.

Codice di stato HTTP: 400

LanguageNotSupportedException

La lingua specificata non è attualmente supportata da Amazon Polly in questa capacità.

Codice di stato HTTP: 400

LexiconNotFoundException

Amazon Polly non è in grado di individuare il lessico specificato. Ciò potrebbe essere causato da un lessico mancante, il suo nome è errato o specificando un lessico che si trova in una regione diversa.

Verificare che il lessico esista, sia nella regione (consulta ListLexicons) e che hai digitato il suo nome sia corretto. Allora try again.

Codice di stato HTTP: 404

MarksNotSupportedForFormatException

I contrassegni vocali non sono supportati per OutputFormat selezionato. I contrassegni vocali sono disponibili solo per il contenuto in formato json.

Codice di stato HTTP: 400

ServiceFailureException

Una condizione sconosciuta ha causato un errore di servizio.

Codice di stato HTTP: 500

SsmlMarksNotSupportedForTextTypeException

I contrassegni vocali SSML non sono supportati per l'input di tipo testo normale.

Codice di stato HTTP: 400

TextLengthExceededException

Il valore del parametro "Testo" è più lungo dei limiti accettati. Per il API SynthesizeSpeech, il limite per il testo di input è un massimo di 6000 caratteri totali, di cui non più di 3000 caratteri possono essere fatturati. Per il API StartSpeechSynthesisTask, il massimo è 200.000 caratteri, di cui non più di 100.000 caratteri possono essere fatturati. I tag SSML non vengono conteggiati come caratteri fatturati.

Codice di stato HTTP: 400

Vedi anche

Per ulteriori informazioni sull'utilizzo di questa API in uno degli AWS SDK specifici della lingua, consulta quanto segue: