本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
生成聲音
Amazon Polly 的生成式 text-to-speech (TTS) 引擎可透過 Amazon Polly 主控台提供最類似人類、情感互動和適應性的對話語音。
生成引擎是迄今為止最大的 Amazon Polly TTS 模型。它部署了一個十億參數轉換器,該變壓器將原始文本轉換為語音代碼,然後是基於卷積的解碼器,該解碼以增量,可流式的方式將這些語音代碼轉換為波形。此方法顯示了廣泛報導的大型語言模型(LLM)的緊急能力時,在增加包含各種語音,語言和樣式的公開可用和專有數據的量上進行培訓。
生成引擎以與人類聲音非常相似的方式創建合成語音,在情感上參與,自信和高度口語。您可以將這些聲音用作知識淵博的客戶助理,虛擬培訓師或具有近乎人類綜合演講的廣告客戶。
注意
這些聲音的基礎 state-of-the-art 技術屬於語言和語音模型生成 AI 的範例之內。該技術的副作用是,任何訓練數據和模型的更新都可能會導致聲音的聲音方式略有不同,即使在模型更新後的整體質量改善了聲音也是如此。這可能會對長時間內合成不同內容部分的使用案例產生影響,例如播客季節。
可用的生成聲音
Amazon Polly 目前在生成變體中提供兩種女性和一個男性英語配音。這些生成語音也可以在對話式 NTTS 變體中使用。
語言 | 語言代碼 | 名稱/ID | Gender | |
---|---|---|---|---|
1 |
英語 (英國) |
en-GB |
Amy |
女性 |
2 |
英文 (美國) |
zh-TW |
Matthew 露絲 |
男性 女性 |
注意
產生式語音成本可在 Amazon Polly 定價資訊頁面
功能與區域相容性
下列區域提供 Amazon Polly 生成語音:
-
美國東部 (維吉尼亞北部):us-east-1
-
歐洲(法蘭克福):eu-central-1
-
其他地區不可用
生成語音支援下列功能:
-
即時和非同步語音合成操作。
-
生成引擎不支援新聞廣播演講風格。
-
Amazon Polly 支持許多(但不是全部)SSML 標籤。如需 NTTS 支援 SSML 標籤的詳細資訊,請參閱支援的 SSML 標籤
-
如同標準語音,您可以從各種取樣率中選擇,為您的應用程式最佳化頻寬和音訊品質。標準和神經語音的有效取樣率為 8 kHz、16 kHz、22 kHz 或 24 kHz。標準語音的預設值為 22 kHz。生成聲音的預設值為 24 kHz。Amazon Polly 支持 MP3,OGG(波比斯)和原始 PCM 音頻流格式。
-
新的 Amazon Polly 生成語音具有 100 毫秒的延遲。
目前無法 Support 產生語音標記。
注意
在不太可能發生模型幻覺的情況下(以及通過令牌渲染語音令牌的生成引擎的模型行為),實施了一個強制的緊急停止機制。內建機制會停止模型進一步呈現語音。此安全功能基於數據分析,其中模型可能會產生幻覺,通常在句子結尾處。
在某些情況下,模型認為它會產生幻覺,然後最終可能會在生成步驟中剪掉一個單詞,從而使單詞呈現一半。這可能會產生不適當的結果。
在主控台上使用生成引擎
您可以通過 Amazon Polly 控制台或訪問 Amazon Polly 生成語音。 AWS CLI從主控台選取生成引擎,然後從清單中選取對應的生成語音,以聆聽該聲音中的合成語音。您還可以使用SynthesizeSpeech
和 StartSpeechSynthesisTask
API 操作來探索生成語音。對於 API 操作,您可以在 API 請求中指定引擎和聲音的名稱。如需使用 Python 的快速入門程式碼範例,請參閱 Python 範例。
在主控台上使用生成引擎
-
打開 Amazon Polly 控制台在 https://console.aws.amazon.com/polly/
. -
從 Amazon Polly 主控台中,選擇生成引擎。
-
從語音下拉菜單中選擇所需的聲音。
-
使用您選擇的文本生成 TTS 音頻。
注意
生成語音也可以與SynthesizeSpeech
和 StartSpeechSynthesisTask
API 操作搭配使用。對於 API 操作,客戶可以在 API 請求中指定引擎和聲音的名稱。您可以在這裡找到更多快速啟動程式碼範例。