生成聲音 - Amazon Polly

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

生成聲音

Amazon Polly 的生成式 text-to-speech (TTS) 引擎可透過 Amazon Polly 主控台提供最類似人類、情感互動和適應性的對話語音。

生成引擎是迄今為止最大的 Amazon Polly TTS 模型。它部署了一個十億參數轉換器,該變壓器將原始文本轉換為語音代碼,然後是基於卷積的解碼器,該解碼以增量,可流式的方式將這些語音代碼轉換為波形。此方法顯示了廣泛報導的大型語言模型(LLM)的緊急能力時,在增加包含各種語音,語言和樣式的公開可用和專有數據的量上進行培訓。

生成引擎以與人類聲音非常相似的方式創建合成語音,在情感上參與,自信和高度口語。您可以將這些聲音用作知識淵博的客戶助理,虛擬培訓師或具有近乎人類綜合演講的廣告客戶。

注意

這些聲音的基礎 state-of-the-art 技術屬於語言和語音模型生成 AI 的範例之內。該技術的副作用是,任何訓練數據和模型的更新都可能會導致聲音的聲音方式略有不同,即使在模型更新後的整體質量改善了聲音也是如此。這可能會對長時間內合成不同內容部分的使用案例產生影響,例如播客季節。

可用的生成聲音

Amazon Polly 目前在生成變體中提供兩種女性和一個男性英語配音。這些生成語音也可以在對話式 NTTS 變體中使用。

語言 語言代碼 名稱/ID Gender

1

英語 (英國)

en-GB

Amy

女性

2

英文 (美國)

zh-TW

Matthew

露絲

男性

女性

注意

產生式語音成本可在 Amazon Polly 定價資訊頁面上指定。

功能與區域相容性

下列區域提供 Amazon Polly 生成語音:

  • 美國東部 (維吉尼亞北部):us-east-1

  • 歐洲(法蘭克福):eu-central-1

  • 其他地區不可用

生成語音支援下列功能:

  • 即時和非同步語音合成操作。

  • 成引擎不支援新聞廣播演講風格。

  • Amazon Polly 支持許多(但不是全部)SSML 標籤。如需 NTTS 支援 SSML 標籤的詳細資訊,請參閱支援的 SSML 標籤

  • 如同標準語音,您可以從各種取樣率中選擇,為您的應用程式最佳化頻寬和音訊品質。標準和神經語音的有效取樣率為 8 kHz、16 kHz、22 kHz 或 24 kHz。標準語音的預設值為 22 kHz。生成聲音的預設值為 24 kHz。Amazon Polly 支持 MP3,OGG(波比斯)和原始 PCM 音頻流格式。

  • 新的 Amazon Polly 生成語音具有 100 毫秒的延遲。

目前無法 Support 產生語音標記。

注意

在不太可能發生模型幻覺的情況下(以及通過令牌渲染語音令牌的生成引擎的模型行為),實施了一個強制的緊急停止機制。內建機制會停止模型進一步呈現語音。此安全功能基於數據分析,其中模型可能會產生幻覺,通常在句子結尾處。

在某些情況下,模型認為它會產生幻覺,然後最終可能會在生成步驟中剪掉一個單詞,從而使單詞呈現一半。這可能會產生不適當的結果。

在主控台上使用生成引擎

您可以通過 Amazon Polly 控制台或訪問 Amazon Polly 生成語音。 AWS CLI從主控台選取成引擎,然後從清單中選取對應的生成語音,以聆聽該聲音中的合成語音。您還可以使用SynthesizeSpeechStartSpeechSynthesisTask API 操作來探索生成語音。對於 API 操作,您可以在 API 請求中指定引擎和聲音的名稱。如需使用 Python 的快速入門程式碼範例,請參閱 Python 範例

在主控台上使用生成引擎
  1. 打開 Amazon Polly 控制台在 https://console.aws.amazon.com/polly/.

  2. 從 Amazon Polly 主控台中,選擇成引擎。

  3. 從語音下拉菜單中選擇所需的聲音。

  4. 使用您選擇的文本生成 TTS 音頻。

注意

生成語音也可以與SynthesizeSpeechStartSpeechSynthesisTaskAPI 操作搭配使用。對於 API 操作,客戶可以在 API 請求中指定引擎和聲音的名稱。您可以在這裡找到更多快速啟動程式碼範例