長篇聲音 - Amazon Polly

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

長篇聲音

Amazon Polly 具有長型引擎,可產生類似人類、高表現力和情感上的聲音。長篇聲音旨在吸引聽眾的注意力,以獲取更長的內容,例如新聞文章,培訓材料或營銷視頻。

Amazon Polly 長篇聲音採用尖端的深度學習 TTS 技術開發。該模型學會複製音素,韻律,語調以及人類語言的其他語音和聲學方面,從而產生高度自然的語音輸出。

長格式引擎使用文本嵌入來解釋文本的含義。使用文本嵌入,長篇引擎可以生成自然語音的正確強調,暫停和音調。結果是結合了人類交流中存在的完整情感元素的聲音。這包括模仿驚喜或區分對話與敘述。在一起,這創建了一個高級的語音產品,聽起來像一個活生生的人。

注意

這些聲音的基礎 state-of-the-art 技術屬於語言和語音模型生成 AI 的範例之內。該技術的副作用是,任何訓練數據和模型的更新都可能導致聲音的聲音方式略有不同,即使在模型更新後的整體質量改善了聲音也是如此。這可能會對長時間內合成不同內容部分的使用案例產生影響,例如播客季節。

可用的長格式語音

Amazon Polly 目前提供了兩個女性和一個男性 EN-US 長篇聲音. 這些長語音也可以在對話式 NTTS 版本中使用。

語言 語言代碼 名稱/ID Gender

1

英文 (美國)

zh-TW

丹妮爾

格雷戈里

露絲

女性

男性

女性

功能與區域相容性

Amazon Polly 長格式語音可在以下地區使用:

  • 美國東部 (維吉尼亞北部) 區域

  • 其他地區不可用

Amazon Polly 長版引擎支援下列功能:

  • 即時和非同步語音合成操作。

  • 所有語音標記

  • Amazon Polly 支持許多(但不是全部)SSML 標籤。如需 NTTS 支援 SSML 標籤的詳細資訊,請參閱支援的 SSML 標籤

  • 100 毫秒的延遲。

  • 如同標準語音,您可以從各種取樣率中選擇,為您的應用程式最佳化頻寬和音訊品質。標準、長格式和神經聲音的有效取樣率為:8 kHz、16 kHz、22 kHz 或 24 千赫。標準語音的預設值為 22 kHz。長格式和神經聲音的預設值為 24 kHz。Amazon Polly 支持 MP3,OGG(波比斯)和原始 PCM 音頻流格式。

注意

長格式語音費用在 Amazon Polly 定價資訊頁面上指定。

使用主機上的長格式引擎

您可以通過 Amazon Polly 控制台或訪問 Amazon Polly 長格式語音。 AWS CLI

使用主機上的長篇引擎
  1. 打開 Amazon Polly 控制台在 https://console.aws.amazon.com/polly/.

  2. 從 Amazon Polly 控制台,選擇長形引擎。

  3. 從語音下拉菜單中選擇所需的聲音。

  4. 使用您選擇的文本生成 TTS 音頻。

注意

長格式語音也可以與SynthesizeSpeechStartSpeechSynthesisTaskAPI 操作搭配使用。對於 API 操作,客戶可以在 API 請求中指定引擎和聲音的名稱。您可以在這裡找到更多快速啟動程式碼範例