本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
長篇聲音
Amazon Polly 具有長型引擎,可產生類似人類、高表現力和情感上的聲音。長篇聲音旨在吸引聽眾的注意力,以獲取更長的內容,例如新聞文章,培訓材料或營銷視頻。
Amazon Polly 長篇聲音採用尖端的深度學習 TTS 技術開發。該模型學會複製音素,韻律,語調以及人類語言的其他語音和聲學方面,從而產生高度自然的語音輸出。
長格式引擎使用文本嵌入來解釋文本的含義。使用文本嵌入,長篇引擎可以生成自然語音的正確強調,暫停和音調。結果是結合了人類交流中存在的完整情感元素的聲音。這包括模仿驚喜或區分對話與敘述。在一起,這創建了一個高級的語音產品,聽起來像一個活生生的人。
注意
這些聲音的基礎 state-of-the-art 技術屬於語言和語音模型生成 AI 的範例之內。該技術的副作用是,任何訓練數據和模型的更新都可能導致聲音的聲音方式略有不同,即使在模型更新後的整體質量改善了聲音也是如此。這可能會對長時間內合成不同內容部分的使用案例產生影響,例如播客季節。
可用的長格式語音
Amazon Polly 目前提供了兩個女性和一個男性 EN-US 長篇聲音. 這些長語音也可以在對話式 NTTS 版本中使用。
語言 | 語言代碼 | 名稱/ID | Gender | |
---|---|---|---|---|
1 |
英文 (美國) |
zh-TW |
丹妮爾 格雷戈里 露絲 |
女性 男性 女性 |
功能與區域相容性
Amazon Polly 長格式語音可在以下地區使用:
-
美國東部 (維吉尼亞北部) 區域
-
其他地區不可用
Amazon Polly 長版引擎支援下列功能:
-
即時和非同步語音合成操作。
-
所有語音標記。
-
Amazon Polly 支持許多(但不是全部)SSML 標籤。如需 NTTS 支援 SSML 標籤的詳細資訊,請參閱支援的 SSML 標籤
-
100 毫秒的延遲。
-
如同標準語音,您可以從各種取樣率中選擇,為您的應用程式最佳化頻寬和音訊品質。標準、長格式和神經聲音的有效取樣率為:8 kHz、16 kHz、22 kHz 或 24 千赫。標準語音的預設值為 22 kHz。長格式和神經聲音的預設值為 24 kHz。Amazon Polly 支持 MP3,OGG(波比斯)和原始 PCM 音頻流格式。
注意
長格式語音費用在 Amazon Polly 定價資訊
使用主機上的長格式引擎
您可以通過 Amazon Polly 控制台或訪問 Amazon Polly 長格式語音。 AWS CLI
使用主機上的長篇引擎
-
打開 Amazon Polly 控制台在 https://console.aws.amazon.com/polly/
. -
從 Amazon Polly 控制台,選擇長形引擎。
-
從語音下拉菜單中選擇所需的聲音。
-
使用您選擇的文本生成 TTS 音頻。
注意
長格式語音也可以與SynthesizeSpeech
和 StartSpeechSynthesisTask
API 操作搭配使用。對於 API 操作,客戶可以在 API 請求中指定引擎和聲音的名稱。您可以在這裡找到更多快速啟動程式碼範例。