本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
生成式语音
Amazon Polly 的生成 text-to-speech (TTS) 引擎提供了最像人类、最具情感参与度和自适应性的对话语音,可供通过 Amazon Polly 控制台使用。
生成引擎是迄今为止最大的亚马逊 Polly TTS 模型。该引擎部署了一个包含十亿参数的转换器,用于将原始文本转换为语音代码,然后部署基于卷积的解码器,该解码器以可流式传输的增量方式将这些语音代码转换为波形。这种方法显示了广泛报道的大型语言模型 (LLMs) 在接受越来越多的公开和专有数据(包括各种声音、语言和风格)的训练时出现的能力。
生成式引擎可以创建合成语音,这种语音具有情感参与度、言语果断并且高度口语化,其方式与人类语音高度相似。您可以在以下场景中使用这些语音:知识广博的客户助理、虚拟培训师或采用合成语音媲美人类的广告商。
注意
这些声音背后的 state-of-the-art技术属于用于语言和语音建模的生成式人工智能的范式。这项技术的一个副作用是,对训练数据和模型的任何更新都可能会导致语音听起来略有不同,即使随着模型的更新,语音的整体质量有所提高,也是如此。这可能会影响由长期合成的不同内容部分组成的应用场景,例如一个季度的播客。
可用的生成式语音
Amazon Polly 目前以生成变体形式提供 20 种声音。这些生成式声音也有对话NTTS变体。
语言 | 语言代码 | 名称/ID | 性别 | |
---|---|---|---|---|
1 |
英语(澳大利亚) |
en-AU |
Olivia |
女 |
2 |
英语(印度) |
en-IN |
Kajal |
女 |
3 |
英语(英国) |
en-GB |
Amy |
女 |
4 |
英语(美国) |
en-US |
Danielle |
女 |
5 |
英语(美国) |
en-US |
Joanna |
女 |
6 |
英语(美国) |
en-US |
Matthew |
男 |
7 |
英语(美国) |
en-US |
Ruth |
女 |
8 |
英语(美国) |
en-US |
Stephen |
男 |
9 |
英语(南非) |
en-ZA |
Ayanda |
女 |
10 |
法语(法国) |
fr-FR |
Léa |
女 |
11 |
法语(法国) |
fr-FR |
Rémi |
男 |
12 |
西班牙语(西班牙) |
es-ES |
Lucia |
女 |
13 |
西班牙语(西班牙) |
es-ES |
Sergio |
男 |
14 |
西班牙语(墨西哥) |
es-MX |
Mía |
女 |
15 |
西班牙语(墨西哥) |
es-MX |
Andrés |
男 |
16 |
西班牙语(美国) |
es-US |
Lupe |
女 |
17 |
西班牙语(美国) |
es-US |
Pedro |
男 |
18 |
德语(德国) |
de-DE |
Vicki |
女 |
19 |
德语(德国) |
de-DE |
Daniel |
男 |
20 |
意大利语(意大利) |
it-IT |
Bianca |
女 |
注意
生成式语音费用在 Amazon Polly 定价信息页面
特征和区域兼容性
Amazon Polly 生成式语音在以下区域可用:
-
美国东部(弗吉尼亚北部):us-east-1
-
欧洲地区(法兰克福):eu-central-1
-
美国西部(俄勒冈):us-west-2
-
其他区域不可用
生成式语音支持以下功能:
-
实时和异步语音合成操作。
-
生成式引擎不支持新闻播音员风格。
-
Amazon Polly 支持许多(但不是全部)SSML标签。有关NTTS支持的SSML标签的更多信息,请参阅支持的SSML标签
-
与标准语音一样,您可以从各种采样率中进行选择,以优化应用程序的带宽和音频质量。标准和神经语音的有效采样率为 8 kHz kHz、16 kHz、22 或 24 kHz。标准声音的默认值为 22 kHz。生成语音的默认值为 24 kHz。Amazon Polly 支持MP3、OGG (Vorbis) 和原始PCM音频流格式。
目前不支持生成式语音标记。
注意
在可能性非常小的模型幻觉情况下(并且所采用的生成式引擎的模型行为是按令牌渲染语音),存在一种强制性的紧急停止机制。该内置机制会阻止模型进一步渲染语音。此安全功能基于数据分析,其中模型有可能会产生幻觉,通常是在句子的末尾。
在某些情况下,模型认为自身会产生幻觉,然后最终可能会在生成步骤中切断一个单词,从而只渲染这个单词的一半。这可能会产生不恰当的结果。