ニューラル音声

Amazon Polly には、標準音声よりも高品質の音声を生成できるニューラルテキスト読み上げ (NTTS) エンジンがあります。標準の TTS 音声では、連結合成が使用されます。標準エンジンは、録音された音声の音素を連結し、非常に自然な合成音声を生成します。ただし、音声の必然的なバリエーションや波形をセグメント化するために使用される手法によって、音声の品質が制限されます。Amazon Polly の NTTS は、音声を生成するために標準の連結合成を使用しません。これには 2 つの部分があります。

ニューラルネットワーク — 一連の音素 (言語の最も基本的な単位) を一連のスペクトログラムに変換します (スペクトログラムは、さまざまな周波数帯域のエネルギーレベルのスナップショットです)。
ボコーダー — スペクトログラムをほぼ連続したオーディオ信号に変換します。

ニューラル TTS システムの最初のコンポーネントは、シーケンスからシーケンスへのモデルです。このモデルは、対応する入力からのみ結果を作成するのではなく、入力要素のシーケンスがどのように連携するかを考慮します。このモデルは、出力するスペクトログラムを選択し、その周波数帯が、音声を処理するときに人間の脳が使用する音響能力を強調するようにします。

このモデルの出力は、ニューラルボコーダーに渡されます。これにより、スペクトログラムが音声波形に変換されます。汎用連結合成システムの構築に使用される大規模なデータセットでトレーニングすると、このシーケンスツーシーケンスのアプローチにより、さらに高品質で自然な音声が得られます。

利用可能なニューラル音声

ニューラル音声は 36 の言語と言語バリアントで利用できます。以下の表にそれらの設定を示します。

	言語と言語バリアント	言語コード	名前/ID	性別
1	アラビア語 (湾岸)	ar-AE	Hala Zayd	女性男
2	ベルギーオランダ語 (フランドル語)	nl-BE	Lisa	女性
3	カタロニア語	ca-ES	Arlet	女性
4	チェコ語	cs-CZ	Jitka	女性
5	中国語 (広東語)	yue-CN	Hiujin	女性
6	標準中国語	cmn-CN	Zhiyu	女性
7	デンマーク語	da-DK	Sofie	女性
8	オランダ語	nl-NL	Laura	女性
9	英語 (オーストラリア)	en-AU	Olivia	女性
10	英語 (英国)	en-GB	Amy* Emma Brian Arthur	女性女性男男
11	英語 (インド)	en-IN	Kajal	女性
12	英語 (アイルランド語)	en-IN	Niamh	女性
13	英語 (ニュージーランド)	en-NZ	Aria	女性
14	英語 (シンガポール）	en-SG	ジャスミン	女性
15	英語 (南アフリカ)	en-ZA	Ayanda	女性
16	英語 (米国)	en-US	Danielle Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen	女性男女性 (子) 女性女性女性女性男男性 (子) 男性 (子) 男女性男
17	フィンランド語	fi-FI	Suvi	女性
18	フランス語 (ベルギー)	fr-BE	Isabelle	女性
19	フランス語 (カナダ)	fr-CA	Gabrielle Liam	女性男
20	フランス語	fr-FR	Léa Rémi	女性男
21	ドイツ語	de-DE	Vicki Daniel	女性男
22	ドイツ語 (オーストリア)	de-AT	Hannah	女性
23	ドイツ語 (スイス)	de-CH	Sabrina	女性
24	ヒンディー語	hi-IN	Kajal	女性
25	イタリア語	it-IT	Bianca Adriano	女性男
26	日本語	ja-JP	Takumi Kazuha Tomoko	男女性女性
27	韓国語	ko-KR	Seoyeon Jihye	女性女性
28	ノルウェー語	nb-NO	Ida	女性
29	ポーランド語	pl-PL	Ola	女性
30	ポルトガル語 (ブラジル)	pt-BR	Camila Vitória/Vitoria Thiago	女性女性男
31	ポルトガル語 (欧州)	pt-PT	Inês/Ines	女性
32	スペイン語 (スペイン）	es-ES	Lucia Sergio	女性男
33	スペイン語 (メキシコ)	es-MX	Mia Andrés	女性男
34	スペイン語 (米国)	es-US	Lupe* Pedro	女性男
35	スウェーデン語	sv-SE	Elin	女性
36	トルコ語	tr-TR	Burcu	女性

*Amy、Joanna、Lupe、Matthew の音声は、ニュースキャスターの話し方で使用できます。詳細については、「ニュースキャスター音声の適用」を参照してください。

機能とリージョンの互換性

ニューラル音声は、すべての AWS リージョンで利用できるわけではなく、すべての Amazon Polly 機能をサポートしているわけでもありません。

ニューラル音声は、以下のリージョンでサポートされています。

米国東部 (バージニア北部): us-east-1
米国西部 (オレゴン): us-west-2
アフリカ (ケープタウン): af-south-1
アジアパシフィック (東京): ap-northeast-1
アジアパシフィック (ソウル): ap-northeast-2
アジアパシフィック (大阪): ap-northeast-3
アジアパシフィック (ムンバイ): ap-south-1
アジアパシフィック (シンガポール): ap-southeast-1
アジアパシフィック (シドニー): ap-southeast-2
アジアパシフィック (マレーシア): ap-southeast-5
カナダ (中部): ca-central-1
欧州 (フランクフルト): eu-central-1
欧州 (アイルランド): eu-west-1
欧州 (ロンドン): eu-west-2
欧州 (パリ): eu-west-3
欧州 (スペイン): eu-south-2
AWS GovCloud (米国西部): us-gov-west-1

これらのリージョンのエンドポイントとプロトコルは、標準音声に使用されるものと同じです。詳細については、Amazon Polly エンドポイントとクォータを参照してください。

ニューラル音声では、以下の機能がサポートされています。

リアルタイムおよび非同期の音声合成オペレーション。
ニュースキャスターの話し方。話し方の詳細については、ニュースキャスター音声の適用を参照してください。
すべてのスピーチマーク。
Amazon Polly でサポートされている多くの SSML タグ (すべてではありません)。NTTS でサポートされる SSML タグの詳細については、「サポートされているタグ」を参照してください。

標準音声と同様に、さまざまなサンプリングレートから選択して、アプリケーションの帯域幅と音質を最適化できます。標準およびニューラル音声の有効なサンプリングレートは、8 kHz、16 kHz、22 kHz、または 24 kHz です。標準音声のデフォルトは 22 kHz です。ニューラル音声のデフォルトは 24 kHz です。Amazon Polly は MP3、OGG (Vorbis)、raw PCM オーディオストリーム形式をサポートしています。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ロングフォームエンジン

標準エンジン