ニューラル音声 - Amazon Polly

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ニューラル音声

Amazon Polly には、標準音声よりも高品質の音声を生成できるニューラルテキスト読み上げ (NTTS) エンジンがあります。標準の TTS 音声では、連結合成が使用されます。標準エンジンは、録音された音声の音素を連結し、非常に自然な合成音声を生成します。ただし、音声の必然的なバリエーションや波形をセグメント化するために使用される手法によって、音声の品質が制限されます。Amazon Polly の NTTS は、音声を生成するために標準の連結合成を使用しません。これには 2 つの部分があります。

  • ニューラルネットワーク — 一連の音素 (言語の最も基本的な単位) を一連のスペクトログラムに変換します (スペクトログラムは、さまざまな周波数帯域のエネルギーレベルのスナップショットです)。

  • ボコーダー — スペクトログラムをほぼ連続したオーディオ信号に変換します。

ニューラル TTS システムの最初のコンポーネントは、シーケンスからシーケンスへのモデルです。このモデルは、対応する入力からのみ結果を作成するのではなく、入力要素のシーケンスがどのように連携するかを考慮します。このモデルは、出力するスペクトログラムを選択し、その周波数帯が、音声を処理するときに人間の脳が使用する音響能力を強調するようにします。

このモデルの出力は、ニューラルボコーダーに渡されます。これにより、スペクトログラムが音声波形に変換されます。汎用連結合成システムの構築に使用される大規模なデータセットでトレーニングすると、このシーケンスツーシーケンスのアプローチにより、さらに高品質で自然な音声が得られます。

利用可能なニューラル音声

ニューラル音声は、36 の言語と言語バリアントで利用できます。以下の表にそれらの設定を示します。

言語と言語バリアント 言語コード 名前/ID 性別

1

アラビア語 (湾岸)

ar-AE

Hala

Zayd

女性

2

ベルギーオランダ語 (フランドル語)

nl-BE

Lisa

女性

3

カタロニア語

ca-ES

Arlet

女性

4

チェコ語

cs-CZ

Jitka

女性

5

中国語 (広東語)

yue-CN

Hiujin

女性

6

標準中国語

cmn-CN

Zhiyu

女性

7

デンマーク語

da-DK

Sofie

女性

8

オランダ語

nl-NL

Laura

女性

9

英語 (オーストラリア)

en-AU

Olivia

女性

10

英語 (英国)

en-GB

Amy*

Emma

Brian

Arthur

女性

女性

11

英語 (インド)

en-IN

Kajal

女性

12

英語 (アイルランド語)

en-IN

Niamh

女性

13

英語 (ニュージーランド)

en-NZ

Aria

女性

14

英語 (シンガポール)

en-SG

ジャスマイン

女性

15

英語 (南アフリカ)

en-ZA

Ayanda

女性

16

英語 (米国)

en-US

Danielle

Gregory

Ivy

Joanna*

Kendra

Kimberly

Salli

Joey

Justin

Kevin

Matthew*

Ruth

Stephen

女性

女性 (子)

女性

女性

女性

女性

男性 (子)

男性 (子)

女性

17

フィンランド語

fi-FI

Suvi

女性

18

フランス語 (ベルギー)

fr-BE

Isabelle

女性

19

フランス語 (カナダ)

fr-CA

Gabrielle

Liam

女性

20

フランス語

fr-FR

Léa

Rémi

女性

21

ドイツ語

de-DE

Vicki

Daniel

女性

22

ドイツ語 (オーストリア)

de-AT

Hannah

女性

23

ドイツ語 (スイス)

de-CH

Sabrina

女性

24

ヒンディー語

hi-IN

Kajal

女性

25

イタリア語

it-IT

Bianca

Adriano

女性

26

日本語

ja-JP

Takumi

Kazuha

Tomoko

女性

女性

27

韓国語

ko-KR

Seoyeon

女性

28

ノルウェー語

nb-NO

Ida

女性

29

ポーランド語

pl-PL

Ola

女性

30

ポルトガル語 (ブラジル)

pt-BR

Camila

Vitória/Vitoria

Thiago

女性

女性

31

ポルトガル語 (欧州)

pt-PT

Inês/Ines

女性

32

スペイン語 (スペイン)

es-ES

Lucia

Sergio

女性

33

スペイン語 (メキシコ)

es-MX

Mia

Andrés

女性

34

スペイン語 (米国)

es-US

Lupe*

Pedro

女性

35

スウェーデン語

sv-SE

Elin

女性

36

トルコ語

tr-TR

Burcu

女性

*Amy、Joanna、Lupe、Matthew の音声は、ニュースキャスターの話し方で使用できます。詳細については、「ニュースキャスター音声の適用」を参照してください。

機能とリージョンの互換性

ニューラル音声は、すべての AWS リージョンで利用できるわけではなく、すべての Amazon Polly 機能をサポートしているわけでもありません。

ニューラル音声は、以下のリージョンでサポートされています。

  • 米国東部 (バージニア北部): us-east-1

  • 米国西部 (オレゴン): us-west-2

  • アフリカ (ケープタウン): af-south-1

  • アジアパシフィック (東京): ap-northeast-1

  • アジアパシフィック (ソウル): ap-northeast-2

  • アジアパシフィック (大阪): ap-northeast-3

  • アジアパシフィック (ムンバイ): ap-south-1

  • アジアパシフィック (シンガポール): ap-southeast-1

  • アジアパシフィック (シドニー): ap-southeast-2

  • カナダ (中部): ca-central-1

  • 欧州 (フランクフルト): eu-central-1

  • 欧州 (アイルランド): eu-west-1

  • 欧州 (ロンドン): eu-west-2

  • 欧州 (パリ): eu-west-3

  • 欧州 (スペイン): eu-south-2

  • AWS GovCloud (米国西部): us-gov-west-1

これらのリージョンのエンドポイントとプロトコルは、標準音声に使用されるものと同じです。詳細については、Amazon Polly エンドポイントとクォータを参照してください。

ニューラル音声では、以下の機能がサポートされています。

  • リアルタイムおよび非同期の音声合成オペレーション。

  • ニュースキャスターの話し方。話し方の詳細については、ニュースキャスター音声の適用を参照してください。

  • すべてのスピーチマーク。

  • Amazon Polly でサポートされている多くの SSML タグ (すべてではありません)。NTTS でサポートされる SSML タグの詳細については、「サポートされているタグ」を参照してください。

標準音声と同様に、さまざまなサンプリングレートから選択して、アプリケーションの帯域幅と音質を最適化できます。標準およびニューラル音声の有効なサンプリングレートは、8 kHz、16 kHz、22 kHz、または 24 kHz です。標準音声のデフォルトは 22 kHz です。ニューラル音声のデフォルトは 24 kHz です。Amazon Polly は MP3、OGG (Vorbis)、raw PCM オーディオストリーム形式をサポートしています。