ニューラル音声 - Amazon Polly

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ニューラル音声

Amazon Polly には、標準の音声よりもさらに高品質の音声を生成できるニューラル text-to-speech (NTTS) エンジンがあります。標準の TTS 音声では、連結合成が使用されます。標準エンジンは録音された音声の音素を連結し、非常に自然に聞こえる合成音声を生成します。ただし、音声の必然的なバリエーションや波形をセグメント化するために使用される手法によって、音声の品質が制限されます。Amazon Polly NTTS エンジンは、標準の連結合成を使用して音声を生成しません。これには 2 つの部分があります。

  • ニューラルネットワーク — 一連の音素 (最も基本的な言語単位) を一連の分光法に変換します。(ヒストグラムは、異なる周波数帯域のエネルギーレベルのスナップショットです。)

  • ボコーダー — 分光法をほぼ連続したオーディオ信号に変換します。

ニューラル TTS システムの最初のコンポーネントは sequence-to-sequence モデルです。このモデルは、対応する入力からのみ結果を作成するのではなく、入力要素のシーケンスがどのように連携するかを考慮します。このモデルは、出力するスペクトログラムを選択し、その周波数帯が、音声を処理するときに人間の脳が使用する音響能力を強調するようにします。

このモデルの出力は、ニューラルボコーダーに渡されます。これにより、スペクトログラムが音声波形に変換されます。汎用連結合成システムの構築に使用される大規模なデータセットでトレーニングすると、この sequence-to-sequence アプローチにより、より高品質で自然な音声が生成されます。

使用可能なニューラル音声

ニューラル音声は 33 の言語と言語バリアントで利用できます。以下の表にそれらの設定を示します。

言語と言語バリアント 言語コード 名前/ID 性別

1

アラビア語 (湾岸)

ar-AE

ハラ

Zayd

女性

2

ベルギーオランダ語 (フランドル語)

nl-BE

Lisa

女性

3

カタロニア語

ca-ES

Arlet

女性

4

中国語 (広東語)

yue-CN

Hiujin

女性

5

標準中国語

cmn-CN

Zhiyu

女性

6

デンマーク語

da-DK

Sofie

女性

7

オランダ語

nl-NL

Laura

女性

8

英語 (オーストラリア)

en-AU

Olivia

女性

9

英語 (英国)

en-GB

Amy*

Emma

Brian

Arthur

女性

女性

10

英語 (インド)

en-IN

カジャル語

女性

11

英語 (アイルランド語)

en-IN

Niamh

女性

12

英語 (ニュージーランド)

en-NZ

Aria

女性

13

英語 (南アフリカ)

en-ZA

Ayanda

女性

14

英語 (米国)

en-US

Danielle

Gregory

Ivy

Joanna*

Kendra

Kimberly

Salli

Joey

Justin

Kevin

Matthew*

Ruth

Stephen

女性

女性 (子)

女性

女性

女性

女性

男性 (子)

男性 (子)

女性

15

フィンランド語

fi-FI

Suvi

女性

16

フランス語 (ベルギー)

fr-BE

Isabelle

女性

17

フランス語 (カナダ)

fr-CA

Gabrielle

Liam

女性

18

フランス語

fr-FR

Léa

Rémi

女性

19

ドイツ語

de-DE

Vicki

Daniel

女性

20

ドイツ語 (オーストリア)

de-AT

Hannah

女性

21

ヒンディー語

hi-IN

カジャル語

女性

22

イタリア語

it-IT

Bianca

Adriano

女性

23

日本語

ja-JP

Takumi

Kazuha

Tomoko

女性

女性

24

韓国語

ko-KR

Seoyeon

女性

25

ノルウェー語

nb-NO

Ida

女性

26

ポーランド語

pl-PL

Ola

女性

27

ポルトガル語 (ブラジル)

pt-BR

Camila

Vitória/Vitoria

Thiago

女性

女性

28

ポルトガル語 (欧州)

pt-PT

Inês/Ines

女性

29

スペイン語 (欧州)

es-ES

Lucia

Sergio

女性

30

スペイン語 (メキシコ)

es-MX

Mia

Andrés

女性

31

スペイン語 (米国)

es-US

Lupe*

Pedro

女性

32

スウェーデン語

sv-SE

Elin

女性

33

トルコ語

tr-TR

ブルク

女性

*Amy、Joanna、Lupe、Matthew の音声は、ニュースキャスターの話し方で使用できます。詳細については、「ニュースキャスター音声」を参照してください。

機能とリージョンの互換性

ニューラル音声は、すべての AWS リージョンで利用できるわけではなく、すべての Amazon Polly 機能をサポートしているわけでもありません。

ニューラル音声は、次のリージョンでサポートされています。

  • 米国東部 (バージニア北部): us-east-1

  • 米国西部 (オレゴン): us-west-2

  • アフリカ (ケープタウン): af-south-1

  • アジアパシフィック (東京): ap-northeast-1

  • アジアパシフィック (ソウル): ap-northeast-2

  • アジアパシフィック (大阪): ap-northeast-3

  • アジアパシフィック (ムンバイ): ap-south-1

  • アジアパシフィック (シンガポール): ap-southeast-1

  • アジアパシフィック (シドニー): ap-southeast-2

  • カナダ (中部): ca-central-1

  • 欧州 (フランクフルト): eu-central-1

  • 欧州 (アイルランド): eu-west-1

  • 欧州 (ロンドン): eu-west-2

  • 欧州 (パリ): eu-west-3

  • AWS GovCloud (米国西部): us-gov-west-1

これらのリージョンのエンドポイントとプロトコルは、標準音声に使用されるものと同じです。詳細については、Amazon Polly エンドポイントとクォータを参照してください。

ニューラル音声では、以下の機能がサポートされています。

  • リアルタイムおよび非同期の音声合成オペレーション。

  • ニュースキャスターの話し方。話し方の詳細については、ニュースキャスター音声を参照してください。

  • すべてのスピーチマーク。

  • Amazon Polly でサポートされている多くの SSML タグ (すべてではありません)。NTTS でサポートされている SSML タグの詳細については、「サポートされているタグ」を参照してください。

標準音声と同様に、さまざまなサンプリングレートから選択して、アプリケーションの帯域幅と音質を最適化できます。標準およびニューラル音声の有効なサンプリングレートは、8 kHz、16 kHz、22 kHz、または 24 kHz です。標準音声のデフォルトは 22 kHz です。ニューラル音声のデフォルトは 24 kHz です。Amazon Polly は MP3、OGG (Vorbis)、raw PCM オーディオストリーム形式をサポートしています。

コンソールでのニューラルエンジンの使用

Amazon Polly ニューラル音声には、Amazon Polly コンソールまたは からアクセスできます AWS CLI。

コンソールでニューラルエンジンを使用するには
  1. Amazon Polly コンソール (https://console.aws.amazon.com/polly/) を開きます。

  2. コンソールからニューラルエンジンを選択します。

  3. 音声ドロップダウンメニューから目的の音声を選択します。

  4. 選択したテキストで TTS オーディオを生成します。