ニューラル TTS - Amazon Polly

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ニューラル TTS

Amazon Polly にはニューラル TTS (NTTS) システムがあり、標準音声よりも高品質の音声を生成できます。NTTS システムは、可能な限り最も自然で人間のような text-to-speech 音声を生成します。

標準の TTS 音声では、連結合成が使用されます。この方法は、録音された音声の音素をまとめ (連結)、非常に自然な合成音声を生成します。ただし、音声の必然的なバリエーションや波形をセグメント化するために使用される手法によって、音声の品質が制限されます。

Amazon Polly ニューラル TTS システムは、音声を生成するために標準の連結合成を使用しません。これには 2 つの部分があります。

  • 音素のシーケンス (最も基本的な言語の単位) をスペクトログラムのシーケンスに変換するニューラルネットワーク。スペクトログラムのシーケンスは、異なる周波数帯域のエネルギーレベルのスナップショットです。

  • スペクトログラムを連続したオーディオ信号に変換するボコーダー。

ニューラル TTS システムの最初のコンポーネントは sequence-to-sequenceモデルです。このモデルは、対応する入力からのみ結果を作成するのではなく、入力要素のシーケンスがどのように連携するかを考慮します。このモデルは、出力するスペクトログラムを選択し、その周波数帯が、音声を処理するときに人間の脳が使用する音響能力を強調するようにします。

このモデルの出力は、ニューラルボコーダーに渡されます。これにより、スペクトログラムが音声波形に変換されます。汎用連結合成システムの構築に使用される大規模なデータセットでトレーニングすると、この sequence-to-sequence アプローチにより、高品質で自然な音声が得られます。

アドビロ (イタリア語)、 アンドレックス (メキシコスペイン語)、 Aria (ニュージーランド英語)、 アーレット (カトラン)、 アーティスト (英国英語)、 Ayanda (南アフリカ英語)、 ブルク語 (トルコ語)、 ダニエル (ドイツ)、 デンマーク語 (米国英語)、 エリン (スウェーデン語)、 ガブリス語 (カナダフランス語)、 グレゴリ (米国英語)、 ハラ (アラビア語、 Gulf)、 ハンナ (オーストリアドイツ語)、 ヒウジイン語 (中国語)、 イダ (ノルウェー)、 イスブル語 (ドイツフランス語)、 Kajal (ヒンディー語とインド英語)、 カウズハ (マウス)、 Kevin (米国英語)、 ラララ (オランダ)、 Liam (カナダフランス語)、 リサ (ドイツ語)、 Niamh (アイルランド英語)、 オラ (ポーランド)、 オリビア (オーストリア英語)、 ペドロ (米国スペイン語)、 Rémi (フランス)、 Ruth (米国英語)、 セルギオ語 (カストリアンスペイン語) ソフィ (デンマーク語)、 スティーブン (米国英語)、 Suvi (フィンランド)、 Thiago (ブラジルポルトガル語)、 Tomoko (日本)、 および Zayd (アラビア語) 音声は、NTTS を使用する場合のみ Amazon Polly でサポートされます。他のすべての音声には、標準の TTS メソッドを使用して作成された同等の音声があります。NTTS 専用音声を使用する場合は、コンソールまたは API のどちらを使用する場合でも、TTS エンジンパラメータを neural に設定する必要があります。

機能とリージョンの互換性

ニューラル音声は、すべての AWS リージョンで利用できるわけではなく、すべての Amazon Polly 機能をサポートしているわけでもありません。

ニューラル音声は、次のリージョンでサポートされています。

  • 米国東部 (バージニア北部): us-east-1

  • 米国西部 (オレゴン): us-west-2

  • アフリカ (ケープタウン): af-south-1

  • アジアパシフィック (東京): ap-northeast-1

  • アジアパシフィック (ソウル): ap-northeast-2

  • アジアパシフィック (大阪): ap-northeast-3

  • アジアパシフィック (ムンバイ): ap-south-1

  • アジアパシフィック (シンガポール): ap-southeast-1

  • アジアパシフィック (シドニー): ap-southeast-2

  • カナダ (中部): ca-central-1

  • 欧州 (フランクフルト): eu-central-1

  • 欧州 (アイルランド): eu-west-1

  • 欧州 (ロンドン): eu-west-2

  • 欧州 (パリ): eu-west-3

  • AWS GovCloud (米国西部): us-gov-west-1

これらのリージョンのエンドポイントとプロトコルは、標準音声に使用されるものと同じです。詳細については、Amazon Polly エンドポイントとクォータを参照してください。

ニューラル音声では、以下の機能がサポートされています。

  • リアルタイムおよび非同期の音声合成オペレーション。

  • ニュースキャスターの話し方。話し方の詳細については、NTTS のニュースキャスターの話し方を参照してください。

  • すべてのスピーチマーク。

  • Amazon Polly でサポートされている多くの SSML タグ (すべてではありません)。NTTS でサポートされる SSML タグの詳細については、サポートされている SSML タグを参照してください。

標準音声と同様に、さまざまなサンプリングレートから選択して、アプリケーションの帯域幅と音質を最適化できます。標準およびニューラル音声の有効なサンプリングレートは、8 kHz、16 kHz、22 kHz、または 24 kHz です。標準音声のデフォルトは 22 kHz です。ニューラル音声のデフォルトは 24 kHz です。Amazon Polly は MP3、OGG (Vorbis)、raw PCM オーディオストリーム形式をサポートしています。

音声エンジン

Amazon Polly では、engine プロパティでニューラル音声または標準音声を使用できます。使用できる値は、[標準][ロングフォーム]、または [ニューラル]の 3 つです。[標準] がデフォルト値です。

重要

NTTS がサポートされているリージョン以外では、標準の音声エンジンだけがコンソールに表示されます。ニューラルエンジンが表示されない場合は、リージョンを確認してください。NTTS を使用できるリージョンの詳細については、「機能とリージョンの互換性」を参照してください。

NTTS 専用音声を使用する場合は、コンソールまたは API のどちらを使用する場合でも、TTS エンジンパラメータを neural に設定する必要があります。

音声エンジンの選択 (コンソール)

音声エンジンを選択するには (コンソール)
  1. Amazon Polly コンソール (https://console.aws.amazon.com/polly/) を開きます。

  2. [テキスト読み上げ機能] ページの [エンジン] で、[標準][ロングフォーム]、または [ニューラル] を選択します。

    [ニューラル] を選択した場合、ニューラル音声のみが使用可能になり、標準のみの音声は無効になります。

音声エンジンの選択 (CLI)

音声エンジンを選択するには (CLI)

engine パラメータはオプションで、standardLong Form、または Neural の 3 つの値を指定できます。SynthesisSynthesisTask オペレーションの作成時に、このプロパティを使用します。

例えば、次のコードを使用して、米国West-2 (オレゴン) リージョンで start-speech-synthesis-task AWS CLI コマンドを実行できます。

次の AWS CLI 例は、Unix、Linux、macOS 用にフォーマットされています。Windows の場合は、各行末のバックスラッシュ (\) Unix 連結文字をカレット (^) に置き換え、入力テキストは二重引用符 (") で囲み、内部タグは一重引用符 (') で囲みます。

aws polly start-speech-synthesis-task \ --engine neural --region us-west-2 \ --endpoint-url "https://polly.us-west-1.amazonaws.com/" \ --output-format mp3 \ --output-s3-bucket-name your-bucket-name \ --output-s3-key-prefix optional/prefix/path/file \ --voice-id Joanna \ --text file://text_file.txt

これにより、次のような応答が得られます。

"SynthesisTask": { "CreationTime": [..], "Engine": "neural", "OutputFormat": "mp3", "OutputUri": "https://s3.us-west-1.amazonaws.com/your-bucket-name/optional/prefix/path/file.<task_id>.mp3", "TextType": "text", "RequestCharacters": [..], "TaskStatus": "scheduled", "TaskId": [task_id], "VoiceId": "Joanna" }