ニューラル TTS - Amazon Polly

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ニューラル TTS

Amazon Polly にはニューラル TTS (NTTS) システムがあり、標準音声よりも高品質の音声を生成できます。NTTS S S S システムは、自然で人間に似たものを生成します text-to-speech 声は可能です。

標準の TTS 音声では、連結合成が使用されます。この方法は、録音された音声の音素をまとめ (連結)、非常に自然な合成音声を生成します。ただし、音声の必然的なバリエーションや波形をセグメント化するために使用される手法によって、音声の品質が制限されます。

Amazon Polly ニューラル TTS システムは、音声を生成するために標準の連結合成を使用しません。これには 2 つの部分があります。

  • 音素のシーケンス (最も基本的な言語の単位) をスペクトログラムのシーケンスに変換するニューラルネットワーク。スペクトログラムのシーケンスは、異なる周波数帯域のエネルギーレベルのスナップショットです。

  • スペクトログラムを連続したオーディオ信号に変換するボコーダー。

ニューラル TS S S S システムの最初のコンポーネントは、 sequence-to-sequenceモデル。このモデルは、対応する入力からのみ結果を作成するのではなく、入力要素のシーケンスがどのように連携するかを考慮します。このモデルは、出力するスペクトログラムを選択し、その周波数帯が、音声を処理するときに人間の脳が使用する音響能力を強調するようにします。

このモデルの出力は、ニューラルボコーダーに渡されます。これにより、スペクトログラムが音声波形に変換されます。汎用連結合成システムの構築に使用される大規模なデータセットでトレーニングすると、これは sequence-to-sequence アプローチは、より高品質で、より自然な響きの声を生み出します。

Aria (ニュージーランド英語)、Gabrielle (カナダフランス語)、Hannah (オーストリアドイツ語)、Gabrielle (カナダフランス語)、Hannah (オーストリアドイツ語)、Gabin (米国英語)、Olivia (オーストラリア英語) の音声は、NTTS を使用する場合のみ Amazon Polly でサポートされます。他のすべての音声には、標準の TTS メソッドを使用して作成された同等の音声があります。NTTS 専用音声を使用する場合は、コンソールまたは API のどちらを使用する場合でも、TTS エンジンパラメータを neural に設定する必要があります。

機能とリージョンの互換性

ニューラル音声は、すべての AWS リージョンで利用できるわけではありません。また、すべての Amazon Polly 機能をサポートしているわけでもありません。

ニューラル音声は、次のリージョンでサポートされています。

  • 米国東部 (バージニア北部): us-east-1

  • 米国西部 (オレゴン): us-west-2

  • アフリカ (ケープタウン): af-south-1

  • アジアパシフィック (東京): ap-northeast-1

  • アジアパシフィック (ソウル): ap-northeast-2

  • アジアパシフィック (シンガポール): ap-southeast-1

  • アジアパシフィック (シドニー): ap-southeast-2

  • カナダ (中部): ca-central-1

  • 欧州 (フランクフルト): eu-central-1

  • 欧州 (アイルランド): eu-west-1

  • 欧州 (ロンドン): eu-west-2

  • AWS GovCloud (米国西部): us-gov-west-1

これらのリージョンのエンドポイントとプロトコルは、標準音声に使用されるものと同じです。詳細については、Amazon Polly エンドポイントとクォータを参照してください。

ニューラル音声では、以下の機能がサポートされています。

  • リアルタイムおよび非同期の音声合成オペレーション。

  • ニュースキャスターの話し方。話し方の詳細については、NTTS のニュースキャスターの話し方を参照してください。

  • すべてのスピーチマーク。

  • Amazon Polly でサポートされている多くの SSML タグ (すべてではありません)。NTTS でサポートされる SSML タグの詳細については、サポートされている SSML タグを参照してください。

標準音声と同様に、さまざまなサンプリングレートから選択して、アプリケーションの帯域幅と音質を最適化できます。標準およびニューラル音声の有効なサンプリングレートは、8 kHz、16 kHz、22 kHz、または 24 kHz です。標準音声のデフォルトは 22 kHz です。ニューラル音声のデフォルトは 24 kHz です。Amazon Polly は MP3、OGG (Vorbis)、raw PCM オーディオストリーム形式をサポートしています。

音声エンジン

Amazon Polly では、engine プロパティでニューラル音声または標準音声を使用できます。指定できる値は 2 つあります。Standardまたはニューラルラル標準音声とニューラル音声のどちらを使用するかを示します。[標準] がデフォルト値です。

重要

NTTS がサポートされているリージョン以外では、標準の音声エンジンだけがコンソールに表示されます。ニューラルエンジンが表示されない場合は、リージョンを確認してください。NTTS を使用できるリージョンの詳細については、「機能とリージョンの互換性」を参照してください。

NTTS 専用音声を使用する場合は、コンソールまたは API のどちらを使用する場合でも、TTS エンジンパラメータを neural に設定する必要があります。

音声エンジンの選択 (コンソール)

音声エンジンを選択するには (コンソール)

  1. Amazon Polly コンソール (https://console.aws.amazon.com/polly/) を開きます。

  2. [Text-to-Speech (テキスト読み上げ機能)] ページの [エンジン] で、[標準] または [ニューラル] を選択します。

    
                            コンソールの[Text-to-Speech] (テキスト読み上げ機能) ページの [Engine] (エンジン) オプション。[Neural] (ニューラル) オプションは、ニューラルエンジンがサポートされているリージョンでのみ表示されることに注意してください。

    [ニューラル] を選択した場合、ニューラル音声のみが使用可能になり、標準のみの音声は無効になります。

音声エンジンの選択 (CLI)

音声エンジンを選択するには (CLI)

engine パラメータはオプションで、standard または Neural の 2 つの値を指定できます。SynthesisSynthesisTask オペレーションの作成時に、このプロパティを使用します。

例えば、次のコードを使用して、米国西部-2 (オレゴン) リージョンで start-speech-synthesis-task AWS CLI コマンドを実行できます。

次の AWS CLI の例は、Unix、Linux、および macOS 用にフォーマットされています。Windows の場合は、各行末のバックスラッシュ (\) Unix 連結文字をカレット (^) に置き換え、入力テキストは二重引用符 (") で囲み、内部タグは一重引用符 (') で囲みます。

aws polly start-speech-synthesis-task \ --engine neural --region us-west-2 \ --endpoint-url "https://polly.us-west-1.amazonaws.com/" \ --output-format mp3 \ --output-s3-bucket-name your-bucket-name \ --output-s3-key-prefix optional/prefix/path/file \ --voice-id Joanna \ --text file://text_file.txt

これにより、次のような応答が得られます。

"SynthesisTask": { "CreationTime": [..], "Engine": "neural", "OutputFormat": "mp3", "OutputUri": "https://s3.us-west-1.amazonaws.com/your-bucket-name/optional/prefix/path/file.<task_id>.mp3", "TextType": "text", "RequestCharacters": [..], "TaskStatus": "scheduled", "TaskId": [task_id], "VoiceId": "Joanna" }