生成音声 - Amazon Polly

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

生成音声

Amazon Polly の生成 text-to-speech (TTS) エンジンは、Amazon Polly コンソールを介して使用できる、人間らしく、感情的に関与し、適応的な会話音声を提供します。

Generative エンジンは、現在までの最大の Amazon Polly TTSモデルです。生のテキストを音声コードに変換する 10 億パラメータのトランスフォーマーをデプロイし、次にこれらの音声コードを増分的かつストリーミング可能な方法で波形に変換する畳み込みベースのデコーダーをデプロイします。この方法は、さまざまな音声、言語、スタイルを含む公開データや専有データの量を増やすトレーニングを受けたときに、広く報告された Large Language Models (LLMs) の緊急能力を示しています。

Generative エンジンは、人間の声と非常に似た方法で、感情的にエンゲージし、アサーションがあり、非常に口語性の高い合成音声を作成します。これらの音声は、知識豊富なカスタマーアシスタント、仮想トレーナー、または人間に近い合成音声を持つ広告主として使用できます。

注記

これらの音声の根底にあるテクノロジーは state-of-the-art、言語および音声モデリングのための生成 AI のパラダイム内にあります。テクノロジーの副作用は、トレーニングデータやモデルを更新すると、モデルの更新によって全体的な品質が向上する場合でも、音声のサウンドにわずかなばらつきが生じる可能性があることです。これは、ポッドキャストのシーズンなど、さまざまなコンテンツパートが長期間にわたって合成されたユースケースに影響を与える可能性があります。

使用可能な生成音声

Amazon Polly は現在、生成バリアントで 7 つの音声を提供しています。これらの生成音声は、会話NTTSバリアントでも利用できます。

[言語] 言語コード 名前/ID 性別

1

英語 (オーストラリア)

en-AU

Olivia

女性

2

英語 (英国)

en-GB

Amy

女性

3

英語 (米国)

en-US

Danielle

女性

4

英語 (米国)

en-US

Joanna

女性

5

英語 (米国)

en-US

Matthew

6

英語 (米国)

en-US

Ruth

女性

7

英語 (米国)

en-US

Stephen

注記

生成音声のコストは、Amazon Polly の料金情報ページ で指定します。

機能とリージョンの互換性

Amazon Polly 生成音声は、次のリージョンで使用できます。

  • 米国東部 (バージニア北部): us-east-1

  • 欧州 (フランクフルト): eu-central-1

  • 米国西部 (オレゴン): us-west-2

  • 他のリージョンは使用できません

生成音声では、次の機能がサポートされています。

  • リアルタイムおよび非同期の音声合成オペレーション。

  • Newscaster スピーキングスタイルは、Generative エンジンではサポートされていません。

  • 多くの (ただし、すべてではない) SSML タグが Amazon Polly でサポートされています。NTTSでサポートされているSSMLタグの詳細については、「サポートされているSSMLタグ」を参照してください。

  • 標準音声と同様に、さまざまなサンプリングレートから選択して、アプリケーションの帯域幅と音質を最適化できます。標準音声とニューラル音声の有効なサンプリングレートは、8kHz、16kHz、22kHz、または 24 ですkHz。標準音声のデフォルトは 22 ですkHz。生成音声のデフォルトは 24 ですkHz。Amazon Polly は、MP3、 OGG (Vorbis)、および raw PCMオーディオストリーム形式をサポートしています。

現在、音声マークの生成をサポートしていません。

注記

万一モデル幻覚が発生した場合、 (および生成エンジンのモデル動作で音声トークンをトークンでレンダリングする場合) 強制的な緊急停止メカニズムが導入されています。組み込みメカニズムは、モデルによる音声のレンダリングをそれ以上停止します。この安全機能は、モデルが幻覚を起こす可能性があるデータ分析に基づいており、通常は文の最後にあります。

モデルが幻覚を起こし、生成ステップ中に単語をカットし、単語の半分をレンダリングすることがあるかもしれません。これにより、不適切な結果が発生する可能性があります。