Amazon Polly
開発者ガイド

Amazon Polly とは

Amazon Polly はテキストをリアルなスピーチに変換するクラウドサービスです。Amazon Polly を使用して、エンゲージメントやアクセス性を高めるアプリケーションを開発できます。Amazon Polly では多様な言語がサポートされており、さまざまのリアルな音声が含まれています。そのため、お客様に最適なボイスを使用して、さまざまな場所で機能する音声対応アプリケーションを構築できます。Amazon Polly は、合成したテキスト分のみお支払いいただくだけで利用可能です。また、追加コストなしで、Amazon Polly が生成した音声をキャッシュして再生できます。

さらに、Amazon Polly には多数のニューラルテキスト読み上げ (NTTS) 音声が含まれており、新しい機械学習アプローチによって音声品質が画期的に向上するため、可能な限り最も自然で人間のようなテキスト読み上げ音声がお客様に提供されます。ニューラル TTS 技術は、ニュースナレーションのユースケースに合わせたニュースキャスタースタイルもサポートしています。

Amazon Polly の一般的なユースケースは、ニュースリーダー、ゲーム、e ラーニングプラットフォーム、視力が弱い方向けのアクセシビリティアプリケーション、および急速に成長している IoT 分野などですが、他にもいろいろあります。

Amazon Polly は、HIPAA (Health Insurance Portability and Accountability Act of 1996) および Payment Card Industry Data Security Standard (PCI DSS) の規制されたワークロードでの使用が認定されています。

Amazon Polly を使用するメリットの例を次に示します。

  • 高品質 – Amazon Polly は、新しいニューラル TTS とクラス最高の標準 TTS テクノロジーの両方を提供し、高い発音精度 (略語、頭字語の展開、日付/時刻の変換、同形異義語の読み分けを含む) で優れた自然音声を合成します。

     

  • 低レイテンシー – Amazon Polly は応答が早いため、ダイアログシステムなどの低レイテンシーなユースケースにおいても選択肢になります。

     

  • 多数の言語とボイスのポートフォリオをサポート – Amazon Polly では、多数の音声言語がサポートされており、ほとんどの言語で男性と女性のボイスを選択できます。ニューラル TTS は現在、3 つの英国英語音声と 8 つの米国英語音声をサポートしています。さらに多くのニューラル音声が提供されるにつれて、この数は増え続ける予定です。米国英語の音声 Matthew と Joanna では、プロのニュースアンカーのようなニューラルニュースキャスターの話し方も使用できます。

     

  • コスト効率が良い – Amazon Polly は従量課金制であり、セットアップコストはかかりません。小規模で開始し、アプリケーションが大きくなるにつれてスケールアップできます。

     

  • クラウドベースのソリューション – デバイス上の TTS ソリューションは、膨大なコンピューティングリソース、特に CPU パワー、RAM、ディスク容量を必要とします。そのため、開発コストが高くなり、またタブレットやスマートフォンなどのデバイスの電力消費も高くなります。これに対して、AWS クラウド上で TTS 変換を実行すると、ローカルで必要なリソースが劇的に減ります。これにより、すべての利用可能な言語とボイスを可能な限りの最高品質でサポートできます。さらに、音声が改良されるとすぐにすべてのエンドユーザーが使用できるようになり、デバイスで追加更新する必要がありません。

Amazon Polly を初めてお使いになる方向けの情報

Amazon Polly サービスを初めて使用する方には、次のセクションを順を追って読むことをお勧めします。

  1. Amazon Polly の詳細 – このセクションでは、エンドツーエンドエクスペリエンスを作成するために使用できるさまざまな Amazon Polly の入力とオプションを紹介します。

  2. Amazon Polly の使用開始 – このセクションでは、アカウントをセットアップして Amazon Polly の音声合成をテストします。

  3. アプリケーション例 – このセクションでは、Amazon Polly の学習に使用できるその他の例を示します。