Amazon Polly のクォータ - Amazon Polly

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Polly のクォータ

Amazon Polly は、過剰なリクエストを拒否することでカスタマートラフィックにクォータを適用します。標準音声の SynthesizeSpeech リクエストのデフォルトクォータは、1 つの AWS アカウントで、1 つのリージョンにおいて 1 秒あたり 80 件のトランザクション (tps) です。制限が引き上げられず、標準の音声を使用して 1 秒あたり 100 件の SynthesizeSpeech リクエストを生成した場合、1 秒あたり 80 件のリクエストが成功し、1 秒あたり 20 件のリクエストが Amazon Polly によってスロットリングされます。これらのリクエストにより、HTTP ステータス 400 のレスポンスと、ThrottlingException を示すレスポンスヘッダーが返されます。また、Amazon Polly はリクエストレートに基づいてすべてのオペレーションへのトラフィックをスロットリングします。

音声合成制限の例

  • 英語のアルファベットの最初の 24 文字を 1 文字ずつ合成する。各文字の合成にかかる時間が 50 ミリ秒未満で、オペレーションの制限が 8 tps の場合、24 文字の合成には少なくとも 3 秒かかります。その間、1 秒あたり最大 8 文字を合成できます。それ以降のリクエストはスロットリングされます。リクエストは短時間しか続かないため、重複することなく連続して合成されます。

  • 16 段落のテキストを合成する。各段落が合成され、クライアント側で 2 秒以内にすべて受信され、同時リクエスト数のオペレーションの制限が 8 件の場合、16 件の記事すべてを合成するには少なくとも 4 秒かかります。最初の 1 秒で、最大 8 件のリクエストを開始できます。同時リクエスト中は、同時実行数の制限により、新しい合成を開始しようとしてもスロットリングされます。最初の 2 秒間、つまり最初のリクエストのバッチが終了した後に、残りの 8 つの段落を合成できるようになります。

Amazon Polly を使用するときは、以下の制限に注意してください。

サポートされるリージョン

Amazon Polly が利用可能な AWS リージョンの一覧については、『Amazon Web Services 全般のリファレンス』の「Amazon Polly エンドポイントとクォータ」を参照してください。ニューラル音声をサポートするリージョンについては、ニューラル TTS の「機能とリージョンの互換性」を参照してください。米国東部 (バージニア北部) では [ロングフォーム] を使用できます。

クォータとスロットルレート

次の表では、Amazon Polly オペレーションごとのスロットルレートが定義されています。AWS Management Console を使用して、調整可能なクォータのクォータ増加のリクエストを行うことができます。

操作

制限

レキシコン

DeleteLexicon

PutLexicon

GetLexicon

ListLexicons

これらのオペレーションによる 2 トランザクション/秒 (tps) はすべて結合されます。

最大許容バーストは 4 tps です。

音声

DescribeVoices

80 tps で、バースト制限は 100 tps

SynthesizeSpeech

標準音声: 80 tps、バースト制限は 100 tps

ニューラル音声: 8 tps、バースト制限は 10 tps

ロングフォーム音声: 8 tps、バースト制限は 10 tps

StartSpeechSynthesisTask

標準音声: 10 tps、バースト制限は 12 tps

ニューラル音声: 1 tps

ロングフォーム音声: 1 tps

GetSynthesizeSpeechTask および ListSynthesizeSpeechTask

組み合わせの最大許容は 10 tps

同時実行リクエスト

Amazon Polly は同時リクエストの制限もサポートしています。標準の音声の場合、Amazon Polly は 80 tps で最大 80 件の同時リクエストに対応しています。ニューラル音声の場合、Amazon Polly は 8 tps およびバースト制限の 10 tps で、最大 18 件の同時リクエストに対応しています。[ロングフォーム音声] の場合、Amazon Polly は最大 26 件の同時リクエストに対応しています。

スロットリングを軽減するためのベストプラクティス

  • バックオフとジッターを使用してスロットリングを再試行することで、負荷を短期間で分散させ、可用性を損なうことなく使用量の予期しないピークに対処できます。AWS Code Sample Catalog は多くのプログラミング言語でこれをデフォルトで行うように既に設定されています。詳細については、「機能のリトライ動作」を参照してください。

  • Amazon Polly メトリクスを使用する。Amazon Polly は CloudWatch に自動的に発行して、現在の使用量を分析し、使用量の増加を予測します。

注記

クォータの増額をリクエストする前に (該当する場合)、このページのガイドラインに従って必要な TPS を計算してください。Amazon Polly は、コストを低く抑えるために、顧客の需要に応じて必要なコンピューティングリソースのみを確保します。

発音レキシコン

  • アカウントにつき最大 100 個のレキシコンを保存できます。

  • レキシコン名は、長さが最大 20 文字の英数字文字列です。

  • 各レキシコンのサイズは最大 40,000 文字です。(レキシコンのサイズが SynthesizeSpeech オペレーションのレイテンシーに影響することに注意してください。)

  • レキシコンの <phoneme> または <alias> は最大 100 文字と置き換えることができます。

レキシコンの使用については、「レキシコンの管理」を参照してください。

SynthesizeSpeech API オペレーション

SynthesizeSpeech の使用量を見積もるとき、Amazon Polly によって生成された音声は通常、特にインタラクティブアプリケーションを使用する場合、再生に少なくとも数秒かかることに注意してください。これにより、同時コンシューマー数が多い場合は、SynthesizeSpeech へのリクエストの速度が低下します。さらに、Amazon Polly では、合成する同時リクエストの数に応じて SynthesizeSpeech リクエストをスロットリングします。同時リクエストを個別に設定することはできません。同時リクエスト数の上限は常に、許容される tps 数と同じ値で、これに合わせてスケールされます。

短いストーリーのサンプルアプリケーション。Amazon Polly を使用すると、一連の短いストーリーを再生するアプリケーションを作成できます。この種類のアプリケーションでは、ユーザーがアプリケーションを終了するまでは、最初のストーリーが再生され、続いて後続のストーリーが再生されます。各ストーリーの合成には約 0.5 秒かかり、再生には 10 秒かかります。このシナリオでは、顧客がアプリケーションを使用して 10 秒経過するたびに SynthesizeSpeech が 1 回の呼び出されることを想定しています。これは、アプリケーションを同時に使用している顧客 10 人ごとに 1 秒あたり 1 回の呼び出しがあることになります。1000 人の顧客が同時にアプリケーションを使用している場合、SynthesizeSpeech への平均コールレートは 1 秒あたりのトランザクション数は 100 件程度になると予想できます。

SynthesizeSpeech API オペレーションの使用には、以下の制限が関連している点に注意してください。

  • 入力テキストのサイズは、最大 3000 課金対象文字 (合計 6000 文字) です。SSML タグは、課金対象文字としてカウントされません。

  • 入力テキストに適用する最大 5 個のレキシコンを指定できます。

  • 出力オーディオストリーム (合成) は 10 分に制限されています。これに達した後は、残りの音声はカットオフされます。

詳細については、「SynthesizeSpeech」を参照してください。

注記

SynthesizeSpeech API オペレーションのいくつかの制限は、StartSythensizeSpeechTask API を使用して回避することができます。詳細については、「長いオーディオファイルの作成」を参照してください。

SpeechSynthesisTask API オペレーション

StartSpeechSynthesisTaskGetSpeechSynthesisTask、および ListSpeechSynthesisTasks API オペレーションの使用には、以下の制限が関連している点に注意してください。

  • 入力テキストのサイズは、最大 100,000 課金対象文字 (合計 200,000 文字) です。SSML タグは、課金対象文字としてカウントされません。

  • 入力テキストに適用する最大 5 個のレキシコンを指定できます。

音声合成マークアップ言語 (SSML)

SSML の使用には、以下の制限が関連している点に注意してください。

  • <audio><lexicon><lookup>、および <voice> タグは、サポートされていません。

  • <break> エレメントは、それぞれ最大 10 秒の時間を指定できます。

  • <prosody> タグでは、-80% より小さいレート属性値はサポートされていません。

詳細については、「SSML ドキュメントから音声を生成する」を参照してください。