リクエストの構文 URI リクエストパラメータリクエストボディレスポンスの構文レスポンス要素エラー以下の資料も参照してください。

StartSpeechSynthesisTask

新しい SpeechSynthesisTask を開始することにより、非同期合成タスクの作成を可能にします。このオペレーションには、音声合成に必要なすべての標準情報と、合成タスクの出力を保存するサービスのための Amazon S3 バケットの名前と 2 つのオプションのパラメータ (OutputS3KeyPrefix とSnsTopicArn) が必要です。合成タスクが作成されると、このオペレーションは SpeechSynthesisTask オブジェクトを返します。このオブジェクトには、このタスクの ID と現在のステータスが含まれます。SpeechSynthesisTask オブジェクトは、非同期合成タスクの開始後 72 時間使用できます。

リクエストの構文


POST /v1/synthesisTasks HTTP/1.1
Content-type: application/json

{
   "Engine": "string",
   "LanguageCode": "string",
   "LexiconNames": [ "string" ],
   "OutputFormat": "string",
   "OutputS3BucketName": "string",
   "OutputS3KeyPrefix": "string",
   "SampleRate": "string",
   "SnsTopicArn": "string",
   "SpeechMarkTypes": [ "string" ],
   "Text": "string",
   "TextType": "string",
   "VoiceId": "string"
}

URI リクエストパラメータ

リクエストでは URI パラメータを使用しません。

リクエストボディ

リクエストは以下の JSON 形式のデータを受け入れます。

Engine

入力テキストを音声合成処理する際に Amazon Polly で使用するエンジン (standard、neural、long-form、または generative) を指定します。選択したエンジンでサポートされていない音声を使用すると、エラーが発生します。

型: 文字列

有効な値：standard | neural | long-form | generative

必須：いいえ

LanguageCode

音声合成リクエストのオプション言語コード。これは、インド英語 (en-IN) とヒンディー語 (hi-IN) のどちらにも使用できる Aditi などのバイリンガル音声を使用する場合にのみ必要です。

バイリンガル音声の使用時に言語コードが指定されていない場合、Amazon Polly はバイリンガル音声のデフォルト言語を使用します。音声のデフォルト言語は、LanguageCode パラメータの DescribeVoices オペレーションによって返される言語です。例えば、言語コードが指定されていない場合、Aditi はヒンディー語ではなくインド英語を使用します。

型: 文字列

必須：いいえ

LexiconNames

合成時にサービスが適用する 1 つ以上の発音レキシコン名のリスト。レキシコンは、レキシコンの言語が音声の言語と同じ場合にのみ適用されます。

型: 文字列の配列

配列メンバー: 5 つの項目の最大数。

パターン: [0-9A-Za-z]{1,20}

必須: いいえ

OutputFormat

返された出力がエンコードされる形式。オーディオストリームの場合、これは mp3、ogg_vorbis、または pcm になります。スピーチマークの場合、これは json になります。

型: 文字列

有効な値：json | mp3 | ogg_vorbis | pcm

必須: はい

OutputS3BucketName

出力ファイルの保存先となる Amazon S3 バケット名。

タイプ: 文字列

Pattern: ^[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9]$

必須: はい

OutputS3KeyPrefix

出力音声ファイルの Amazon S3 キープレフィックス。

タイプ: 文字列

パターン: ^[0-9a-zA-Z\/\!\-_\.\*\':;\$@=+\,\?&]{0,800}$

必須: いいえ

SampleRate

Hz で指定した音声周波数。

mp3 および ogg_vorbis の有効な値は「8000」、「16000」、「22050」、および「24000」です。標準音声のデフォルト値は「22050」です。ニューラル音声のデフォルト値は「24000」です。ロングフォーム音声のデフォルト値は「24000」です。生成音声のデフォルト値は「24000」です。

pcm の有効な値は「8000」と「16000」です。デフォルト値は「16000」です。

タイプ: 文字列

必須: いいえ

SnsTopicArn

音声合成タスクのステータス通知を提供するためにオプションで使用される SNS トピックの ARN。

タイプ: 文字列

パターン: ^arn:aws(-(cn|iso(-b)?|us-gov))?:sns:[a-z0-9_-]{1,50}:\d{12}:[a-zA-Z0-9_-]{1,251}([a-zA-Z0-9_-]{0,5}|\.fifo)$

必須: いいえ

SpeechMarkTypes

入力テキストに対して返されるスピーチマークのタイプ。

型: 文字列の配列

配列メンバー: 最大数は 4 項目です。

有効な値：sentence | ssml | viseme | word

必須：いいえ

Text

合成する入力テキスト。ssml を TextType として指定した場合は、入力テキストの SSML 形式に従います。

タイプ: 文字列

必須: はい

TextType

入力テキストがプレーンテキストか SSML かを指定します。デフォルト値はプレーンテキストです。

型: 文字列

有効な値：ssml | text

必須：いいえ

VoiceId

合成に使用する音声 ID。

型: 文字列

必須: はい

レスポンスの構文


HTTP/1.1 200
Content-type: application/json

{
   "SynthesisTask": { 
      "CreationTime": number,
      "Engine": "string",
      "LanguageCode": "string",
      "LexiconNames": [ "string" ],
      "OutputFormat": "string",
      "OutputUri": "string",
      "RequestCharacters": number,
      "SampleRate": "string",
      "SnsTopicArn": "string",
      "SpeechMarkTypes": [ "string" ],
      "TaskId": "string",
      "TaskStatus": "string",
      "TaskStatusReason": "string",
      "TextType": "string",
      "VoiceId": "string"
   }
}

レスポンス要素

アクションが成功すると、サービスは HTTP 200 レスポンスを返します。

サービスから以下のデータが JSON 形式で返されます。

SynthesisTask

新しく送信された音声合成タスクに関する情報と属性を提供する SynthesisTask オブジェクト。

型: SynthesisTask オブジェクト

エラー

EngineNotSupportedException

このエンジンは、指定された音声に対応していません。エンジンが対応する新しい音声を選択するか、エンジンを変更してオペレーションを再開してください。

HTTP ステータスコード: 400

InvalidS3BucketException

提供された Amazon S3 バケット名が無効です。S3 バケットの命名要件で入力を確認し、もう一度試してください。

HTTP ステータスコード: 400

InvalidS3KeyException

提供された Amazon S3 のキープレフィックスが無効です。有効な S3 オブジェクトキー名を指定してください。

HTTP ステータスコード: 400

InvalidSampleRateException

指定されたサンプルレートが無効です。

HTTP ステータスコード: 400

InvalidSnsTopicArnException

提供された SNS トピック ARN が無効です。有効な SNS トピック ARN を指定して、もう一度試してください。

HTTP ステータスコード: 400

InvalidSsmlException

提供された SSML が無効です。SSML 構文、タグと値のスペルを確認し、もう一度試してください。

HTTP ステータスコード: 400

LanguageNotSupportedException

指定された言語は、現在 Amazon Polly がこの容量でサポートしていません。

HTTP ステータスコード: 400

LexiconNotFoundException

Amazon Polly は、指定されたレキシコンを見つけることができません。これは、レキシコンが見つからない、その名前のスペルが間違っている、または別のリージョンにあるレキシコンが指定されていることが原因である可能性があります。

レキシコンが存在すること、リージョンにあること (ListLexicons を参照)、名前のスペルが正しいことを確認します。その後、もう一度試してください。

HTTP ステータスコード: 404

MarksNotSupportedForFormatException

選択された OutputFormat では、スピーチマークはサポートされていません。スピーチマークは、json 形式のコンテンツに対してのみ使用できます。

HTTP ステータスコード: 400

ServiceFailureException

不明な状態が原因で、サービス障害が発生しました。

HTTP ステータスコード: 500

SsmlMarksNotSupportedForTextTypeException

SSML スピーチマークは、プレーンテキストタイプの入力ではサポートされていません。

HTTP ステータスコード: 400

TextLengthExceededException

「テキスト」パラメータの値が、許容される上限より長くなっています。SynthesizeSpeech API の場合、入力テキストの制限は合計で最大 6,000 文字で、そのうち請求対象文字は 3,000 文字までに制限されています。StartSpeechSynthesisTask API の場合、最大 200,000 文字で、そのうち請求対象文字は 100,000 文字までに制限されています。SSML タグは、課金対象文字としてカウントされません。

HTTP ステータスコード: 400

以下の資料も参照してください。

言語固有の AWS SDKs のいずれかでこの API を使用する方法の詳細については、以下を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

PutLexicon

SynthesizeSpeech