Supported SSML Tags - Amazon Polly

英語の翻訳が提供されている場合で、内容が矛盾する場合には、英語版がオリジナルとして取り扱われます。翻訳は機械翻訳により提供されています。

Supported SSML Tags

Amazon Polly は、次の SSML タグをサポートしています。

アクション: 、

SSML タグ

ニューラル音声の可用性

Adding a Pause

<break>

完全に利用可能

Emphasizing Words

<emphasis>

利用不可

Specifying Another Language for Specific Words

<lang>

完全に利用可能

Placing a Custom Tag in Your Text

<mark>

完全に利用可能

Adding a Pause Between Paragraphs

p

完全に利用可能

Using Phonetic Pronunciation

<phoneme>

完全に利用可能

Controlling Volume, Speaking Rate, and Pitch

<prosody>

部分的に利用可能

Setting a Maximum Duration for Synthesized Speech

<prosody amazon:max-duration>

利用不可

Adding a Pause Between Sentences

s

完全に利用可能

Controlling How Special Types of Words Are Spoken

<say-as>

部分的に利用可能

Identifying SSML-Enhanced Text

<speak>

完全に利用可能

Pronouncing Acronyms and Abbreviations

<sub>

完全に利用可能

Improving Pronunciation by Specifying Parts of Speech

w

完全に利用可能

Adding the Sound of Breathing

<amazon:auto-breaths>

利用不可

Conversational speaking style

<amazon:domain name="conversational">

ニューラル音声のみを選択

Newscaster speaking style

<amazon:domain name=news>

ニューラル音声のみを選択

Adding Dynamic Range Compression

<amazon:effect name="drc">

完全に利用可能

Speaking Softly

<amazon:effect phonation="soft">

利用不可

Controlling Timbre

<amazon:effect vocal-tract-length>

利用不可

Whispering

<amazon:effect name="whispered">

利用不可

サポートされていない SSML タグをニューラル形式または標準形式で使用すると、エラーが発生します。

Identifying SSML-Enhanced Text

<speak>

<speak> タグは、すべての Amazon Polly SSML テキストのルート要素です。SSML 拡張テキストはすべて <speak> タグで囲まれている必要があります。

<speak>Mary had a little lamb.</speak>

このタグは、ニューラル形式と標準の TTS 形式の両方でサポートされています。

Adding a Pause

<break>

テキストに一時停止を追加するには、<break> タグを使用します。強度に応じて一時停止を設定することができます (カンマ、文章、段落後の一時停止と同等)。または、特定の時間 (秒またはミリ秒単位) に設定できます。一時停止の長さを指定する属性を指定しない場合、Amazon Polly はデフォルト値である <break strength="medium"> を使用します。この場合は、カンマの一時停止の長さが追加されます。

strength 属性値:

  • none: No pause. Use none to remove a normally occurring pause, such as after a period.

  • x-weak: Has the same strength as none, no pause.

  • weak: Sets a pause of the same duration as the pause after a comma.

  • medium: Has the same strength as weak.

  • strong: Sets a pause of the same duration as the pause after a sentence.

  • x-strong: Sets a pause of the same duration as the pause after a paragraph.

time 属性値:

  • [number]s: The duration of the pause, in seconds. The maximum duration is 10s.

  • [number]ms: The duration of the pause, in milliseconds. The maximum duration is 10000ms.

たとえば、 と指定します。

<speak> Mary had a little lamb <break time="3s"/>Whose fleece was white as snow. </speak>

break タグの属性を使用しない場合、結果はテキストによって異なります。

  • If there is no other punctuation next to the break tag, it creates a <break strength="medium"> (comma-length pause).

  • If the tag is next to a comma, it upgrades the tag to a <break strength="strong"> (sentence-length pause).

  • If the tag is next to a period, it upgrades the tag to <break strength="x-strong"> (paragraph-length pause).

このタグは、ニューラル形式と標準の TTS 形式の両方でサポートされています。

Emphasizing Words

<emphasis>

単語を強調するには、<emphasis> タグを使用します。単語を強調すると、話す速度と音量が変わります。強調を大きくするほど、Amazon Polly はテキストを大きくゆっくり発声します。強調を小さくするほど、小さく速く発声します。強調の度合いを指定するには、level 属性を使用します。

level 属性値:

  • Strong: Increases the volume and slows the speaking rate so that the speech is louder and slower.

  • Moderate: Increases the volume and slows the speaking rate, but less than strong. Moderate is the default.

  • Reduced: Decreases the volume and speeds up the speaking rate. Speech is softer and faster.

注記

音声の通常の読み上げ速度およびボリュームは、moderate レベルから reduced レベルまでの間に収まります。

たとえば、 と指定します。

<speak> I already told you I <emphasis level="strong">really like</emphasis> that person. </speak>

このタグは現在、標準の TTS 形式でのみサポートされています。

Specifying Another Language for Specific Words

<lang>

<lang> タグを使用して、特定の単語、語句、または文に別の言語を指定します。<lang> タグ内に囲うと、一般的に外国語の語句の発声がよくなります。言語を指定するには、xml:lang 属性を使用します。使用可能な言語の完全なリストについては、「Amazon Polly でサポートされている言語」を参照してください。

ただし、 <lang> 入力テキストのすべての単語は、 voice-id。 以下を適用する場合 <lang> タグ、単語はその言語で話されます。

たとえば、voice-id が Joanna (米国英語の話者) の場合、Amazon Polly は以下をフランス語のアクセントを使用せずに Joanna の音声で発声します。

<speak> Je ne parle pas français. </speak>

<lang> タグを使用して Joanna の音声を使用すると、Amazon Polly は文章をアメリカのアクセントがあるフランス語として発声します。

<speak> <lang xml:lang="fr-FR">Je ne parle pas français.</lang>. </speak>

Joanna はネイティブのフランス語音声ではないため、発音は、ネイティブである米国英語に基づきます。例えば、完全なフランス語の発音には、uvual tril /R/という言葉が使われています。 français、Joannaの米国英語の音声は、この音声を対応するサウンド/r/として発音します。

イタリア語を話す Giorgio の voice-id を使用する場合、次のテキストでは、Amazon Polly は Giorgio の音声でイタリア語発音を使用して文を発声します。

<speak> Mi piace Bruce Springsteen. </speak>

同じ音声を以下の <lang> タグを使用して使用すると、Amazon Polly は Bruce Springsteen をイタリア語のアクセントがある英語で発音します。

<speak> Mi piace <lang xml:lang="en-US">Bruce Springsteen.</lang> </speak>

このタグは、音声を合成する際に、任意の DefaultLangCode オプションの代わりに使用することもできます。ただし、これを行うには、テキストを SSML を使用してフォーマットする必要があります。

このタグは、ニューラル形式と標準の TTS 形式の両方でサポートされています。

Placing a Custom Tag in Your Text

<mark>

テキスト内にカスタムタグを配置するには、<mark> タグを使用します。Amazon Polly はタグに対してアクションを行いませんが、SSML メタデータ内でタグの位置を返します。このタグは、次の形式を保持している限り、任意に呼び出すことができます。

<mark name="tag_name"/>

たとえば、タグの名前が「animal」の場合、入力テキストは次のようになります。

<speak> Mary had a little <mark name="animal"/>lamb. </speak>

Amazon Polly により、次の SSML メタデータが返されます。

{"time":767,"type":"ssml","start":25,"end":46,"value":"animal"}

このタグは、ニューラル形式と標準の TTS 形式の両方でサポートされています。

Adding a Pause Between Paragraphs

<p>

テキストの段落間に一時停止を追加するには、<p> タグを使用します。このタグを使用すると、通常ネイティブスピーカーがカンマや文章の終わりで一時停止するよりも長く一時停止できます。<p> タグを使用して段落を囲みます。

<speak> <p>This is the first paragraph. There should be a pause after this text is spoken.</p> <p>This is the second paragraph.</p> </speak>

これは <break strength="x-strong"/> を使用した一時停止の指定と同等です。

このタグは、ニューラル形式と標準の TTS 形式の両方でサポートされています。

Using Phonetic Pronunciation

<phoneme>

Amazon Polly で特定のテキストに発音記号を使用するには、<phoneme> タグを使用します。

<phoneme> タグには、次の 2 つの属性が必要です。これらは、Amazon Polly が使用する音声記号と訂正された発音の発音記号を示します。

<phoneme> タグを使用すると、Amazon Polly は選択されたボイスが使用する言語にデフォルトで関連付けられた標準の発音ではなく、ph 属性で指定された発音を使用します。

たとえば、「pecan」という単語には、発音方法が 2 種類あります。次の例では、「pecan」という単語には、異なる発音が各行に割り当てられています。Amazon Polly は、デフォルトの発音ではなく、ph 属性で指定されたとおりに pecan を発音します。

国際音声記号 (IPA)

<speak> You say, <phoneme alphabet="ipa" ph="pɪˈkɑːn">pecan</phoneme>. I say, <phoneme alphabet="ipa" ph="ˈpi.kæn">pecan</phoneme>. </speak>

拡張 SAM 音声記号 (X-SAMPA)

<speak> You say, <phoneme alphabet='x-sampa' ph='pI"kA:n'>pecan</phoneme>. I say, <phoneme alphabet='x-sampa' ph='"pi.k{n'>pecan</phoneme>. </speak>

さらに標準中国語では、音声発音に拼音が使用されます。

拼音

<speak> 你说 <phoneme alphabet="x-amazon-pinyin" ph="bo2">薄</phoneme>。 我说 <phoneme alphabet="x-amazon-pinyin" ph="bao2">薄</phoneme>。 </speak>

このタグは、ニューラル形式と標準の TTS 形式の両方でサポートされています。

Controlling Volume, Speaking Rate, and Pitch

<prosody>

選択した音声の音量、速度、ピッチを制御するには、prosody タグを使用します。

音量、ピッチ、話す速度は、選択された特定の音声に依存します。異なる言語の音声間で異なるだけではなく、同じ言語を話す個々の音声にも違いがあります。このため、属性はすべての言語でもほぼ共通していますが、言語によって明らかな差異があり、絶対値はありません。

prosody タグには 3 つの属性が含まれており、それぞれに属性を設定する複数の値があります。各属性には同じ構文が使用されます。

<prosody attribute="value"></prosody>
  • volume

    • default: Resets volume to the default level for the current voice.

    • silent, x-soft, soft, medium, loud, x-loud: Sets the volume to a predefined value for the current voice.

    • +ndB, -ndB: Changes volume relative to the current level. A value of +0dB means no change, +6dB means approximately twice the current volume, and -6dB means approximately half the current volume.

    For example, you could set the volume for a passage as follows:

    <speak> Sometimes it can be useful to <prosody volume="loud">increase the volume for a specific speech.</prosody> </speak>

    Or you could set it this way:

    <speak> And sometimes a lower volume <prosody volume="-6dB">is a more effective way of interacting with your audience.</prosody> </speak>
  • rate

    • x-slow, slow, medium, fast,x-fast. Sets the pitch to a predefined value for the selected voice.

    • n%: A non-negative percentage change in the speaking rate. For example, a value of 100% means no change in speaking rate, a value of 200% means a speaking rate twice the default rate, and a value of 50% means a speaking rate of half the default rate. This value has a range of 20-200%.

    For example, you could set the speech rate for a passage as follows:

    <speak> For dramatic purposes, you might wish to <prosody rate="slow">slow up the speaking rate of your text.</prosody> </speak>

    Or you could set it this way:

    <speak> Although in some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody> </speak>
  • pitch

    • default: Resets pitch to the default level for the current voice.

    • x-low, low, medium, high, x-high: Sets the pitch to a predefined value for the current voice.

    • +n% or -n%: Adjusts pitch by a relative percentage. For example, a value of +0% means no baseline pitch change, +5% gives a little higher baseline pitch, and -5% results in a little lower baseline pitch.

    For example, you could set the pitch for a passage as follows:

    <speak> Do you like sythesized speech <prosody pitch="high">with a pitch that is higher than normal?</prosody> </speak>

    Or you could set it this way:

    <speak> Or do you prefer your speech <prosody pitch="-10%">with a somewhat lower pitch?</prosody> </speak>

<prosody> タグには属性が少なくとも 1 つ含まれている必要がありますが、同じタグ内に複数含めることができます。

<speak> Each morning when I wake up, <prosody volume="loud" rate="x-slow">I speak quite slowly and deliberately until I have my coffee.</prosody> </speak>

次のように、ネストされたタグを組み合わせることもできます。

<speak> <prosody rate="85%">Sometimes combining attributes <prosody pitch="-10%">can change the impression your audience has of a voice</prosody> as well.</prosody> </speak>

このタグは、標準の TTS 形式で完全にサポートされています。<prosody volume> タグ <prosody rate> とタグは NTTS によって完全にサポートされていますが、<prosody pitch> タグはサポートされていません。

Setting a Maximum Duration for Synthesized Speech

<prosody amazon:max-duration>

音声が合成されるときの時間を制御するには、<prosody> 属性を持つ amazon:max-duration タグを使用します。

選択した音声により、合成された音声の時間はわずかに異なります。これにより、合成音声を正確なタイミングを必要とするビジュアルやその他のアクティビティと一致させることが難しくなります。特定のフレーズが異なる言語で大きく異なることがあるため、この問題は、翻訳アプリケーションによって拡大されています。

<prosody amazon:max-duration> タグは合成された音声の時間 (長さ) と一致します。

このタグでは次の構文を使用します。

<prosody amazon:max-duration="time duration">

<prosody amazon:max-duration> タグを使用して、長さを秒またはミリ秒で指定できます。

  • ns: the maximum duration in seconds

  • nms: the maximum duration in milliseconds

たとえば、次の音声テキストの最大時間は 2 秒です。

<speak> <prosody amazon:max-duration="2s"> Human speech is a powerful way to communicate. </prosody> </speak>

タグ内に配置されたテキストは、指定された時間を超えません。選択した音声または言語が通常その時間より長くかかる場合は、Amazon Polly は指定された時間に収まるように音声の速度を上げます。

指定された時間が、通常のレートでテキストを読み上げる時間より長い場合、Amazon Polly は通常通りに音声を読み上げます。音声の速度を下げたり、無音が追加されることはありませんので、生成される音声はリクエストされたものよりも短くなります。

注記

Amazon Polly は通常のレートの 5 倍以上に速度を上げません。これより速くテキストを読み上げることには、通常意味がありません。最大の速さまで速度を上げても指定された時間内に収まらない場合は、速度が上げられますが、音声は指定された時間よりも長くなります。

<prosody amazon:max-duration> タグ内に 1 つの文または複数の文を含めることができ、テキスト内で複数の <prosody amazon:max-duration> タグを使用できます。

たとえば、 と指定します。

<speak> <prosody amazon:max-duration="2400ms"> Human speech is a powerful way to communicate. </prosody> <break strength="strong"/> <prosody amazon:max-duration="5100ms"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> <break strength="strong"/> <prosody amazon:max-duration="8900ms"> We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient. </prosody> </speak>

<prosody amazon:max-duration> タグを使用して、Amazon Polly が合成された音声を返す際のレイテンシーを向上させることができます。レイテンシーの度合いは、文章およびその長さによって異なります。比較的短い文章で構成されたテキストを使用することをお勧めします。

Limitations

<prosody amazon:max-duration> タグの使用方法、および他の SSML タグがどのように動作するかの両方で、それぞれ制限があります。

  • The text inside a <prosody amazon:max-duration> tag can't be longer than 1500 characters.

  • You can't nest <prosody amazon:max-duration> tags. If you put one <prosody amazon:max-duration> tag inside another, Amazon Polly ignores the inner tag.

    For example, in the following, the <prosody amazon:max-duration="5s"> tag is ignored:

    <speak> <prosody amazon:max-duration="16s"> Human speech is a powerful way to communicate. <prosody amazon:max-duration="5s"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient. </prosody> </speak>
  • You can't use the <prosody> tags with the rate attribute within a <prosody amazon:max-duration> tag. This is because both affect the speed at which text is spoken.

    In the following example, Amazon Polly ignores the <prosody rate="2"> tag:

    <speak> <prosody amazon:max-duration="7500ms"> Human speech is a powerful way to communicate. <prosody rate="2"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> </prosody> </speak>

Pauses and max-duration

max-duration タグを使用する場合は、テキスト内に一時停止を挿入できます。ただし、Amazon Polly は、音声の最大時間を計算する際に一時停止の長さを含めます。さらに、Amazon Polly では、文章内にカンマおよびピリオドがある場合に発生する短い一時停止が保持され、最長時間に含められます。

たとえば、次のブロックでは、8 秒内の音声で、600 ミリ秒の休止と、カンマおよびピリオドが原因で発生する休止が発生します。

<speak> <prosody amazon:max-duration="8s"> Human speech is a powerful way to communicate. <break time="600ms"/> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> </speak>

このタグは現在、標準の TTS 形式でのみサポートされています。

Adding a Pause Between Sentences

<s>

テキストの行または文章間に一時停止を追加するには、<s> タグを使用します。このタグは、以下と同じ効果があります。

  • Ending a sentence with a period (.)

  • Specifying a pause with <break strength="strong"/>

<break> タグとは異なり、<s> タグは文を囲みます。これは、文ではなく、詩のように複数の行で編成された音声合成に便利です。

次の例では、<s> タグは、1 文目と 2 文目の後に、それぞれ短い一時停止を作成します。最後の文には、<s> タグはありませんが、ピリオドで終わっているため、その後に短い一時停止があります。

<speak> <s>Mary had a little lamb</s> <s>Whose fleece was white as snow</s> And everywhere that Mary went, the lamb was sure to go. </speak>

このタグは、ニューラル形式と標準の TTS 形式の両方でサポートされています。

Controlling How Special Types of Words Are Spoken

<say-as>

interpret-as 属性を指定した <say-as> タグを使用して、特定の文字、単語、および数字を発声する方法を Amazon Polly に指示します。これにより、コンテキストを追加して、Amazon Polly でのテキストのレンダリングのあいまいさを排除できます。

say-as タグは <interpret-as> という 1 つの属性を使用します。この属性にはさまざまな値を使用できます。それぞれには同じ構文が使用されます。

<say-as interpret-as="value">[text to be interpreted]</say-as>

次の値を interpret-as で使用できます。

  • characters or spell-out: Spells out each letter of the text, as in a-b-c.

    注記

    This option is not currently supported using neural voices. If this SSML code is encountered by Amazon Polly at run-time, the affected sentence will be synthesized using the related standard voice. Please note, however, that this sentence will still be billed as if it uses the neural voice.

  • cardinal or number: Interprets the numerical text as a cardinal number, as in 1,234.

  • ordinal: Interprets the numerical text as an ordinal number, as in 1,234th.

  • digits: Spells out each digit individually, as in 1-2-3-4.

  • fraction: Interprets the numerical text as a fraction. This works for both common fractions such as 3/20, and mixed fractions, such as 2 ½. See below for more information.

  • unit: Interprets a numerical text as a measurement. The value should be either a number or a fraction followed by a unit with no space in between as in 1/2inch, or by just a unit, as in 1meter.

  • date: Interprets the text as a date. The format of the date must be specified with the format attribute. See below for more information.

  • time: Interprets the numerical text as duration, in minutes and seconds, as in 1'21".

  • address: Interprets the text as part of a street address.

  • expletive: "Beeps out" the content included within the tag.

  • telephone: Interprets the numerical text as a 7-digit or 10-digit telephone number, as in 2025551212. You can also use this value for handle telephone extensions, as in 2025551212x345. See below for more information.

    注記

    Currently the telephone option is not available for all languages. However, it is available for voices speaking English language variants (en-AU, en-GB, en-IN, en-US, and en-GB-WLS), Spanish language variants (es-ES, es-MX, and es-US), French language variants (fr-FR and fr-CA), and Portuguese variants (pt-BR and pt-PT), as well as German (de-DE), Italian (it-IT), Japanese (ja-JP), and Russian (ru-RU). It should also be noted that in some cases, languages such as Arabic (arb) automatically handle the number set as a telephone number and so do not actually implement the telephone SSML tag.

Fractions

Amazon Polly は interpret-as="fraction" 属性を持つ say-as タグ内の値を一般的な分数として解釈します。次に、分数の構文を示します。

  • Fraction

    Syntax: cardinal number/cardinal number, such as 2/9.

    For example: <say-as interpret-as="fraction">2/9</say-as> is pronounced "two ninths."

  • Non-negative Mixed Number

    Syntax: cardinal number+cardinal number/cardinal number, such as 3+1/2.

    For example, <say-as interpret-as="fraction">3+1/2</say-as> is pronounced "three and a half."

    注記

    There must be a + between the "3" and the "1/2". Amazon Polly doesn't support a mixed number without the +, such as "3 1/2".

Dates

interpret-asdate に設定されている場合は、上記と合わせて、日付の形式を示す必要があります。

次の構文を使用します。

<say-as interpret-as="date" format="format">[date]</say-as>

たとえば、 と指定します。

<speak> I was born on <say-as interpret-as="date" format="mdy">12-31-1900</say-as>. </speak>

以下の形式は、date 属性で使用できます。

  • mdy: Month-day-year.

  • dmy: Day-month-year.

  • ymd: Year-month-day.

  • md: Month-day.

  • dm: Day-month.

  • ym: Year-month.

  • my: Month-year.

  • d: Day.

  • m: Month.

  • y: Year.

  • yyyymmdd: Year-month-day. If you use this format, you can make Amazon Polly skip parts of the date using question marks.

    For example, Amazon Polly renders the following as "September 22nd":

    <say-as interpret-as="date">????0922</say-as>

    Format is not needed.

Telephone

Amazon Polly では、<say-as> タグが使用されていなくても、テキストの形式に基づいて正しく入力されたテキストとして解釈するよう試みます。たとえば、テキストに「202-555-1212」が含まれている場合、Amazon Polly は、これを 10 桁の電話番号として解釈し、各桁を個別に読み上げ、ダッシュ部分には短い一時停止を挟みます。この場合、 <say-as interpret-as="telephone">。 ただし、「2025551212」というテキストを入力し、 Amazon Polly 電話番号として伝えるには、 <say-as interpret-as="telephone">.

各要素を解釈するロジックは、言語固有です。たとえば、米国英語と英国英語は、電話番号の発音が異なります (英国英語では、同一数字の連続はまとめて発音される。「double five」や「triple four」など)。違いを確認するには、次の例をアメリカの音声とイギリスの音声でテストします。

<speak> Richard's number is <say-as interpret-as="telephone">2122241555</say-as> </speak>

「文字」または「スペルアウト」機能を除いて、このタグはニューラル形式と標準的な TTS 形式の両方でサポートされています。この SSML コードで実行時に Amazon Polly が発生した場合、影響を受ける文は関連する標準音声を使用して合成されます。ただし、この文は、ニューラル音声を使用している場合と同様に課金されることに注意してください。

Pronouncing Acronyms and Abbreviations

<sub>

<sub> 属性を指定した alias タグを使用して、頭字語や略語など指定のテキストを別の単語 (または発音) に置き換えます。

次の構文を使用します。

<sub alias="new word">abbreviation</sub>

次の例では、「Mercury」という名前が要素の化学記号に置き換えられ、音声コンテンツがより明確になります。

<speak> My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny. </speak>

このタグは、ニューラル形式と標準の TTS 形式の両方でサポートされています。

Improving Pronunciation by Specifying Parts of Speech

<w>

<w> タグを使用して単語の発音をカスタマイズするには、単語の品詞または別の意味を指定します。その際、role 属性を使用します。

このタグでは次の構文を使用します。

<w role="attribute">text</w>

以下の値は、role 属性に使用できます。

品詞を指定するには:

  • amazon:VB: interprets the word as a verb (present simple).

  • amazon:VBD: interprets the word as past tense verb.

  • amazon:DT: interprets the word as a determiner.

  • amazon:IN: interprets the word as a proposition.

  • amazon:JJ: interprets the word as an adjective.

  • amazon:NN: interprets the word as a noun.

たとえば、品詞で解釈する場合、米国英語の「read」という単語の発音はタグに応じて変わります。

<speak> The word <say-as interpret-as="characters">read</say-as> may be interpreted as either the present simple form <w role="amazon:VB">read</w>, or the past participle form <w role="amazon:VBD">read</w>. </speak>

特定の意味を指定するには:

  • amazon:DEFAULT: uses the default sense of the word.

  • amazon:SENSE_1: uses the non-default sense of the word when present. For example, the noun "bass" is pronounced differently depending on its meaning. The default meaning is the lowest part of the musical range. The alternate meaning is a species of freshwater fish, also called "bass" but pronounced differently. Using <w role="amazon:SENSE_1">bass</w> renders the non-default pronunciation (freshwater fish) for the audio text.

発音と意味におけるこの違いは、以下を合成すると聞こえます。

<speak> Depending on your meaning, the word <say-as interpret-as="characters">bass</say-as> may be interpreted as either a musical element: bass, or as its alternative meaning, a freshwater fish <w role="amazon:SENSE_1">bass</w>. </speak>
注記

言語によっては、サポートされる品詞が異なる場合があります。

このタグは、ニューラル形式と標準の TTS 形式の両方でサポートされています。

Adding the Sound of Breathing

<amazon:breath> and <amazon:auto-breaths>

自然な音声には、正しく発話された単語と呼吸音の両方が含まれています。合成音声に呼吸音を追加することで、自然音に近づけることができます。<amazon:breath> タグと <amazon:auto-breaths> タグは呼吸音を提供します。次のオプションがあります。

  • Manual mode: you set the location, length, and volume of a breath sound within the text

  • Automated mode: Amazon Polly automatically inserts breathing sounds into the speech output

  • Mixed mode: both you and Amazon Polly add breathing sounds

手動モード

手動モードでは、入力テキスト内の呼吸音の挿入先に <amazon:breath/> タグを配置します。呼吸音の長さとボリュームは、duration 属性と volume 属性でそれぞれカスタマイズできます。

  • duration: Controls the length of the breath. Valid values are: default, x-short, short, medium, long, x-long. The default value is medium.

  • volume: Controls how loud breathing sounds. Valid values are: default, x-soft, soft, medium, loud, x-loud. The default value is medium.

注記

各属性値の正確な長さとボリュームは、使用する特定の Amazon Polly 音声に依存します。

デフォルト値を使用して呼吸音を設定するには、属性を設定しないで <amazon:breath/> を使用します。

たとえば、属性を使用して呼吸音の長さとボリュームを medium に設定するには、次のように属性を設定します。

<speak> Sometimes you want to insert only <amazon:breath duration="medium" volume="x-loud"/>a single breath. </speak>

デフォルト値を使用するには、次のタグのみを使用します。

<speak> Sometimes you need <amazon:breath/>to insert one or more average breathes <amazon:breath/> so that the text sounds correct. </speak>

複数の個別の呼吸音を節内に追加するには、次のように設定します。

<speak> <amazon:breath duration="long" volume="x-loud"/> <prosody rate="120%"> <prosody volume="loud"> Wow! <amazon:breath duration="long" volume="loud"/> </prosody> That was quite fast <amazon:breath duration="medium" volume="x-loud"/>. I almost beat my personal best time on this track. </prosody> </speak>

自動モード

自動モードでは、<amazon:auto-breaths> タグを使用して、適切な間隔で呼吸音を自動的に作成するように Amazon Polly に指示します。間隔の頻度、ボリューム、および長さを設定できます。自動の呼吸音の適用先であるテキストの先頭に </amazon:auto-breaths> タグを配置し、最後に終了タグを配置します。

注記

手動モードのタグである <amazon:breath/> とは異なり、<amazon:auto-breaths> タグには終了タグ (</amazon:auto-breaths>) が必要です。

<amazon:auto-breaths> タグでは、以下のオプションの属性を使用できます。

  • volume: Controls how loud the breathing sounds. Valid values are: default, x-soft, soft, medium, loud, x-loud. The default value is medium.

  • frequency: Controls how often breathing sounds occur in the text. Valid values are: default, x-low, low, medium, high, x-high. The default value is medium.

  • duration: Controls the length of the breath. Valid values are: default, x-short, short, medium, long, x-long. The default value is medium.

デフォルトでは、呼吸音の頻度は入力テキストに依存します。ただし、通常、呼吸音はカンマやピリオドの後に発生します。

以下の例では、<amazon:auto-breaths> タグの使用方法を示します。コンテンツに使用するオプションを決定するには、該当する例を Amazon Polly コンソールにコピーし、差異を聞き比べます。

  • Using automated mode without optional parameters.

    <speak> <amazon:auto-breaths>Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech- enabled products. Amazon Polly is a text-to-speech service that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths> </speak>
  • Using automated mode with volume control. The unspecified parameters (duration and frequency) are set to the default values (medium).

    <speak> <amazon:auto-breaths volume="x-soft">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths> </speak>
  • Using automated mode with frequency control. The unspecified parameters (duration and volume) are set to the default values (medium).

    <speak> <amazon:auto-breaths frequency="x-low">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths> </speak>
  • Using automated mode with multiple parameters. For the unspecified Duration parameter, Amazon Polly uses the default value (medium).

    <speak> <amazon:auto-breaths volume="x-loud" frequency="x-low">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech-enabled applications that work in many different countries.</amazon:auto-breaths> </speak>

このタグは現在、標準の TTS 形式でのみサポートされています。

Conversational speaking style

<amazon:domain name="conversational">

会話型の話し方は、Matthew または Joanna の音声でのみ提供され、Neural 形式のアメリカ英語 (en-US) でのみ利用できます。

会話型の話し方を使用するには、SSML タグと以下の構文を使用します。

<amazon:domain name="conversational">text</amazon:domain>

たとえば、以下のように Matthew または Joanna の音声の会話型の話し方を使用できます。

<speak> <amazon:domain name="conversational"> I really didn't know how this morning was going to start. And if I had known, I think I might have just stayed in bed. Even with a cat sleeping on my head and my dog deciding I really didn't need to move my legs and falling asleep across both of them. As it was, I stayed there as long as my bladder would let me. </amazon:domain> </speak>

Newscaster speaking style

<amazon:domain name="news">

ニュースキャスタースタイルは、アメリカ英語 (en-US) の Matthew または Joanna の音声、およびスペイン語 (es-ES) の Lupe の音声で利用できます。このスタイルは Neural 形式を使用する場合にのみサポートされます。

ニュースキャスタースタイルを使用するには、SSML タグと次の構文を使用します。

<amazon:domain name="news">text</amazon:domain>

たとえば、以下のようにニュースキャスタースタイルを Matthew の音声で利用できます。

<speak> <amazon:domain name="news"> From the Tuesday, April 16th, 1912 edition of The Guardian newspaper: The maiden voyage of the White Star liner Titanic, the largest ship ever launched, has ended in disaster. The Titanic started her trip from Southampton for New York on Wednesday. Late on Sunday night she struck an iceberg off the Grand Banks of Newfoundland. By wireless telegraphy she sent out signals of distress, and several liners were near enough to catch and respond to the call. </amazon:domain> </speak>

Adding Dynamic Range Compression

<amazon:effect name="drc">

オーディオファイルで使用されるテキスト、言語、および音声に応じて、音はソフトなものから大音量なものまでさまざまです。移動する車両の音などの環境音は、しばしばよりソフトな音を遮蔽することがあり、それによってオーディオトラックがはっきりと聞こえにくくなります。オーディオファイルの特定の音量を上げるには、ダイナミックレンジ圧縮 (drc) タグを使用します。

drc タグは、オーディオのミッドレンジの「ラウドネス」しきい値を設定し、そのしきい値前後のサウンドの音量 (ゲイン) を上げます。これは、しきい値に最も近いゲインを最大にして、しきい値から遠いゲインを最小にします。


                    ダイナミックレンジの圧縮は、一定のしきい値付近の音量を上げます。

これにより、ノイズの多い環境でミドルレンジのサウンドが聞き取りやすくなり、オーディオファイル全体がより明確になります。

drc タグはブールパラメータです (存在するかどうか)。構文を使用します。<amazon:effect name="drc"> でクローズ </amazon:effect>.

drc タグは、Amazon Polly でサポートされている任意の音声または言語で使用できます。録音のセクション全体に適用することも、数語だけに適用することもできます。たとえば、 と指定します。

<speak> Some audio is difficult to hear in a moving vehicle, but <amazon:effect name="drc"> this audio is less difficult to hear in a moving vehicle.</amazon:effect> </speak>
注記

構文で「drc」を使用する場合、大文字と小文字が区別されます。amazon:effect

drcprosody volume タグで使用する

次の図に示すように、prosody volume タグは、オーディオファイル全体の音量を元のレベル (点線) から調整レベル (実線) に均等に上げます。 ファイルの特定の部分の音量をさらに上げるには、drc タグを prosody volume タグとともに使用します。タグを組み合わせても prosody volume タグの設定には影響しません。


                    の使用 prosody volume タグはオーディオファイル全体の音量を上げます。

drc タグと prosody volume タグを一緒に使用すると、Amazon Polly は drc タグを最初に適用し、中音域 (しきい値付近) の音量を上げます。 次に、prosody volume タグを適用し、オーディオトラック全体の音量をさらに上げます。


                    の使用 drc タグと prosody volume タグは、オーディオトラック全体の音量に加えて、中音域の音量も上げます。

タグを一緒に使用するには、一方を他方の内側に入れます。たとえば、 と指定します。

<speak> <prosody volume="loud">This text needs to be understandable and loud. <amazon:effect name="drc"> This text also needs to be more understandable in a moving car.</amazon:effect></prosody> </speak>

このテキストでは、prosody volume タグは、全体の音量を「大音量」に上げます。drc タグは、2 番目の文の中音域の音量を上げます。

注記

drc タグと prosody volumeタグを一緒に使用する場合は、入れ子タグに標準の XML プラクティスを使用します。

このタグは、ニューラル形式と標準の TTS 形式の両方でサポートされています。

Speaking Softly

<amazon:effect phonation="soft">

入力テキストを通常の音声よりも柔らかく発声するように指定するには、<amazon:effect phonation="soft"> タグを使用します。

次の構文を使用します。

<amazon:effect phonation="soft">text</amazon:effect>

たとえば、Matthew の音声でこのタグを次のように使用してみます。

<speak> This is Matthew speaking in my normal voice. <amazon:effect phonation="soft">This is Matthew speaking in my softer voice.</amazon:effect> </speak>

このタグは現在、標準の TTS 形式でのみサポートされています。

Controlling Timbre

<amazon:effect vocal-tract-length>

声質 (Timbre) は、同じ音程とラウドネスを持っている場合でも、音声の違いを伝えるのに役立つ音声の音質です。音声の音色に影響する最も重要な生理機能の 1 つは、声道の長さです。声道は、声帯上部から唇の端までにおよぶ空気の通り道です。

Amazon Polly の出力音声の音色を制御するには、vocal-tract-length タグを使用します。このタグには、話し手の声道の長さを変更して、話し手の声の大きさが変化したように聞こえる効果があります。vocal-tract-length を大きくすると、話し手の声が物理的に大きく聞こえます。このタグを小さくすると、話し手の声も小さく聞こえます。 このタグは、Amazon Polly のテキスト読み上げポートフォリオのいずれの声にも使用できます。

声質を変更するには、次の値を使用します。

  • +n% or -n%: Adjusts the vocal tract length by a relative percentage change in the current voice. For example, +4% or -2%. Valid values range from +100% to -50%. Values outside this range are clipped. For example, +111% sounds like +100% and -60% sounds like -50%.

  • n%: Changes the vocal tract length to an absolute percentage of the tract length of the current voice. For example, 110% or 75%. An absolute value of 110% is equivalent to a relative value of +10%. An absolute value of 100% is the same as the default value for the current voice.

次の例は、声帯の長さを変更して音色を変更する方法を示しています。

<speak> This is my original voice, without any modifications. <amazon:effect vocal-tract-length="+15%"> Now, imagine that I am much bigger. </amazon:effect> <amazon:effect vocal-tract-length="-15%"> Or, perhaps you prefer my voice when I'm very small. </amazon:effect> You can also control the timbre of my voice by making minor adjustments. <amazon:effect vocal-tract-length="+10%"> For example, by making me sound just a little bigger. </amazon:effect><amazon:effect vocal-tract-length="-10%"> Or, making me sound only somewhat smaller. </amazon:effect> </speak>

Combining Multiple Tags

vocal-tract-length タグは、Amazon Polly でサポートされている他の SSML タグと組み合わせることができます。声質 (声道の長さ) とピッチが密接に結びついているので、vocal-tract-length タグと <prosody pitch> タグの両方を使用すると、最良の結果が得られます。最もリアルな音声を生成するために、2 つのタグの変化のパーセンテージを使用することをお勧めします。さまざまな組み合わせを試して、必要な結果を得ます。

次の例は、タグを結合する方法を示しています。

<speak> The pitch and timbre of a person's voice are connected in human speech. <amazon:effect vocal-tract-length="-15%"> If you are going to reduce the vocal tract length, </amazon:effect><amazon:effect vocal-tract-length="-15%"> <prosody pitch="+20%"> you might consider increasing the pitch, too. </prosody></amazon:effect> <amazon:effect vocal-tract-length="+15%"> If you choose to lengthen the vocal tract, </amazon:effect> <amazon:effect vocal-tract-length="+15%"> <prosody pitch="-10%"> you might also want to lower the pitch. </prosody></amazon:effect> </speak>

このタグは現在、標準の TTS 形式でのみサポートされています。

Whispering

<amazon:effect name="whispered">

このタグは、入力テキストを通常の音声ではなく、ささやき声で読み上げることを表します。このタグは、Amazon Polly のテキスト読み上げポートフォリオのいずれの声にも適用できます。

次の構文を使用します。

<amazon:effect name=”whispered”>text</amazon:effect>

たとえば、 と指定します。

<speak> <amazon:effect name="whispered">If you make any noise, </amazon:effect> she said, <amazon:effect name="whispered">they will hear us.</amazon:effect> </speak>

この場合、合成された音声はささやき声で読み上げられますが、「she said」というフレーズは、選択された Amazon Polly 音声の通常の合成音声で発声されます。

必要に応じて、話速を最大 10% 低下させることで、「ささやき」効果を強めることができます。

たとえば、 と指定します。

<speak> When any voice is made to whisper, <amazon:effect name="whispered"> <prosody rate="-10%">the sound is slower and quieter than normal speech </prosody></amazon:effect> </speak>

ささやかれた音声のスピーチマークを生成するときは、音声ストリームには、スピーチマークが音声ストリームに一致するよう、ささやかれた音声を含める必要があります。

このタグは現在、標準の TTS 形式でのみサポートされています。