支援的 SSML 標籤 - Amazon Polly

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的 SSML 標籤

Amazon Polly 支持以下 SSML 標籤:

動作 SSML 標籤 神經聲音的可用性 長格式語音的可用性 生成式語音的可用性

新增暫停

<break>

完整可用性

完整可用性

完整可用性

強調單詞

<emphasis>

不適用

不適用

不適用

為特定單字指定其他語言

<lang>

完整可用性

完整可用性

完整可用性

在文字中放置自訂標籤

<mark>

完整可用性

完整可用性

完整可用性

在段落之間加入暫停

<p>

完整可用性

完整可用性

完整可用性

使用語音發音

<phoneme>

完整可用性

完整可用性

控制音量、朗讀速度和音高

<prosody>

部分可用性

部分可用性

設定合成語音的最長持續時間

<prosody amazon:max-duration>

不適用

不適用

不適用

在句子之間添加暫停

<s>

完整可用性

完整可用性

完整可用性

控制特殊類型的單詞的說法

<say-as>

部分可用性

部分可用性

部分可用性

識別 SSML 增強型文字

<speak>

完整可用性

完整可用性

完整可用性

發音首字母縮寫詞和縮寫

<sub>

完整可用性

完整可用性

完整可用性

通過指定部分語音來改善發音

<w>

完整可用性

完整可用性

完整可用性

加入呼吸的聲音

<amazon:auto-breaths>

不適用

不適用

不適用

新聞播報員說話風格

<amazon:domain name="news">

僅選取神經語音

不適用

不適用

新增動態範圍壓縮

<amazon:effect name="drc">

完整可用性

完整可用性

輕聲地說話

<amazon:effect phonation="soft">

不適用

不適用

不適用

控制音色

< 亞馬遜 vocal-tract-length:效果 >

不適用

不適用

不適用

輕聲低語

<amazon:effect name="whispered">

不適用

不適用

不適用

注意

如果您以標準、神經或長格式格式使用不支援的 SSML 標籤,就會收到錯誤訊息。

識別 SSML 增強型文字

<speak>

此標籤由生成、長格式、神經和標準 TTS 格式支援。

<speak>籤是所有 Amazon Polly SSML 文本的根元素。所有 SSML 增強文字必須包含在一組 <speak> 標籤中。

<speak>Mary had a little lamb.</speak>

新增暫停

<break>

此標籤由生成、長格式、神經和標準 TTS 格式支援。

若要在文字中加入停頓,請使用 <break> 標籤。您可以根據強度設定停頓 (等同於逗號、句子或段落後的停頓),或者您可以將它設定為以秒或毫秒計算的特定時間長度。如果您沒有指定屬性來決定暫停長度,Amazon Polly 會使用預設值<break strength="medium"/>,也就是在逗號後加上暫停的長度。

strength 屬性值:

  • none:無停頓。使用 none 可移除正常發生的停頓,例如在句點之後的停頓。

  • x-weak:具有 none 相同的強度,無停頓。

  • weak:設定和逗號後的停頓相同持續時間的停頓。

  • medium:具有 weak 相同的強度。

  • strong:設定和句子後的停頓相同持續時間的停頓。

  • x-strong:設定和段落後的停頓相同持續時間的停頓。

time 屬性值:

  • [number]s:停頓期間,以秒為單位。最大期間為 10s

  • [number]ms:停頓期間,以毫秒為單位。最大期間為 10000ms

例如:

<speak> Mary had a little lamb <break time="3s"/>Whose fleece was white as snow. </speak>

如果未搭配 break 標籤來使用屬性,結果會因文字內容而有所不同:

  • 如果 break 標籤旁沒有其他標點符號,該標籤會建立 <break strength="medium"/> (逗號長度停頓)。

  • 如果標籤旁邊有逗號,會將標籤升級為 <break strength="strong"/> (句子長度停頓)。

  • 如果標籤旁邊有句點,會將標籤升級為 <break strength="x-strong"/> (段落長度停頓)。

強調單詞

<emphasis>

只有標準 TTS 格式才支援此標籤。

若要強調文字,請使用 <emphasis> 標籤。強調文字會變更語音速度和音量。更多的重點使得 Amazon Polly 說文本更響亮和更慢。強調程度越小,則會更安靜、更迅速說出。若要指定強調程度,請使用 level 屬性。

level 屬性值:

  • Strong:提高音量並減慢說話的速度,讓語音更大聲、更緩慢。

  • Moderate:提高音量並減慢說話的速度,但幅度比 strong 還小。Moderate 是預設值。

  • Reduced:降低音量並加快說話的速度。語音更輕柔、更快速。

注意

聲音的正常講話速度和音量落在 moderatereduced 等級之間。

例如:

<speak> I already told you I <emphasis level="strong">really like</emphasis> that person. </speak>

為特定單字指定其他語言

<lang>

此標籤由生成、長格式、神經和標準 TTS 格式支援。

使用 <lang> 標籤可指定特定文字、片語或句子的其他語言。外國語言文字和片語以一組 <lang> 標籤括住時,語音轉譯的表現一般都會比較好。若要指定語言,請使用 xml:lang 屬性。如需可用語言的完整清單,請參閱Amazon Polly 语言

除非套用 <lang> 標籤,否則輸入文字中的所有字詞,都會以 voice-id 指定的語音語言說出。如果您套用 <lang> 標籤,文字會以該語言說出。

例如,如果voice-id是喬安娜(誰說美國英語),Amazon Polly 在沒有法國口音的喬安娜的聲音說以下內容:

<speak> Je ne parle pas français. </speak>

如果您使用帶有<lang>標籤的喬安娜語音,Amazon Polly 用美國口音的法語講喬安娜語音的句子:

<speak> <lang xml:lang="fr-FR">Je ne parle pas français.</lang>. </speak>

由於 Joanna 不是以法文為母語,發音會以其母語語言 (美式英文) 為主。例如,完美的法語發音在發出文字 français 的 /R/ 時會帶有小舌顫音,但 Joanna 的美式英文語音則會發音為對應的聲音 /r/。

如果您使用講義大利語的喬治(Giorgio)帶有以下文字,Amazon Polly 會以義大利語發音以喬治的聲音說出句子:voice-id

<speak> Mi piace Bruce Springsteen. </speak>

如果您使用帶有以下<lang>標籤的相同聲音,Amazon Polly 會以意大利語重音的英語發音布魯斯·斯普林斯汀:

<speak> Mi piace <lang xml:lang="en-US">Bruce Springsteen.</lang> </speak>

在合成語音時,此標籤也可用作DefaultLangCode選擇性選項的替代品。不過,這樣就需要使用 SSML 來設定文字的格式。

在文字中放置自訂標籤

<mark>

此標籤由生成、長格式、神經和標準 TTS 格式支援。

若要在文字中放置自訂標籤,請使用<mark>標籤。Amazon Polly 不會對標籤採取任何動作,但會傳回 SSML 中繼資料中標籤的位置。只要維持以下格式,此標籤可以是您想呼叫的任何項目:

<mark name="tag_name"/>

例如,假設標籤名稱為「動物」,而輸入文字是:

<speak> Mary had a little <mark name="animal"/>lamb. </speak>

Amazon Polly 可能會返回以下 SSML 元數據:

{"time":767,"type":"ssml","start":25,"end":46,"value":"animal"}

在段落之間加入暫停

<p>

此標籤由生成、長格式、神經和標準 TTS 格式支援。

若要在文字的段落之間加入停頓,請使用 <p> 標籤。使用此標籤可提供比母語人士通常在逗號或句子結尾處所用停頓更長的停頓時間。使用 <p> 標籤來括住段落:

<speak> <p>This is the first paragraph. There should be a pause after this text is spoken.</p> <p>This is the second paragraph.</p> </speak>

這相當於使用 <break strength="x-strong"/> 來指定停頓。

使用語音發音

<phoneme>

此標籤由長格式、神經和標準 TTS 格式支援。

<phoneme>若要讓 Amazon Polly 針對特定文字使用語音發音,請使用標籤。

<phoneme> 標籤需要兩個屬性。這些屬性表示 Amazon Polly 使用的語音字母,以及修正發音的音標:

  • alphabet

    • ipa— 指出要使用的國際音標 (IPA)

    • x-sampa— 指出要使用的拓展音標字母評估法 (X-SAMPA)。

  • ph

透過標<phoneme>籤,Amazon Polly 會使用ph屬性指定的發音,而不是預設與所選語音使用的語言相關聯的標準發音。

例如,文字「pecan」可用兩種方式發音。在下面的例子中,「山核桃」在每行中分配了不同的發音。Amazon Polly 按照ph屬性中指定的發音發音山核桃,而不是使用默認的發音。

國際音標 (IPA)

<speak> You say, <phoneme alphabet="ipa" ph="pɪˈkɑːn">pecan</phoneme>. I say, <phoneme alphabet="ipa" ph="ˈpi.kæn">pecan</phoneme>. </speak>

拓展音標字母評估法 (X-SAMPA)

<speak> You say, <phoneme alphabet='x-sampa' ph='pI"kA:n'>pecan</phoneme>. I say, <phoneme alphabet='x-sampa' ph='"pi.k{n'>pecan</phoneme>. </speak>

普通話中文使用拼音作為語音發音。

拼音

<speak> 你说 <phoneme alphabet="x-amazon-pinyin" ph="bo2">薄</phoneme>。 我说 <phoneme alphabet="x-amazon-pinyin" ph="bao2">薄</phoneme>。 </speak>

日語使用讀賀名和發音假名。

讀花名

<speak> 名前は<phoneme alphabet="x-amazon-yomigana" ph="ひろかず">浩一</phoneme>です。 名前は<phoneme alphabet="x-amazon-yomigana" ph="ヒロカズ">浩一</phoneme>です。 名前は<phoneme alphabet="x-amazon-yomigana" ph="Hirokazu">浩一</phoneme>です。 </speak>

發音假名

<speak> 名前は<phoneme alphabet="x-amazon-pron-kana" ph="ヒロ'カズ">浩一</phoneme>です。 </speak>

控制音量、朗讀速度和音高

<prosody>

標準 TTS 語音完全支援韻律標籤屬性。神經和長篇聲音支持volumerate屬性,但不支持該pitch屬性。

若要控制所選語音的音量、速度或音調,請使用 prosody 標籤。

音量、說話速度和音調取決於選擇的特定語音。除了不同語言語音之間的差異,講相同語言的各個語音之間也存在差異。因此,雖然所有語言的屬性類似,但各語言間有明顯變化,因此沒有絕對值可用。

prosody 標籤有三個屬性,三個屬性都有數個可用值來設定屬性。每個屬性使用相同的語法:

<prosody attribute="value"></prosody>

  • volume

    • default:重設音量為目前語音的預設音量。

    • silentx-softsoftmediumloudx-loud:將音量設定為目前語音的預先定義值。

    • +ndB-ndB:根據目前音量來變更音量。+0dB 的值代表無變動,+6dB 表示大約目前音量的兩倍,-6dB 則是指大約目前音量的一半。

    例如,您可以設定一個段落的音量,如下所示:

    <speak> Sometimes it can be useful to <prosody volume="loud">increase the volume for a specific speech.</prosody> </speak>

    或者,您可以用下列方式來設定音量:

    <speak> And sometimes a lower volume <prosody volume="-6dB">is a more effective way of interacting with your audience.</prosody> </speak>
  • rate

    • x-slowslowmediumfastx-fast。 將音調設定為所選語音的預先定義值。

    • n%:說話速度的非負值百分比變更。例如,100% 表示說話速度無變化,200% 表示說話速度是預設速度的兩倍,以及 50% 表示說話速度率是預設速度的一半。這個值的範圍為 20 到 200%。

    例如,您可以設定一個段落的說話速度,如下所示:

    <speak> For dramatic purposes, you might wish to <prosody rate="slow">slow up the speaking rate of your text.</prosody> </speak>

    或者,您可以用下列方式來設定音量:

    <speak> Although in some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody> </speak>
  • pitch

    • default:重設音調為目前語音的預設層級。

    • x-lowlowmediumhighx-high:設定音調為目前語音的預先定義值。

    • +n%-n%:利用相對百分比來調整音調。例如,+0% 的值代表基準音高未變,+5% 會將基準音高提高一些,而 -5% 則會使基準音高降低一些。

    例如,您可以設定一個段落的音調,如下所示:

    <speak> Do you like sythesized speech <prosody pitch="high">with a pitch that is higher than normal?</prosody> </speak>

    或者,您可以用下列方式來設定音量:

    <speak> Or do you prefer your speech <prosody pitch="-10%">with a somewhat lower pitch?</prosody> </speak>

<prosody> 標籤必須至少包含一個屬性,但在相同標籤中可以包含多個屬性。

<speak> Each morning when I wake up, <prosody volume="loud" rate="x-slow">I speak quite slowly and deliberately until I have my coffee.</prosody> </speak>

也可以和巢狀標籤結合使用,如下所示:

<speak> <prosody rate="85%">Sometimes combining attributes <prosody pitch="-10%">can change the impression your audience has of a voice</prosody> as well.</prosody> </speak>

設定合成語音的最長持續時間

<prosody amazon:max-duration>

目前只有標準 TTS 格式支援此標籤。

若要控制語音合成時的持續時間長度,請使用 <prosody> 標籤搭配 amazon:max-duration 屬性。

取決於您所選擇的語音,合成語音的持續時間長度會稍有不同。因此,如果要將合成的語音,對應到視覺效果或需要精準對時的其他活動,可能會有點困難。對翻譯應用程式而言,這項問題會更嚴重,因為不同語言說出特定詞組所需的時間,可能會有很大的差異。

<prosody amazon:max-duration> 標籤會將合成語音對應到您所要的持續時間長度。

此標籤使用以下語法:

<prosody amazon:max-duration="time duration">

使用 <prosody amazon:max-duration> 標籤,您可以指定持續時間長度 (秒或毫秒):

  • ns:持續時間長度上限 (以秒為單位)

  • nms:持續時間長度上限 (以毫秒為單位)

例如,下列口說文字的時間長度上限為 2 秒:

<speak> <prosody amazon:max-duration="2s"> Human speech is a powerful way to communicate. </prosody> </speak>

放置在標籤內的文字,不會超過指定的持續時間長度。如果選擇的語音或語言通常需要超過該持續時間,Amazon Polly 會加快語音速度,使其符合指定的持續時間。

如果指定的持續時間長於以正常速率讀取文字所需的時間,Amazon Polly 會正常讀取語音。&POL; 不會減慢語音的速度或加入靜音,因此產生的音訊會比所請求的短。

注意

Amazon Polly 增加速度不超過正常速度的 5 倍以上。如果用超過這個標準的速度來說出文字,通常會聽不清楚。如果即使加快到最高速度,也無法符合您指定的持續時間長度時,會將音訊的速度加快,但持續時間將會超過指定的長度。

您可以在 <prosody amazon:max-duration> 標籤中包含單一句子或多個句子,也可以在文字內容中使用多個 <prosody amazon:max-duration>

例如:

<speak> <prosody amazon:max-duration="2400ms"> Human speech is a powerful way to communicate. </prosody> <break strength="strong"/> <prosody amazon:max-duration="5100ms"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> <break strength="strong"/> <prosody amazon:max-duration="8900ms"> We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient. </prosody> </speak>

當 Amazon Polly 傳回合成語音時,使用<prosody amazon:max-duration>標籤可以增加延遲時間。延遲的程度取決於文字內容及其長度。我們建議所使用的文字內容,最好包含相對較短的文字段落。

限制

使用 <prosody amazon:max-duration> 標籤的方式和此標籤搭配其他 SSML 標籤運作的方式,皆受到限制:

  • <prosody amazon:max-duration> 標籤內所包含的文字,其長度不能超過 1500 個字元。

  • 您不能嵌套 <prosody amazon:max-duration> 標籤。如果您將一個<prosody amazon:max-duration>標籤放在另一個標籤中,Amazon Polly 會忽略內部標籤。

    例如,在下列的範例內容中,<prosody amazon:max-duration="5s"> 標籤會被忽略:

    <speak> <prosody amazon:max-duration="16s"> Human speech is a powerful way to communicate. <prosody amazon:max-duration="5s"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient. </prosody> </speak>
  • 您不能在使用 <prosody> 標籤搭配 rate 標籤中的 <prosody amazon:max-duration> 屬性。因為這兩者都會影響到口語文字的速度。

    在下面的例子中,Amazon Polly 忽略標<prosody rate="2">籤:

    <speak> <prosody amazon:max-duration="7500ms"> Human speech is a powerful way to communicate. <prosody rate="2"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> </prosody> </speak>

停頓和 max-duration

使用 max-duration 標籤時,您仍然可以在文字內容中插入停頓。不過,Amazon Polly 會在計算語音的最長持續時間時,包含暫停的時間長度。此外,Amazon Polly 還保留了逗號和句點放置在段落內且包含在最長持續時間內時所發生的短暫停。

例如,在下列的段落中,8 秒的語音包含了 600 毫秒的停頓,以及逗號和句點所造成的停頓。

<speak> <prosody amazon:max-duration="8s"> Human speech is a powerful way to communicate. <break time="600ms"/> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> </speak>

在句子之間添加暫停

<s>

此標籤由生成、長格式、神經和標準 TTS 格式支援。

若要在您的文字行或句子之間加入停頓,請使用 <s> 標籤。使用此標籤與下列方式有相同的效果:

  • 使用句號 (.) 結束句子

  • 使用 <break strength="strong"/> 指定停頓

<break> 標籤不同的是,<s> 標籤必須括住句子。這可用於依行 (而非句子) 分組的合成語音,例如詩詞。

在下列範例中,<s> 標籤在第一個句子和第二個句子之後,建立短暫的停頓。最後一個句子沒有 <s> 標籤,但其後也有短暫的停頓,因為以句號結尾。

<speak> <s>Mary had a little lamb</s> <s>Whose fleece was white as snow</s> And everywhere that Mary went, the lamb was sure to go. </speak>

控制特殊類型的單詞的說法

<say-as>

除了characters選項之外,標<say-as>籤受生成、長格式、神經和標準 TTS 格式支援。請注意,如果 Amazon Polly 使用神經語音,並且在執行階段遇到該characters選項的標<say-as>籤,則會使用相關的標準語音合成受影響的句子。但是,受影響的句子仍會像使用神經語音一樣計費。

使用帶有interpret-as屬性的<say-as>標籤來告訴 Amazon Polly 如何說某些字符,單詞和數字。這可讓您提供額外的內容,以消除 Amazon Polly 應如何呈現文字的歧義。

<say-as>籤使用一個屬性interpret-as,該屬性使用了許多可能的可用值。每個值使用相同的語法:

<say-as interpret-as="value">[text to be interpreted]</say-as>

以下值可用於 interpret-as

  • charactersspell-out:拼出文本中的每個字母,如中所示 a-b-c。

    注意

    神經聲音目前不支援此選項。如果您使用的是神經語音,而 Amazon Polly 在執行階段遇到此 SSML 程式碼,則會使用相關的標準語音合成受影響的句子。但是,請注意,這句話仍然會像使用神經語音一樣被計費。

  • cardinalnumber:解讀數值文字為基數,如 1,234。

  • ordinal:解讀數值文字為序號,如第 1,234 個。

  • digits:個別拼出每個位數,如 1-2-3-4。

  • fraction:解讀數值文字為分數。這可以處理常見的分數,例如 3/20,以及混合分數,例如 2 ½。如需詳細資訊,請參閱下方。

  • unit:將數值文字解譯為測量單位。值應該是一個數字或後面接著單位的分數,中間沒有空格,如 1/2inch;或只跟著一個單位,如 1meter

  • date:將文字解譯為日期。日期的格式必須以格式屬性指定。如需詳細資訊,請參閱下方。

  • time:將數值文字解譯為以分鐘和秒為單位的持續時間,例如 1'21"

  • address:將文字解譯為街道地址的一部分。

  • expletive:「嗶聲處理」標籤中所包含的內容。

  • telephone:將數值文字解譯為 7 位數或 10 位數的電話號碼,如 2025551212。您也可以使用此值來處理電話分機,如 2025551212x345。如需詳細資訊,請參閱下方。

    注意

    目前 telephone 選項不是所有語言都適用。然而,它可用於語音英文變體 (en-AU、en-GB、en-IN、en-US 和 en-GB-WLS)、西班牙文變體 (es-ES、es-MX 和 es-US)、法文變體 (fr-FR 和 fr-CA) 和葡萄牙文變體 (pt-BR 和 pt-PT),以及德文 (de-DE)、義大利文 (it-IT)、日文 (ja-JP) 和俄羅斯文 (ru-RU)。還應該注意的是,在某些情況下,阿拉伯語(arb)之類的語言會自動處理設置為電話號碼的號碼,因此實際上不會實現 telephone SSML 標籤。

分數

Amazon Polly 會將具有interpret-as="fraction"屬性的標say-as籤內的值解譯為常用分數。以下是分數的語法:

  • 分數

    語法:基數/基數,如 2/9。

    例如:<say-as interpret-as="fraction">2/9</say-as> 發音為「九分之二」。

  • 非負數的混合數字

    語法:基數+基數/基數,例如 3+1/2。

    例如,<say-as interpret-as="fraction">3+1/2</say-as> 發音為「三又二分之一」。

    注意

    必須有一個「3」和「1/2」+ 之間。Amazon Polly 不支持沒有混合數字+, 如「3 1/2」.

日期

interpret-as 設定為 date,您也需要指出日期的格式:

此標籤使用以下語法:

<say-as interpret-as="date" format="format">[date]</say-as>

例如:

<speak> I was born on <say-as interpret-as="date" format="mdy">12-31-1900</say-as>. </speak>

下列格式可以搭配 date 屬性使用。

  • mdy:米onth-day-year。

  • dmy:Day-month-year.

  • ymd: Year-month-day.

  • md:月-日。

  • dm:日-月。

  • ym:年-月。

  • my:月-年。

  • d:日。

  • m: 月.

  • y: 年.

  • yyyymmdd: Year-month-day. 如果您使用此格式,您可以使用問號讓 Amazon Polly 略過部分日期。

    例如,Amazon Polly 將以下內容呈現為「9 月 22 日」:

    <say-as interpret-as="date">????0922</say-as>

    不需要 Format

電話

即使沒有<say-as>標籤,Amazon Polly 也會嘗試根據文字的格式正確解譯您提供的文字。例如,如果您的文字包含「202-555-1212」,Amazon Polly 會將其解譯為 10 位數的電話號碼,並個別說出每個數字,每個破折號都會暫停一下。在這種情況下,您不需要使用 <say-as interpret-as="telephone">。但是,如果您提供文本「2025551212」並希望 Amazon Polly 將其說為電話號碼,則可以指定。<say-as interpret-as="telephone">

解譯每個元素的邏輯具有語言特殊性。例如,美式英文和英式英文對於電話號碼的發音方式各不相同 (在英式英文中,同一個數字連續群組在一起時,例如「兩個五」或「三個四」)。若想了解差異,您可以使用美國語音與英國語音測試以下範例:

<speak> Richard's number is <say-as interpret-as="telephone">2122241555</say-as> </speak>

發音首字母縮寫詞和縮寫

<sub>

此標籤由生成、長格式、神經和標準 TTS 格式支援。

使用 <sub> 標籤搭配 alias 屬性,可取代所選文字的不同字詞 (或讀音),例如首字母縮寫或縮寫。

此屬性使用語法:

<sub alias="new word">abbreviation</sub>

在下列範例中,名稱「Mercury」(水銀) 取代為元素的化學符號,讓音訊內容更清楚。

<speak> My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny. </speak>

通過指定部分語音來改善發音

<w>

此標籤由生成、長格式、神經和標準 TTS 格式支援。

您可使用 <w> 標籤,透過指定單字的部分語音或替代含意來自訂文字發音。這可使用 role 屬性來完成。

此標籤使用以下語法:

<w role="attribute">text</w>

下列值可以用於 role 屬性:

指定語音部分:

  • amazon:VB:將文字解釋為動詞 (現在式)。

  • amazon:VBD: 將單詞解釋為過去式動詞。

  • amazon:DT:將單詞解釋為定義詞。

  • amazon:IN:將單詞解釋為介詞。

  • amazon:JJ: 將單詞解釋為形容詞。

  • amazon:NN: 將單詞解釋為名詞。

例如,視語音部分而定,美式英文的「read」讀音可依照標籤而改變:

<speak> The word <say-as interpret-as="characters">read</say-as> may be interpreted as either the present simple form <w role="amazon:VB">read</w>, or the past participle form <w role="amazon:VBD">read</w>. </speak>

若要指定特定意義:

  • amazon:DEFAULT:使用單詞的默認意義。

  • amazon:SENSE_1:顯示時使用非預設的字意。例如,名詞「bass」的讀音會因含意的不同而不同。預設的含意是指音域的最低部分。其替代含意是指一種淡水魚,也叫做「bass」,但讀音不同。使用 <w role="amazon:SENSE_1">bass</w> 轉譯音訊文字的非預設發音 (淡水魚)。

如果您合成以下內容,則可以聽到發音和意義的差異:

<speak> Depending on your meaning, the word <say-as interpret-as="characters">bass</say-as> may be interpreted as either a musical element: bass, or as its alternative meaning, a freshwater fish <w role="amazon:SENSE_1">bass</w>. </speak>
注意

有些語言可能會有不同的口語支援功能選擇。

加入呼吸的聲音

<amazon:breath> 和 <amazon:auto-breaths>

只有標準 TTS 格式才支援此標籤。

自然音調的語音包含正確發音的字詞以及呼吸聲。新增呼吸聲至合成語音中,可讓語音聽起來更加自然。<amazon:breath><amazon:auto-breaths> 標籤提供呼吸聲。您有下列選項:

  • 手動模式:您設定文字中呼吸聲的出現的位置、長度以及音量

  • 自動模式:Amazon Polly 會自動將呼吸聲音插入語音輸出

  • 混合模式:您和 Amazon Polly 都可以添加呼吸聲音

手動模式

在手動模式中,您將 <amazon:breath/> 標籤放入輸入文字內想要加入呼吸聲的位置。您可以分別使用 durationvolume 屬性來自訂呼吸聲的長度和音量:

  • duration:控制呼吸聲的長度。有效值為:defaultx-shortshortmediumlongx-long。預設值為 medium

  • volume:控制呼吸聲的音量。有效值為:defaultx-softsoftmediumloudx-loud。預設值為 medium

注意

每個屬性值的確切長度和體積取決於所使用的特定 Amazon Polly 語音。

若要使用預設值來設定呼吸聲,請使用沒有屬性的 <amazon:breath/>

例如,若要使用屬性來設定呼吸聲的長度與音量為中等,可將屬性設定如下:

<speak> Sometimes you want to insert only <amazon:breath duration="medium" volume="x-loud"/>a single breath. </speak>

若要使用預設值,您只需使用標籤:

<speak> Sometimes you need <amazon:breath/>to insert one or more average breaths <amazon:breath/> so that the text sounds correct. </speak>

您可以新增呼吸聲到段落中,如下所示:

<speak> <amazon:breath duration="long" volume="x-loud"/> <prosody rate="120%"> <prosody volume="loud"> Wow! <amazon:breath duration="long" volume="loud"/> </prosody> That was quite fast. <amazon:breath duration="medium" volume="x-loud"/> I almost beat my personal best time on this track. </prosody> </speak>
自動模式

在自動模式中,您可以使用標<amazon:auto-breaths>籤告訴 Amazon Polly 以適當的時間間隔自動產生呼吸噪音。您可以設定間隔的頻率、呼吸聲音量以及呼吸聲長度。將 </amazon:auto-breaths> 標籤置於您想要加入自動呼吸聲的文字開頭,然後在尾端加上結束標籤。

注意

與手動模式標籤不同,<amazon:breath/><amazon:auto-breaths> 標籤需要結束標記 (</amazon:auto-breaths>)。

您可以使用以下含有 <amazon:auto-breaths> 標籤的可選屬性:

  • volume:控制呼吸聲的音量。有效值為:defaultx-softsoftmediumloudx-loud。預設值為 medium

  • frequency:控制呼吸聲在文字中發生的頻率。有效值為:defaultx-lowlowmediumhighx-high。預設值為 medium

  • duration:控制呼吸聲的長度。有效值為:defaultx-shortshortmediumlongx-long。預設值為 medium

在預設情況下,呼吸聲的頻率將取決於輸入文字。不過,呼吸聲經常出現在逗號和句點之後。

下列範例示範如何使用 <amazon:auto-breaths> 標籤:若要決定要用於內容的選項,請將適用的範例複製到 Amazon Polly 主控台並聆聽差異。

  • 使用不含選用參數的自動模式。

    <speak> <amazon:auto-breaths>Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech- enabled products. Amazon Polly is a text-to-speech service that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths> </speak>
  • 使用含有音量控制的自動模式。未指定參數 (durationfrequency) 皆設為預設值 (medium)。

    <speak> <amazon:auto-breaths volume="x-soft">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths> </speak>
  • 使用含有頻率控制的自動模式。未指定參數 (durationvolume) 皆設為預設值 (medium)。

    <speak> <amazon:auto-breaths frequency="x-low">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths> </speak>
  • 使用含有多個參數的自動模式。對於未指定的Duration參數,Amazon Polly 會使用預設值 (medium)。

    <speak> <amazon:auto-breaths volume="x-loud" frequency="x-low">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech-enabled applications that work in many different countries.</amazon:auto-breaths> </speak>

新聞播報員說話風格

<amazon:domain name="news">

新聞廣播風格僅適用於馬修或喬安娜的聲音, 這是僅在美國英語可用 (en-US), 盧佩, 在美國西班牙語 (ES-US) 和艾米, 在英國英語 (en-GB). 只有使用 Neural 格式時才支援。

若要使用新聞播報員風格,請使用 SSML 標籤和下列語法:

<amazon:domain name="news">text</amazon:domain>

例如,您可以使用 Amy 語音的新聞廣播樣式,如下所示:

<speak> <amazon:domain name="news"> From the Tuesday, April 16th, 1912 edition of The Guardian newspaper: The maiden voyage of the White Star liner Titanic, the largest ship ever launched, has ended in disaster. The Titanic started her trip from Southampton for New York on Wednesday. Late on Sunday night she struck an iceberg off the Grand Banks of Newfoundland. By wireless telegraphy she sent out signals of distress, and several liners were near enough to catch and respond to the call. </amazon:domain> </speak>

新增動態範圍壓縮

<amazon:effect name="drc">

此標籤由長格式、神經和標準 TTS 格式支援。

根據音訊檔中所使用的文字、語言和語音,聲音範圍從柔和到大聲。環境音例如移動中車輛的聲音,通常可以遮罩為較柔和的聲音,使得音軌難以聽得清楚。若要增強音訊檔中特定聲音的音量,請使用動態範圍壓縮 (drc) 標記。

drc 標籤會為您的音訊設定中音的「響度」閾值,並提高該閾值附近聲音的音量 (增益)。最靠近閾值套用最大增益,遠離閾值則增益隨之減少。

動態範圍壓縮會增加特定閾值周圍聲音的音量。

這可讓中間範圍的聲音在吵雜環境中比較容易聽到,使得整個音訊檔更清晰。

drc 標記是一種布林值參數 (有或沒有)。它使用語法:<amazon:effect name="drc"> 並以 </amazon:effect> 結束。

您可以將drc標籤與 Amazon Polly 支援的任何語音或語言搭配使用。您可以將其套用到錄音的整個部分或只幾個字。例如:

<speak> Some audio is difficult to hear in a moving vehicle, but <amazon:effect name="drc"> this audio is less difficult to hear in a moving vehicle.</amazon:effect> </speak>
注意

當您使用 語法中的 drc 時,它會區分大小寫。amazon:effect

使用 drc 搭配 prosody volume 標籤

如下圖所示,prosody volume 標記從原始層級 (虛線) 到調整層級 (實線),平均地提高整個音訊檔案的音量。若要進一步提高檔案特定部分的音量,請使用 drc 標記搭配 prosody volume 標記。結合使用標記不會影響 prosody volume 標記的設定。

使用標prosody volume籤可增加整個音訊檔案的音量。

當您一起使用drcdrcprosody volume籤時,Amazon Polly 會先套用標籤,增加中音範圍的聲音 (接近閾值的音效)。接著套用 prosody volume 標記並進一步平均提高整個音軌的音量。

使用帶標drc籤的prosody volume標籤除了整個音軌的音量之外,還可以增加中音域聲音的音量。

若要一起使用標記,請將其中一巢套到另一個內部。例如:

<speak> <prosody volume="loud">This text needs to be understandable and loud. <amazon:effect name="drc"> This text also needs to be more understandable in a moving car.</amazon:effect></prosody> </speak>

在這個文字中,prosody volume 標記會提高整段的音量為「大聲」。drc 標記會在第二個句子增強中間範圍值的音量。

注意

一起使用 drcprosody volume 標記時,對於巢狀標記請使用標準 XML 做法。

輕聲地說話

<amazon:effect phonation="soft">

目前只有標準 TTS 格式支援此標籤。

若要指定應以語 softer-than-normal 音朗讀輸入文字,請使用標<amazon:effect phonation="soft">籤。

此屬性使用語法:

<amazon:effect phonation="soft">text</amazon:effect>

例如,您可以使用此標籤搭配 Matthew 語音,如下所示:

<speak> This is Matthew speaking in my normal voice. <amazon:effect phonation="soft">This is Matthew speaking in my softer voice.</amazon:effect> </speak>

控制音色

< 亞馬遜 vocal-tract-length:效果 >

目前只有標準 TTS 格式支援此標籤。

音色是是語音的音質,可協助您分辨語音間的不同,甚至當其音調和大小聲相同時也能分辨出。決定語音音色的其中一個最重要生理特徵是聲道的長度,這是範圍從聲帶頂部到嘴唇邊緣的一個氣腔。

若要在 Amazon Polly 中控制輸出語音的音色,請使用標vocal-tract-length籤。此標記具有變更喇叭聲道長度的效果,聽到類似喇叭的大小有所變更。當您增加 vocal-tract-length 時,喇叭實際聽起來越大聲。當您縮短時,喇叭聲音會變小。您可以將此標籤與 Amazon Polly 文字轉換語音產品組合中的任何聲音搭配使用。

若要變更音色,請使用以下值:

  • +n%-n%:按照目前語音的相對百分比變動來調整聲道長度。例如,+4% 或 -2%。有效值範圍從 + 100% 到 -50%。這個範圍以外的值會剪除。例如,+ 111% 聽起來類似 + 100% 而 -60% 聽起來像 -50%。

  • n%:變更聲道長度為目前語音的聲道長度的絕對百分比。例如,110% 或 75%。絕對值 110% 等於相對值 +10%。絕對值 100% 與目前語音的預設值相同。

以下範例說明如何透過變更聲道長度來變更音色:

<speak> This is my original voice, without any modifications. <amazon:effect vocal-tract-length="+15%"> Now, imagine that I am much bigger. </amazon:effect> <amazon:effect vocal-tract-length="-15%"> Or, perhaps you prefer my voice when I'm very small. </amazon:effect> You can also control the timbre of my voice by making minor adjustments. <amazon:effect vocal-tract-length="+10%"> For example, by making me sound just a little bigger. </amazon:effect><amazon:effect vocal-tract-length="-10%"> Or, making me sound only somewhat smaller. </amazon:effect> </speak>

結合多個標記

您可以將標vocal-tract-length籤與 Amazon Polly 支援的任何其他 SSML 標籤結合使用。由於音色 (聲道長度) 和音調密切連結,您可以透過使用 vocal-tract-length<prosody pitch> 標記獲得最佳結果。若要產生最逼真的語音,建議您針對兩個標籤使用不同的百分比變化。試驗各種組合來獲得您想要的結果。

下列範例顯示如何結合標記。

<speak> The pitch and timbre of a person's voice are connected in human speech. <amazon:effect vocal-tract-length="-15%"> If you are going to reduce the vocal tract length, </amazon:effect><amazon:effect vocal-tract-length="-15%"> <prosody pitch="+20%"> you might consider increasing the pitch, too. </prosody></amazon:effect> <amazon:effect vocal-tract-length="+15%"> If you choose to lengthen the vocal tract, </amazon:effect> <amazon:effect vocal-tract-length="+15%"> <prosody pitch="-10%"> you might also want to lower the pitch. </prosody></amazon:effect> </speak>

輕聲低語

<amazon:effect name="whispered">

目前只有標準 TTS 格式支援此標籤。

此標籤表示輸入文字應以低聲而非一般語音說出。這可以與 Amazon Polly 文字轉語音產品組合中的任何聲音搭配使用。

此標籤使用以下語法:

<amazon:effect name="whispered">text</amazon:effect>

例如:

<speak> <amazon:effect name="whispered">If you make any noise, </amazon:effect> she said, <amazon:effect name="whispered">they will hear us.</amazon:effect> </speak>

在這種情況下,角色所說的合成語音會低聲,但是在所選 Amazon Polly 語音的正常合成語音中會說出「她說」這句話。

根據想要的效果,您可以透過將韻律率減慢最多 10%,來增強「低語」效果。

例如:

<speak> When any voice is made to whisper, <amazon:effect name="whispered"> <prosody rate="-10%">the sound is slower and quieter than normal speech </prosody></amazon:effect> </speak>

當產生低聲語音的語音標記時,音訊串流還必須包含低聲語音,以確保語音標記符合音訊串流。