串流和部分結果 - Amazon Transcribe

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

串流和部分結果

由於流媒體是實時工作的,因此成績單是在部分結果中生成的。 Amazon Transcribe 根據自然語音片段(例如揚聲器的變化或音頻中的暫停)分解傳入的音頻流。系統會傳回轉錄事件串流中您的應用程式,每次回應皆會包含更多轉錄的語音,直到整個區段轉錄完成。

如下列程式碼區塊所示的近似值。您可以登入 AWS Management Console,選擇即時轉錄並對著麥克風說話,以檢視執行中的流程。說話時,看著轉錄輸出窗格。

在此範例中,每一行都是音訊區段的部分結果。

The The Amazon. The Amazon is The Amazon is the law. The Amazon is the largest The Amazon is the largest ray The Amazon is the largest rain for The Amazon is the largest rainforest. The Amazon is the largest rainforest on the The Amazon is the largest rainforest on the planet.

部分結果會在 Results 物件內的轉錄輸出中顯示。此外,在這個對象塊是一個IsPartial字段。如果此欄位為 true,代表您的轉錄區段尚未完成。您可以在下方檢視不完整區段與完整區段之間的差異:

"IsPartial": true (incomplete segment) "Transcript": "The Amazon is the largest rainforest." "EndTime": 4.545, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 0.025 "IsPartial": false (complete segment) "Transcript": "The Amazon is the largest rainforest on the planet." "EndTime": 6.025, "IsPartial": false, "ResultId": "34567e89-0fa1-2bc3-4d56-78e90123456f", "StartTime": 0.025

完整區段的每個單字都有相關的可信度分數,是介於 01 間的值。較大的值表示正確轉錄單字的可能性更高。

提示

音訊區段的 StartTimeEndTime 可用於同步轉錄輸出與視訊對話。

如果您執行的應用程式需要低延遲,您可能需要使用部分結果穩定功能。

部分結果穩定

Amazon Transcribe 開始串流音訊後,立即開始傳回轉錄結果。它以遞增方式傳回這些部分結果,直到在自然語音區段層級產生完成的結果。自然語音區段是包含暫停或發言者改變的連續語音。

Amazon Transcribe 繼續輸出部分結果,直到產生語音區段的最終轉錄結果為止。由於語音辨識可能會在了解上下文時修改字詞,因此串流轉錄可能會隨著新的部分結果輸出而變化。

此流程提供每個語音區段兩個選項:

  • 等待完成的區段

  • 使用區段的部分結果

部分結果穩定化 Amazon Transcribe 會改變產生每個完整區段最終轉錄結果的方式。啟動時,部分結果中僅最後幾個單字可以變更。因此,轉錄的準確性可能會受到影響。不過,傳回文字記錄的速度會在沒有部分結果穩定功能時更快。在為直播加上字幕或產生字幕時,可能會有助於減少延遲。

下列範例顯示部分結果穩定功能未啟動及啟動時,如何處理相同的音訊串流。請注意,您可以將穩定性等級設定為低、中或高。低穩定性提供最高的準確性。穩定性的轉錄速度更快,但準確性略低。

「文字記錄」:

"EndTime":

"IsPartial":

部分結果穩定功能未啟用

The The The Amazon. The Amazon is The Amazon is the law. The Amazon is the largest The Amazon is the largest ray The Amazon is the largest rain for The Amazon is the largest rainforest. The Amazon is the largest rainforest on the The Amazon is the largest rainforest on the planet. The Amazon is the largest rainforest on the planet. The Amazon is the largest rainforest on the planet.
0.545 1.045 1.545 2.045 2.545 3.045 3.545 4.045 4.545 5.045 5.545 6.025 6.025
true true true true true true true true true true true true false

啟用局部結果穩定 (高穩定性)

The The The Amazon. The Amazon is The Amazon is the large The Amazon is the largest The Amazon is the largest rainfall. The Amazon is the largest rain forest. The Amazon is the largest rain forest on The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet.
0.515 1.015 1.515 2.015 2.515 3.015 3.515 4.015 4.515 5.015 5.515 6.015 6.335 6.335
true true true true true true true true true true true true true false

當您啟動部分結果穩定功能時, Amazon Transcribe 會使用Stable欄位來指出項目是否穩定,其中「item」指的是轉錄文字或標點符號。Stable 的值是 truefalse。標記為 false(不穩定) 的項目在轉錄區段時更有可能改變。相反地,標記為 true(穩定) 的項目不會改變。

您可以選擇顯示不穩定的單字,讓字幕與語音保持一致。即使字幕隨著內容新增而稍有變更,這也是比週期性文字連發 (可能會或不會與語音一致) 更好的使用者體驗。

您也可以選擇以不同的格式,顯示不穩定的文字,例如斜體,讓觀眾知道這些單字可能會變更。顯示部分結果會限制指定時間內顯示的文字數量。您處理影片字幕,面臨空間限制問題時,這可能很重要。

透過 Machine L AWS earning 部落格深入瞭解

部分結果穩定範例輸出

下列範例輸出顯示不完整區段 ("IsPartial": true) 的 Stable 標記。您可以看到,單字「」和「Amazon」是不穩定的,因此可能會在區段完成前變更。

"Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Content": "Welcome", "EndTime": 2.4225, "Stable": true, "StartTime": 1.65, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "to", "EndTime": 2.8325, "Stable": false, "StartTime": 2.4225, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "Amazon", "EndTime": 3.635, "Stable": false, "StartTime": 2.8325, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 3.635, "Stable": false, "StartTime": 3.635, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "Welcome to Amazon." } ], "EndTime": 4.165, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 1.65 } ] }