ストリーミングと部分的な結果 - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ストリーミングと部分的な結果

ストリーミングはリアルタイムで行われるため、トランスクリプトは次の場所で生成されます部分化済み音声ファイル。Amazon Transcribeスピーカーの交代やオーディオの一時停止などの自然なスピーチセグメントをトリアージします。トランスクリプションは、トランスクリプションイベントのストリームとしてアプリケーションに返され、セグメント全体がトランスカレーションされるまで、レスポンスにトランスクリプションイベントのストリームとしてアプリケーションに返されます。

この近似値を次のコードブロックに示します。にサインインすると、このプロセスが実際に動作していることを確認できます。AWS Management Console、選択リアルタイムの転写そして、マイクに向かって話しかけます。見てください秘匿名化済み音声ファイル話している間は画面に表示されます。

この例では、各ラインはオーディオセグメントの部分的な結果です。

The The Amazon. The Amazon is The Amazon is the law. The Amazon is the largest The Amazon is the largest ray The Amazon is the largest rain for The Amazon is the largest rainforest. The Amazon is the largest rainforest on the The Amazon is the largest rainforest on the planet.

これらの部分的な結果は、内のトランスクリプション出力に表示されますResultsオブジェクト。また、このオブジェクトブロックにはIsPartialフィールド。このフィールドが正しい場合、トランスクリプションセグメントはまだ完成していません。不完全なセグメントと完全なセグメントの違いは以下で確認できます。

"IsPartial": true (incomplete segment) "Transcript": "The Amazon is the largest rainforest." "EndTime": 4.545, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 0.025 "IsPartial": false (complete segment) "Transcript": "The Amazon is the largest rainforest on the planet." "EndTime": 6.025, "IsPartial": false, "ResultId": "34567e89-0fa1-2bc3-4d56-78e90123456f", "StartTime": 0.025

内の各単語完了しましたセグメントには信頼度スコアが関連付けられており、その値は次の間です0そして1。値が大きいほど、その単語が正しく書き起こされる可能性が高くなります。

ヒント

StartTimeそしてEndTimeオーディオセグメントのトランスクリプション出力とビデオダイアログを同期させるのに使えます。

低レイテンシーを必要とするアプリケーションを実行している場合は、以下を使用するとよいでしょう。部分的な結果安定化

結果の同時実行安定化

Amazon Transcribeオーディオのストリーミングを開始するとすぐに、トランスクリプションの結果が返されます。これらの部分的な結果は、自然な音声セグメントのレベルで最終的な結果を生成するまで、段階的に部分的な結果を返します。ナチュラルスピーチセグメントは、一時停止や話者の変更を含む連続したスピーチです。

Amazon Transcribe音声セグメントの最終的なトランスクリプション結果を生成するまで、部分的な結果を出力し続けます。音声認識では、コンテキストが増えるにつれて単語が修正されることがあるため、結果の一部が新たに出力されるたびに、ストリーミングトランスクリプションが若干変化する可能性があります。

このプロセスでは、音声セグメントごとに次の 2 つのオプションがあります。

  • セグメントが完成するまでお待ちください。

  • セグメントの一部の結果を使用する

結果の部分的安定化による変化Amazon Transcribe各セグメントの最終的な文字起こし結果を生成します。有効にすると、部分検索の最後の数語のみが変更されます。このため、文字起こしの精度に影響が出る可能性があります。ただし、結果の一部安定化を行わない場合よりもトランスクリプトのほうが早く返されます。このレイテンシーの削減は、動画に字幕をつけるときやライブストリームのキャプションをトリアージしたり、レイテンシを短縮するのに役立ちます。

以下の例は、部分結果安定化が有効になっていない場合と有効になっている場合に、同じオーディオストリームがどのように処理されるかを示しています。安定性レベルは、[低]、[中]、[高] に設定できることに注意してください。安定性が低いほど精度が高くなります。安定性が高いと文字起こしは速くなりますが、精度はわずかに低下します。

「トランスクリプト」:

"EndTime":

"IsPartial":

部分結果安定化は有効化されていません

The The The Amazon. The Amazon is The Amazon is the law. The Amazon is the largest The Amazon is the largest ray The Amazon is the largest rain for The Amazon is the largest rainforest. The Amazon is the largest rainforest on the The Amazon is the largest rainforest on the planet. The Amazon is the largest rainforest on the planet. The Amazon is the largest rainforest on the planet.
0.545 1.045 1.545 2.045 2.545 3.045 3.545 4.045 4.545 5.045 5.545 6.025 6.025
true true true true true true true true true true true true false

部分結果安定化が有効 (高い安定性)

The The The Amazon. The Amazon is The Amazon is the large The Amazon is the largest The Amazon is the largest rainfall. The Amazon is the largest rain forest. The Amazon is the largest rain forest on The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet.
0.515 1.015 1.515 2.015 2.515 3.015 3.515 4.015 4.515 5.015 5.515 6.015 6.335 6.335
true true true true true true true true true true true true true false

部分結果安定化を有効にすると、Amazon Transcribeを使用します。Stableアイテムが安定しているかどうかを示すフィールド。ここで「アイテム」は書き起こされた単語または句読点を指します。の値Stableですtrueまたはfalse。としてフラグが立てられたアイテムfalse(安定していない)は、セグメントが文字起こしされるにつれて変化する可能性が高くなります。逆に、次のようなフラグが立てられた商品もあります。true(安定版) は変更されません。

字幕が音声と一致するように、安定しない単語をレンダリングするように選択できます。コンテキストが追加されるにつれてキャプションが少し変わっても、定期的にテキストをバーストして音声と一致する場合と一致しない場合よりも、ユーザーエクスペリエンスは向上します。

また、安定しない単語を斜体などの別の形式で表示して、これらの単語が変わる可能性があることを視聴者に伝えることもできます。結果の一部を表示すると、特定の時間に表示されるテキストの量が制限されます。これは、動画キャプションのようにスペースに制約がある場合に重要になることがあります。

でさらに深く潜り込もうAWSMachine Learning ブログ

部分結果安定化出力例

次の出力の例Stable不完全なセグメントのフラグ ("IsPartial": true)。「」という言葉が分かります。「と」アマゾン「は安定していないため、セグメントが確定する前に変更される可能性があります。

"Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Content": "Welcome", "EndTime": 2.4225, "Stable": true, "StartTime": 1.65, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "to", "EndTime": 2.8325, "Stable": false, "StartTime": 2.4225, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "Amazon", "EndTime": 3.635, "Stable": false, "StartTime": 2.8325, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 3.635, "Stable": false, "StartTime": 3.635, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "Welcome to Amazon." } ], "EndTime": 4.165, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 1.65 } ] }