스트리밍 및 부분 결과 - Amazon Transcribe

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

스트리밍 및 부분 결과

스트리밍은 실시간으로 작동하므로 자막이 일부 결과로 생성됩니다. Amazon Transcribe 화자 변경이나 오디오 일시 중지와 같은 자연스러운 음성 세그먼트를 기준으로 들어오는 오디오 스트림을 분할합니다. 트랜스크립션은 트랜스크립션 이벤트 스트림으로 애플리케이션에 반환되며, 전체 세그먼트가 트랜스크립션될 때까지 각 응답에는 트랜스크립션된 더 많은 음성이 포함됩니다.

이에 대한 근사치는 다음 코드 블록에 나와 있습니다. AWS Management Console에 로그인하고 실시간 트랜스크립션을 선택한 다음 마이크에 대고 말하면 이 프로세스가 실제로 진행되는 것을 볼 수 있습니다. 말하는 동안 트랜스크립션 출력 창을 보세요.

이 예시에서 각 라인은 오디오 세그먼트의 부분 결과입니다.

The The Amazon. The Amazon is The Amazon is the law. The Amazon is the largest The Amazon is the largest ray The Amazon is the largest rain for The Amazon is the largest rainforest. The Amazon is the largest rainforest on the The Amazon is the largest rainforest on the planet.

이러한 부분 결과는 Results 객체 내 트랜스크립션 출력에 표시됩니다. 또한 이 개체 블록에는 IsPartial필드가 있습니다. 이 필드가 참이면 트랜스크립션 세그먼트가 아직 완성되지 않은 것입니다. 불완전한 세그먼트와 완료된 세그먼트의 차이를 아래에서 확인할 수 있습니다.

"IsPartial": true (incomplete segment) "Transcript": "The Amazon is the largest rainforest." "EndTime": 4.545, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 0.025 "IsPartial": false (complete segment) "Transcript": "The Amazon is the largest rainforest on the planet." "EndTime": 6.025, "IsPartial": false, "ResultId": "34567e89-0fa1-2bc3-4d56-78e90123456f", "StartTime": 0.025

완료된 세그먼트 내의 각 단어에는 01 사이의 값인 관련 신뢰도 점수가 있습니다. 값이 클수록 해당 단어를 올바르게 트랜스크립션할 가능성이 커집니다.

작은 정보

오디오 세그먼트의 StartTimeEndTime을 사용하여 트랜스크립션 출력을 비디오 대화와 동기화할 수 있습니다.

지연 시간이 짧아야 하는 애플리케이션을 실행하는 경우 부분 결과 안정화를 사용하는 것이 좋습니다.

부분 결과 안정화

Amazon Transcribe 오디오 스트리밍을 시작하자마자 트랜스크립션 결과를 반환하기 시작합니다. 자연 음성 세그먼트 수준에서 완성된 결과를 생성할 때까지 이러한 부분 결과를 점진적으로 반환합니다. 자연 음성 세그먼트는 화자의 일시 중지 또는 변경이 포함된 연속 음성입니다.

Amazon Transcribe 음성 세그먼트에 대한 최종 트랜스크립션 결과를 생성할 때까지 부분 결과를 계속 출력합니다. 음성 인식은 더 많은 컨텍스트를 얻을수록 단어를 수정할 수 있으므로 스트리밍 트랜스크립션은 부분 결과가 새로 출력될 때마다 약간씩 변경될 수 있습니다.

이 프로세스에는 음성 세그먼트별로 두 가지 옵션이 있습니다.

  • 세그먼트가 완성될 때까지 대기

  • 세그먼트의 부분 결과 사용

부분 결과 안정화는 각 전체 세그먼트에 대한 최종 트랜스크립션 결과를 Amazon Transcribe 생성하는 방식을 변경합니다. 이 기능을 활성화하면 부분 결과 중 마지막 몇 단어만 변경될 수 있습니다. 이로 인해 트랜스크립션 정확도가 영향을 받을 수 있습니다. 하지만 트랜스크립트는 부분 결과 안정화 기능이 없는 경우보다 더 빨리 반환됩니다. 이렇게 지연 시간을 줄이면 비디오 자막을 만들거나 실시간 스트림용 자막을 생성할 때 유용할 수 있습니다.

다음 예는 부분 결과 안정화를 활성화하지 않은 경우와 활성화한 경우에 동일한 오디오 스트림이 처리되는 방식을 보여줍니다. 안정성 수준은 낮음, 중간 또는 높음으로 설정할 수 있습니다. 안정성이 낮으면 정확도가 가장 높습니다. 안정성이 높으면 트랜스크립션이 더 빨라지지만 정확도는 약간 떨어집니다.

"트랜스크립트":

"EndTime":

"IsPartial":

부분 결과 안정화를 활성화하지 않음

The The The Amazon. The Amazon is The Amazon is the law. The Amazon is the largest The Amazon is the largest ray The Amazon is the largest rain for The Amazon is the largest rainforest. The Amazon is the largest rainforest on the The Amazon is the largest rainforest on the planet. The Amazon is the largest rainforest on the planet. The Amazon is the largest rainforest on the planet.
0.545 1.045 1.545 2.045 2.545 3.045 3.545 4.045 4.545 5.045 5.545 6.025 6.025
true true true true true true true true true true true true false

부분 결과 안정화 활성화(안정성 높음)

The The The Amazon. The Amazon is The Amazon is the large The Amazon is the largest The Amazon is the largest rainfall. The Amazon is the largest rain forest. The Amazon is the largest rain forest on The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet. The Amazon is the largest rain forest on the planet.
0.515 1.015 1.515 2.015 2.515 3.015 3.515 4.015 4.515 5.015 5.515 6.015 6.335 6.335
true true true true true true true true true true true true true false

부분 결과 안정화를 활성화하면 Stable 필드를 Amazon Transcribe 사용하여 항목이 안정적인지 여부를 나타냅니다. 여기서 '항목'은 필사된 단어 또는 문장 부호를 나타냅니다. Stable의 값은 true 또는 false입니다. false(안정적이지 않음)로 플래그가 지정된 항목은 세그먼트를 트랜스크립션함에 따라 변경될 가능성이 더 높습니다. 반대로 true(안정적)로 플래그가 지정된 항목은 변경되지 않습니다.

안정적이지 않은 단어를 렌더링하여 자막을 음성에 맞게 정렬할 수 있습니다. 컨텍스트가 추가되면서 자막이 약간 변경되더라도 음성에 맞을 수도 있고 그렇지 않을 수도 있는 주기적인 텍스트 연속 재생보다 사용자 경험이 개선됩니다.

또한 기울임꼴과 같이 불안정한 단어를 다른 형식으로 표시하여 시청자에게 이러한 단어가 변경될 수 있음을 알릴 수도 있습니다. 부분 결과를 표시하면 해당 시간에 표시되는 텍스트의 양이 제한됩니다. 이는 비디오 자막과 같이 공간 제약이 있는 경우에 중요할 수 있습니다.

AWS Machine Learning 블로그를 통해 더 자세히 알아보기

부분 결과 안정화 예시 출력

다음 예시 출력은 불완전한 세그먼트("IsPartial": true)에 대한 Stable 플래그를 보여줍니다. "to" 및 "Amazon"이라는 단어는 안정적이지 않으므로 세그먼트가 확정되기 전에 변경될 수 있음을 알 수 있습니다.

"Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Content": "Welcome", "EndTime": 2.4225, "Stable": true, "StartTime": 1.65, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "to", "EndTime": 2.8325, "Stable": false, "StartTime": 2.4225, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": "Amazon", "EndTime": 3.635, "Stable": false, "StartTime": 2.8325, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 3.635, "Stable": false, "StartTime": 3.635, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "Welcome to Amazon." } ], "EndTime": 4.165, "IsPartial": true, "ResultId": "12345a67-8bc9-0de1-2f34-a5b678c90d12", "StartTime": 1.65 } ] }