스트리밍 오디오 트랜스크립션

Amazon Transcribe 스트리밍을 사용하면 미디어 콘텐츠에 대한 실시간 트랜스크립션을 생성할 수 있습니다. 미디어 파일 업로드를 포함하는 배치 트랜스크립션과 달리 스트리밍 미디어는 실시간으로 Amazon Transcribe 에 전달 Amazon Transcribe 된 다음 트랜스크립트도 실시간으로 반환합니다.

스트리밍에는 사전 녹화된 미디어(영화, 음악, 팟캐스트)와 실시간 미디어(실시간 뉴스 방송)가 포함될 수 있습니다. 의 일반적인 스트리밍 사용 사례에 Amazon Transcribe 는 스포츠 이벤트를 위한 라이브 자막 및 콜센터 오디오의 실시간 모니터링이 포함됩니다.

스트리밍 콘텐츠는 Amazon Transcribe 가 순식간에 변환한는 일련의 순차적 데이터 패킷 또는 '청크'로 전달됩니다. 배치보다 스트리밍을 사용하면 애플리케이션의 실시간 음성-텍스트 변환 기능과 더 빠른 트랜스크립션 시간이 장점입니다. 그러나 이러한 속도 향상으로 인해 경우에 따라 정확도가 제한될 수 있습니다.

Amazon Transcribe 는 스트리밍을 위해 다음 옵션을 제공합니다.

에서 스트리밍 오디오를 트랜스크립션하려면 컴퓨터 마이크에 AWS Management Console말합니다.

작은 정보

SDK 코드 예시는 GitHub의 AWS 샘플 리포지토리를 참조하세요.

스트리밍 트랜스크립션에 지원되는 오디오 형식은 다음과 같습니다.

FLAC
Ogg 컨테이너의 OPUS 인코딩 오디오
PCM(WAV를 포함하지 않는 서명된 16비트 리틀 엔디안 오디오 형식만 해당)

무손실 형식(FLAC 또는 PCM)을 사용하는 것이 좋습니다.

참고

일부 언어에서는 스트리밍 트랜스크립션이 지원되지 않습니다. 자세한 내용은 지원되는 언어 테이블의 '데이터 입력' 열을 참조하세요.

스트리밍 트랜스크립션의 Amazon Transcribe 리전 가용성을 보려면 Amazon Transcribe 엔드포인트 및 할당량을 참조하세요.

모범 사례

다음 권장 사항은 스트리밍 트랜스크립션 효율성을 개선합니다.

가능하면 PCM으로 인코딩된 오디오를 사용하세요.
스트림을 최대한 실시간에 가깝게 재생하세요.
지연 시간은 오디오 청크의 크기에 따라 달라집니다. 오디오 유형(예: PCM 사용)에 따라 청크 크기를 지정할 수 있는 경우 각 청크를 50ms에서 200ms 사이로 설정하세요. 다음 수식으로 오디오 청크 크기를 계산할 수 있습니다.
```
chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
```
균일한 청크 크기를 사용하세요.
오디오 채널 수를 올바르게 지정해야 합니다.
단일 채널 PCM 오디오의 경우 각 샘플은 2바이트로 구성되므로 각 청크는 짝수 바이트로 구성되어야 합니다.
듀얼 채널 PCM 오디오의 경우 각 샘플은 4바이트로 구성되므로 각 청크는 4바이트의 배수여야 합니다.
오디오 스트림에 음성이 없는 경우 동일한 양의 무음을 인코딩하여 전송하세요. 예를 들어 PCM의 무음은 0바이트의 스트림입니다.
오디오에 올바른 샘플링 속도를 지정해야 합니다. 가능하면 16,000Hz의 샘플링 속도로 녹음하세요. 이렇게 하면 네트워크를 통해 전송되는 음질과 데이터 볼륨 간에 최상의 균형을 맞출 수 있습니다. 대부분의 하이엔드 마이크는 44,100Hz 또는 48,000Hz로 녹음합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

HTTP 또는 WebSocket을 통한 트랜스크립션

스트리밍 및 부분 결과