스트리밍 오디오 트랜스크립션 - Amazon Transcribe

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

스트리밍 오디오 트랜스크립션

Amazon Transcribe 스트리밍을 사용하면 미디어 콘텐츠에 대한 실시간 트랜스크립션을 생성할 수 있습니다. 미디어 파일을 업로드하는 일괄 트랜스크립션과 달리 스트리밍 미디어는 실시간으로 제공됩니다. Amazon Transcribe Amazon Transcribe 그러면 트랜스크립트가 동시에 실시간으로 반환됩니다.

스트리밍에는 사전 녹화된 미디어(영화, 음악, 팟캐스트)와 실시간 미디어(실시간 뉴스 방송)가 포함될 수 있습니다. 의 일반적인 스트리밍 사용 Amazon Transcribe 사례로는 스포츠 경기를 위한 라이브 자막, 콜센터 오디오의 실시간 모니터링 등이 있습니다.

스트리밍 콘텐츠는 Amazon Transcribe 가 순식간에 변환한는 일련의 순차적 데이터 패킷 또는 '청크'로 전달됩니다. 스트리밍을 일괄 처리보다 사용하면 애플리케이션의 실시간 speech-to-text 기능이 지원되고 트랜스크립션 시간이 단축된다는 장점이 있습니다. 그러나 이러한 속도 향상으로 인해 경우에 따라 정확도가 제한될 수 있습니다.

Amazon Transcribe 다음과 같은 스트리밍 옵션을 제공합니다.

에서 스트리밍 오디오를 녹음하려면 컴퓨터 마이크에 AWS Management Console대고 말하십시오.

작은 정보

SDK 코드 예제는 의 AWS 샘플 저장소를 참조하십시오. GitHub

스트리밍 트랜스크립션에 지원되는 오디오 형식은 다음과 같습니다.

  • FLAC

  • Ogg 컨테이너의 OPUS 인코딩 오디오

  • PCM(WAV를 포함하지 않는 서명된 16비트 리틀 엔디안 오디오 형식만 해당)

무손실 형식(FLAC 또는 PCM)을 사용하는 것이 좋습니다.

참고

일부 언어에서는 스트리밍 트랜스크립션이 지원되지 않습니다. 자세한 내용은 지원되는 언어 테이블의 '데이터 입력' 열을 참조하세요.

스트리밍 트랜스크립션의 Amazon Transcribe 지역 가용성을 보려면 Amazon Transcribe 엔드포인트 및 할당량을 참조하십시오.

모범 사례

다음 권장 사항은 스트리밍 트랜스크립션 효율성을 개선합니다.

  • 가능하면 PCM으로 인코딩된 오디오를 사용하세요.

  • 스트림을 최대한 실시간에 가깝게 재생하세요.

  • 지연 시간은 오디오 청크의 크기에 따라 달라집니다. 오디오 유형(예: PCM 사용)에 따라 청크 크기를 지정할 수 있는 경우 각 청크를 50ms에서 200ms 사이로 설정하세요. 다음 수식으로 오디오 청크 크기를 계산할 수 있습니다.

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • 균일한 청크 크기를 사용하세요.

  • 오디오 채널 수를 올바르게 지정해야 합니다.

  • 단일 채널 PCM 오디오의 경우 각 샘플은 2바이트로 구성되므로 각 청크는 짝수 바이트로 구성되어야 합니다.

  • 듀얼 채널 PCM 오디오의 경우 각 샘플은 4바이트로 구성되므로 각 청크는 4바이트의 배수여야 합니다.

  • 오디오 스트림에 음성이 없는 경우 동일한 양의 무음을 인코딩하여 전송하세요. 예를 들어 PCM의 무음은 0바이트의 스트림입니다.

  • 오디오에 올바른 샘플링 속도를 지정해야 합니다. 가능하면 16,000Hz의 샘플링 속도로 녹음하세요. 이렇게 하면 네트워크를 통해 전송되는 음질과 데이터 볼륨 간에 최상의 균형을 맞출 수 있습니다. 대부분의 하이엔드 마이크는 44,100Hz 또는 48,000Hz로 녹음합니다.