스피치 마크 사용 - Amazon Polly

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

스피치 마크 사용

스피치 마크 요청

입력 텍스트의 스피치 마크를 요청하려면 synthesize-speech 명령을 사용하십시오. 입력 텍스트 외에 이 메타데이터를 반환하려면 다음 요소가 필요합니다.

  • output-format

    Amazon Polly 는 스피치 마크를 반환할 때 JSON 형식만 지원합니다.

    --output-format json

    지원되지 않는 출력 형식을 사용하면 Amazon Polly 에서 예외를 throw합니다.

  • voice-id

    메타데이터가 관련 오디오 스트림과 일치하는지 확인하려면 합성 스피치 오디오 스트림을 생성하는 데 사용되는 것과 동일한 음성을 지정하십시오. 사용 가능한 음성은 동일한 스피치 속도를 아닙니다. 스피치를 생성하는 데 사용된 것과 다른 음성을 사용하는 경우 메타데이터가 오디오 스트림과 일치하지 않습니다.

    --voice-id Joanna
  • speech-mark-types

    원하는 스피치 마크 유형을 지정하십시오. 스피치 마크 형식의 일부 또는 전부를 요청할 수 있지만 적어도 하나의 형식을 지정해야 합니다.

    --speech-mark-types='["sentence", "word", "viseme", "ssml"]'
  • text-type

    Amazon Polly 의 기본 입력 텍스트이므로text-type ssmlSSML 음성 표시를 반환하려는 경우

  • outfile

    메타데이터가 기록되는 출력 파일을 지정하십시오.

    MaryLamb.txt

 

다음은 Unix, Linux, macOS용 형식으로 지정된 AWS CLI 예제입니다. Windows의 경우 각 줄 끝에 있는 백슬래시(\) Unix 연속 문자를 캐럿(^)으로 바꿉니다. 입력 텍스트는 큰 따옴표(")로 감싸고 내부 태그에는 작은 따옴표(')를 사용합니다.

aws polly synthesize-speech \ --output-format json \ --voice-id Voice ID \ --text 'Input text' \ --speech-mark-types='["sentence", "word", "viseme"]' \ outfile

스피치 마크 출력

Amazon Polly 는 줄로 구분된 JSON 스트림에서 스피치 마크 객체를 반환합니다. 스피치 마크 객체는 다음과 같은 필드를 포함합니다.

  • 시간— 해당하는 오디오 스트림 시작 부분의 타임스탬프 (밀리초)

  • 유형— 스피치 마크의 형식 (word, word, viseme, ssml)

  • start— 입력 텍스트에서 객체 시작의 오프셋 (바이트) (viseme 마크 포함하지 않음)

  • End— 입력 텍스트에서 객체 끝의 오프셋 (바이트) (viseme 마크 포함하지 않음)

  • — 스피치 마크의 유형에 따라 다릅니다.

    • SSML: <mark> SSML 태그

    • viseme: viseme 이름

    • word 또는 sentence: 시작 및 끝 필드로 구분된 입력 텍스트의 하위 문자열

예를 들어, Amazon Polly 다음과 같은word텍스트에서 스피치 마크 객체 “Mary”는 약간의 양고기를 가지고 있습니다.

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

설명된 단어 "had"는 오디오 스트림이 시작된 후 373밀리초부터 시작하여 입력 텍스트의 5바이트에서 시작하여 8바이트에서 끝납니다.

참고

이 메타데이터는Joanna 음성 ID용입니다. 동일한 입력 텍스트로 다른 음성을 사용하는 경우 메타데이터가 다를 수 있습니다.