스피치 부호 사용 - Amazon Polly

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

스피치 부호 사용

스피치 마크 요청

입력 텍스트의 스피치 마크를 요청하려면 synthesize-speech 명령을 사용하세요. 입력 텍스트 외에 이 메타데이터를 반환하려면 다음 요소가 필요합니다.

  • output-format

    Amazon Polly에서는 스피치 마크를 반환할 때 JSON 형식만 지원합니다.

    --output-format json

    지원되지 않는 출력 형식을 사용하면 Amazon Polly에서 예외가 발생합니다.

  • voice-id

    메타데이터가 관련 오디오 스트림과 일치하는지 확인하려면 합성 스피치 오디오 스트림을 생성하는 데 사용되는 것과 동일한 음성을 지정하세요. 사용 가능한 음성은 동일한 스피치 속도를 아닙니다. 스피치를 생성하는 데 사용된 것과 다른 음성을 사용하는 경우 메타데이터가 오디오 스트림과 일치하지 않습니다.

    --voice-id Joanna
  • speech-mark-types

    원하는 스피치 마크 유형을 지정합니다. 스피치 마크 형식의 일부 또는 전부를 요청할 수 있지만 적어도 하나의 형식을 지정해야 합니다.

    --speech-mark-types='["sentence", "word", "viseme", "ssml"]'
  • text-type

    일반 텍스트는 Amazon Polly의 기본 입력 텍스트이므로 SSML 스피치 마크를 반환하려면 text-type ssml을 사용해야 합니다.

  • outfile

    메타데이터가 기록되는 출력 파일을 지정합니다.

    MaryLamb.txt

 

다음 AWS CLI 예제는 유닉스, 리눅스, macOS용으로 포맷되었습니다. Windows의 경우 각 줄 끝에 있는 백슬래시(\) Unix 연속 문자를 캐럿(^)으로 바꿉니다. 입력 텍스트는 큰 따옴표(")로 감싸고 내부 태그에는 작은 따옴표(')를 사용합니다.

aws polly synthesize-speech \ --output-format json \ --voice-id Voice ID \ --text 'Input text' \ --speech-mark-types='["sentence", "word", "viseme"]' \ outfile

스피치 마크 출력

Amazon Polly에서는 줄로 구분된 JSON 스트림에서 스피치 마크 객체를 반환합니다. 스피치 마크 객체는 다음과 같은 필드를 포함합니다.

  • time – 해당하는 오디오 스트림 시작 부분의 타임스탬프(밀리초)

  • type – 스피치 마크의 형식(sentence, word, viseme, ssml)

  • start – 입력 텍스트에서 객체 시작의 오프셋(바이트)(viseme 마크 포함하지 않음)

  • end – 입력 텍스트에서 객체 끝의 오프셋(바이트)(viseme 마크 포함하지 않음)

  • value – 스피치 마크 형식에 따라 다양

    • SSML: <mark> SSML 태그

    • viseme: viseme 이름

    • word 또는 sentence: 시작 및 끝 필드로 구분된 입력 텍스트의 하위 문자열

예를 들어, Amazon Polly에 "Mary have little lamb" 텍스트를 제공하면 다음 word 스피치 마크 객체를 생성합니다.

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

설명된 단어 "had"는 오디오 스트림이 시작된 후 373밀리초부터 시작하여 입력 텍스트의 5바이트에서 시작하여 8바이트에서 끝납니다.

참고

이 메타데이터는Joanna 음성 ID용입니다. 동일한 입력 텍스트로 다른 음성을 사용하는 경우 메타데이터가 다를 수 있습니다.