기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
스피치 부호 사용
스피치 마크 요청
입력 텍스트의 스피치 마크를 요청하려면 synthesize-speech
명령을 사용하세요. 입력 텍스트 외에 이 메타데이터를 반환하려면 다음 요소가 필요합니다.
-
output-format
Amazon Polly에서는 스피치 마크를 반환할 때 JSON 형식만 지원합니다.
--output-format json
지원되지 않는 출력 형식을 사용하면 Amazon Polly에서 예외가 발생합니다.
-
voice-id
메타데이터가 관련 오디오 스트림과 일치하는지 확인하려면 합성 스피치 오디오 스트림을 생성하는 데 사용되는 것과 동일한 음성을 지정하세요. 사용 가능한 음성은 동일한 스피치 속도를 아닙니다. 스피치를 생성하는 데 사용된 것과 다른 음성을 사용하는 경우 메타데이터가 오디오 스트림과 일치하지 않습니다.
--voice-id Joanna
-
speech-mark-types
원하는 스피치 마크 유형을 지정합니다. 스피치 마크 형식의 일부 또는 전부를 요청할 수 있지만 적어도 하나의 형식을 지정해야 합니다.
--speech-mark-types='["sentence", "word", "viseme", "ssml"]'
-
text-type
일반 텍스트는 Amazon Polly의 기본 입력 텍스트이므로 SSML 스피치 마크를 반환하려면
text-type ssml
을 사용해야 합니다. -
outfile
메타데이터가 기록되는 출력 파일을 지정합니다.
MaryLamb.txt
다음 AWS CLI 예제는 유닉스, 리눅스, macOS용으로 포맷되었습니다. Windows의 경우 각 줄 끝에 있는 백슬래시(\) Unix 연속 문자를 캐럿(^)으로 바꿉니다. 입력 텍스트는 큰 따옴표(")로 감싸고 내부 태그에는 작은 따옴표(')를 사용합니다.
aws polly synthesize-speech \ --output-format json \ --voice-id
Voice ID
\ --text 'Input text
' \ --speech-mark-types='["sentence", "word", "viseme"]' \outfile
스피치 마크 출력
Amazon Polly에서는 줄로 구분된 JSON 스트림에서 스피치 마크 객체를 반환합니다. 스피치 마크 객체는 다음과 같은 필드를 포함합니다.
-
time – 해당하는 오디오 스트림 시작 부분의 타임스탬프(밀리초)
-
type – 스피치 마크의 형식(sentence, word, viseme, ssml)
-
start – 입력 텍스트에서 객체 시작의 오프셋(바이트)(viseme 마크 포함하지 않음)
-
end – 입력 텍스트에서 객체 끝의 오프셋(바이트)(viseme 마크 포함하지 않음)
-
value – 스피치 마크 형식에 따라 다양
SSML: <mark> SSML 태그
viseme: viseme 이름
word 또는 sentence: 시작 및 끝 필드로 구분된 입력 텍스트의 하위 문자열
예를 들어, Amazon Polly에 "Mary have little lamb" 텍스트를 제공하면 다음 word
스피치 마크 객체를 생성합니다.
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
설명된 단어 "had"는 오디오 스트림이 시작된 후 373밀리초부터 시작하여 입력 텍스트의 5바이트에서 시작하여 8바이트에서 끝납니다.
참고
이 메타데이터는Joanna
음성 ID용입니다. 동일한 입력 텍스트로 다른 음성을 사용하는 경우 메타데이터가 다를 수 있습니다.