Amazon Polly
개발자 안내서

Amazon Polly: 작동 방식

Amazon Polly는 입력 텍스트를 실제 같은 음성으로 변환합니다. 스피치 합성 메서드 중 하나를 호출하고, 합성하려는 텍스트를 제공한 다음 사용 가능한 TTS(텍스트 투 스피치) 음성 중 하나를 선택하고, 오디오 출력 형식을 지정합니다. Amazon Polly는 제공된 텍스트를 고품질 스피치 오디오 스트림으로 합성합니다.

  • 입력 텍스트 – 합성하려는 텍스트를 제공하고 Amazon Polly에서 오디오 스트림을 반환합니다. 입력은 일반 텍스트 또는 SSML(Speech Synthesis Markup Language) 형식으로 제공할 수 있습니다. SSML을 사용하면 발음, 볼륨, 피치 및 말하기 속도와 같은 다양한 음성 측면을 제어 할 수 있습니다. 자세한 내용은 SSML 문서로부터 스피치 생성를 참조하십시오.

     

  • 사용 가능한 음성 – Amazon Polly에서는 다양한 언어의 포트폴리오와 이중 언어 음성(영어 및 힌디어)을 비롯한 다양한 음성을 제공합니다. 대부분의 언어에서 남성과 여성을 포함한 여러 가지 음성 중에서 선택할 수 있습니다. 스피치 합성 작업을 시작할 때 음성 ID 이름을 지정하면 서비스에서 이 음성을 사용하여 텍스트를 스피치로 변환합니다. Amazon Polly는 번역 서비스가 아닙니다.—스피치는 해당 텍스트의 언어로 합성됩니다. 그러나 숫자를 사용하는 수(예: 오십삼이 아닌 53)는 음성 언어로 합성됩니다. 자세한 내용은 Amazon Polly의 음성을 참조하십시오.

     

  • 출력 형식 – Amazon Polly는 여러 가지 형식으로 합성된 스피치를 전달할 수 있습니다. 사용자의 요구 사항에 맞는 음성 형식을 선택할 수 있습니다. 예를 들어, 웹 및 모바일 애플리케이션에서 사용하도록 MP3 또는 Ogg Vorbis 형식의 스피치를 요청할 수 있습니다. 또는 AWS IoT 장치 및 전화 솔루션에 대한 PCM 출력 형식을 요청할 수도 있습니다.

다음 단계

Amazon Polly을 처음 사용하는 경우, 먼저 다음 항목을 순서대로 읽어보십시오.

이 페이지에서: