생성 음성 - Amazon Polly

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

생성 음성

Amazon Polly 의 생성형 text-to-speech (TTS) 엔진은 Amazon Polly 콘솔을 통해 사용할 수 있는 가장 인간적이고 감정적으로 참여하며 적응력이 뛰어난 대화형 음성을 제공합니다.

Generative 엔진은 현재까지 가장 큰 Amazon Polly TTS 모델입니다. 원시 텍스트를 스피치 코드로 변환하는 10억 파라미터 변환기를 배포한 다음, 이러한 스피치 코드를 증분적이고 스트리밍 가능한 방식으로 파형으로 변환하는 컨볼루션 기반 디코더를 배포합니다. 이 방법은 다양한 음성, 언어 및 스타일로 구성된 공개적으로 사용 가능한 독점 데이터의 볼륨 증가에 대해 훈련했을 때 대규모 언어 모델(LLMs)이 널리 보고되는 긴급한 기능을 보여줍니다.

Generative 엔진은 인간의 목소리와 매우 유사한 방식으로 감정적으로 참여하고, 적극적이며, 매우 구어적인 합성 음성을 생성합니다. 이러한 음성을 지식이 풍부한 고객 어시스턴트, 가상 트레이너 또는 인간에 가까운 합성 음성을 사용하는 광고주로 사용할 수 있습니다.

참고

이러한 음성의 기반이 state-of-the-art되는 기술은 언어 및 음성 모델링을 위한 생성형 AI의 패러다임에 속합니다. 이 기술의 부작용은 훈련 데이터와 모델에 대한 업데이트로 인해 모델 업데이트로 전반적인 품질이 향상되는 경우에도 음성이 들리는 방식이 약간 달라질 수 있다는 것입니다. 이는 팟캐스트 시즌과 같이 장기간에 걸쳐 다양한 콘텐츠 부분이 합성된 사용 사례에 영향을 미칠 수 있습니다.

사용 가능한 생성 음성

Amazon Polly는 현재 생성 변형에서 7개의 음성을 제공합니다. 이러한 생성 음성은 대화형 NTTS 변형에서도 사용할 수 있습니다.

언어 언어 코드 이름/ID Gender

1

영어(호주)

en-AU

Olivia

여성

2

영어(영국)

en-GB

Amy

여성

3

영어(미국)

en-US

Danielle

여성

4

영어(미국)

en-US

Joanna

여성

5

영어(미국)

en-US

Matthew

남성

6

영어(미국)

en-US

Ruth

여성

7

영어(미국)

en-US

Stephen

남성

참고

생성 음성 비용은 Amazon Polly 요금 정보 페이지에 지정됩니다.

기능 및 리전 호환성

Amazon Polly 생성 음성은 다음 리전에서 사용할 수 있습니다.

  • 미국 동부(버지니아 북부): us-east-1

  • 유럽(프랑크푸르트): eu-central-1

  • 미국 서부(오레곤): us-west-2

  • 다른 리전은 사용할 수 없습니다.

생성 음성에는 다음 기능이 지원됩니다.

  • 실시간 및 비동기 스피치 합성 작업

  • 세대 엔진에서는 뉴스캐스터 말하기 스타일이 지원되지 않습니다.

  • Amazon Polly 에서는 많은(전부는 아님) SSML 태그를 지원합니다. 지원되는 NTTS SSML 태그에 대한 자세한 내용은 지원되는 SSML 태그를 참조하세요.

  • 표준 음성의 경우와 마찬가지로, 다양한 샘플링 속도 중에서 선택하여 애플리케이션의 대역폭과 오디오 품질을 최적화할 수 있습니다. 표준 및 신경 음성에 유효한 샘플링 속도는 8kHz, 16kHz, 22 kHz또는 24입니다kHz. 표준 음성의 기본값은 22입니다kHz. 생성 음성의 기본값은 24입니다kHz. Amazon Polly는 MP3, OGG (보비스) 및 원시 PCM 오디오 스트림 형식을 지원합니다.

현재 스피치 마크 생성에 대한 지원을 사용할 수 없습니다.

참고

드물게 모델 환각이 발생할 경우(그리고 스피치 토큰을 토큰으로 렌더링하는 Generative 엔진의 모델 동작) 강제 비상 중지 메커니즘이 마련되어 있습니다. 기본 제공 메커니즘은 모델이 더 이상 스피치를 렌더링하지 못하게 합니다. 이 안전 기능은 모델이 일반적으로 문장 끝에 환각될 가능성이 있는 데이터 분석을 기반으로 합니다.

모델이 환각될 것이라고 생각한 다음 생성 단계에서 단어를 잘라서 단어의 절반을 만드는 경우가 있을 수 있습니다. 이로 인해 부적절한 결과가 발생할 수 있습니다.