생성형 음성

Amazon Polly 생성형 텍스트 투 스피치(TTS) 엔진은 Amazon Polly 콘솔을 통해 사용할 수 있는, 사람과 매우 비슷하고 감정적으로 능숙하며 적응력이 뛰어난 대화형 음성을 제공합니다.

생성형 엔진은 현재까지 가장 규모가 큰 Amazon Polly TTS 모델입니다. 이는 원시 텍스트를 스피치 코드로 변환하는 10억 개 파라미터 트랜스포머를 배포한 다음, 이러한 스피치 코드를 증분적이고 스트리밍 가능한 방식으로 파형으로 변환하는 컨볼루션 기반 디코더를 배포합니다. 이 방법은 다양한 음성, 언어 및 스타일로 구성되고 점점 증가하는 공개적으로 이용 가능한 데이터와 독점 데이터로 훈련할 때 대규모 언어 모델(LLM)의 널리 보고된 새로운 능력을 보여줍니다.

생성형 엔진은 사람의 음성과 놀랍도록 비슷하게 감정적으로 능숙하며 단호하고 고도로 구어체인 합성 스피치를 생성합니다. 사람에 가까운 합성 스피치를 통해 이러한 음성을 지식이 풍부한 고객 어시스턴트, 가상 트레이너 또는 광고주로 사용할 수 있습니다.

참고

이러한 음성의 기반이 되는 최첨단 기술은 언어 및 음성 모델링을 위한 생성형 AI 패러다임에 속합니다. 이 기술의 부작용으로, 훈련 데이터와 모델을 업데이트하면 모델 업데이트에 따라 전반적인 품질이 향상되더라도 음성이 약간 다르게 들릴 수 있습니다. 이는 예를 들어 팟캐스트 시즌과 같이 장기간에 걸쳐 다양한 콘텐츠 부분이 합성되는 사용 사례에 영향을 미칠 수 있습니다.

사용 가능한 생성형 음성

Amazon Polly는 현재 생성형 변형에서 20개의 음성을 제공합니다. 또한 이러한 생성형 음성은 대화형 NTTS 변형으로 사용할 수 있습니다.

	Language	언어 코드	이름/ID	Gender
1	영어(호주)	en-AU	Olivia	여성
2	영어(인도)	en-IN	Kajal	여성
3	영어(영국)	en-GB	Amy	여성
4	영어(미국)	en-US	Danielle	여성
5	영어(미국)	en-US	Joanna	여성
6	영어(미국)	en-US	Matthew	남성
7	영어(미국)	en-US	Ruth	여성
8	영어(미국)	en-US	Stephen	남성
9	영어(남아프리카)	en-ZA	Ayanda	여성
10	프랑스어(프랑스)	fr-FR	Léa	여성
11	프랑스어(프랑스)	fr-FR	Rémi	남성
12	스페인어(스페인)	es-ES	Lucia	여성
13	스페인어(스페인)	es-ES	Sergio	남성
14	스페인어(멕시코)	es-MX	Mía	여성
15	스페인어(멕시코)	es-MX	Andrés	남성
16	스페인어(미국)	es-US	Lupe	여성
17	스페인어(미국)	es-US	Pedro	남성
18	독일어(독일)	de-DE	Vicki	여성
19	독일어(독일)	de-DE	Daniel	남성
20	이탈리아어(이탈리아)	it-IT	Bianca	여성

참고

생성형 음성 비용은 Amazon Polly 요금 정보 페이지에 명시되어 있습니다.

기능 및 리전 호환성

Amazon Polly 생성형 음성을 사용할 수 있는 리전은 다음과 같습니다.

미국 동부(버지니아 북부): us-east-1
유럽(프랑크푸르트): eu-central-1
미국 서부(오레곤): us-west-2
기타 리전에서는 사용할 수 없음

생성형 음성에 지원되는 기능:

실시간 및 비동기 스피치 합성 작업
생성형 엔진에서는 뉴스 진행자 말투가 지원되지 않습니다.
상당수의(전부 아님) SSML 태그가 Amazon Polly에서 지원됩니다. NTTS를 지원하는 SSML 태그에 대한 자세한 내용은 지원되는 SSML 태그를 참조하세요.
표준 음성의 경우와 마찬가지로, 다양한 샘플링 속도 중에서 선택하여 애플리케이션의 대역폭과 오디오 품질을 최적화할 수 있습니다. 표준 음성과 신경 음성에 맞는 샘플링 속도는 8kHz, 16kHz, 22kHz 또는 24kHz입니다. 표준 음성의 기본값은 22kHz이고 생성형 음성의 기본값은 24kHz입니다. Amazon Polly는 MP3, OGG(Vorbis) 및 원시 PCM 오디오 스트림 형식을 지원합니다.

스피치 마크 생성은 현재 지원되지 않습니다.

참고

드물게 모델 할루시네이션이 발생할 경우(그리고 토큰으로 스피치 토큰을 렌더링하는 생성형 엔진의 모델 동작 발생) 강제 비상 중지 메커니즘이 실행됩니다. 이 기본 제공 메커니즘은 모델이 더 이상 스피치를 렌더링하지 못하도록 합니다. 이러한 안전 기능은 모델이 일반적으로 문장 끝에서 할루시네이션을 일으킬 가능성이 있다는 데이터 분석을 기반으로 합니다.

모델이 할루시네이션을 일으킬 것이라고 판단하여 생성 단계에서 단어를 잘라내 단어의 절반을 렌더링하는 경우가 생길 수 있습니다. 이로 인해 부적절한 결과가 발생할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

음성 엔진

롱폼 엔진