Neuronales TTS - Amazon Polly

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Neuronales TTS

Amazon Polly verfügt über ein Neural TTS (NTTS)-System, das noch bessere Stimmen erzeugen kann als seine Standardstimmen. Das NTTS-System erzeugt so natürliche und menschliche text-to-speech Stimmen wie möglich.

Standard-TTS-Stimmen verwenden eine verkettete Synthese. Diese Methode verbindet (verkettet) die Phoneme der aufgezeichneten Sprache und erzeugt eine sehr natürlich klingende synthetisierte Sprache. Die unvermeidlichen Variationen der Sprache und die Techniken, die zum Segmentieren der Wellenformen verwendet werden, beschränken jedoch die Qualität der Sprache.

Das Amazon Polly Neural TTS-System verwendet keine standardmäßige verkettende Synthetisierung, um Sprache zu erzeugen. Es besteht aus zwei Teilen:

  • Einem neuronalen Netzwerk, das eine Sequenz von Phonemen – die grundlegendsten Spracheinheiten – in eine Sequenz von Spektrogrammen umwandelt. Dabei handelt es sich um Snapshots der Energiewerte in verschiedenen Frequenzbändern.

  • Einem Vocoder, der die Spektrogramme in ein kontinuierliches Audiosignal konvertiert.

Die erste Komponente des neuronalen TTS-Systems ist ein sequence-to-sequence Modell. Dieses Modell erstellt seine Ergebnisse nicht nur aus der entsprechenden Eingabe, sondern berücksichtigt auch, wie die Sequenz der Elemente der Eingabe zusammenarbeiten. Das Modell wählt die ausgegebenen Spektrogramme so aus, dass ihre Frequenzbänder akustische Merkmale betonen, die das menschliche Gehirn bei der Sprachverarbeitung verwendet.

Die Ausgabe dieses Modells wird dann an einen neuronalen Vocoder übergeben. Dadurch werden die Spektrogramme in Sprach-Wellenformen konvertiert. Wenn dieser sequence-to-sequence Ansatz anhand der großen Datensätze trainiert wird, die zum Erstellen allgemeiner Systeme mit verkettender Syntax verwendet werden, führt er zu qualitativeren, natürlicheren Stimmen.

Bolno (Italianisch), Und Bols (mexikanisch Spanisch), Aria (Neuseeland Englisch), Arlet (Catalan), ArtSpeed (Britisches Englisch), Ay Bol (Südafrisch Englisch), Burcu (Turkisch), Bol (DeUTsch), Bolle (USA Englisch), Elin (Schwedisch), GaBrielle (kanadisches Französisch), Gregory (USA Englisch), Hala (Alibisisch, GGRENZ), nah (Österreichisch), Hiujin (Kanada), Ida (Norwegisch), Bolle (Belgisch Französisch), Kajal (Hindi und indisches Englisch), Kazuha (Japanisch), Kevin (USA Englisch), Laura (Dutch), Liam (kanadisches Französisch), Lisa (Belgisch-Ländisch), Niamh (Irisch Englisch), Ola (Polish), Olivia (australisches Englisch), Pedro (USA Spanisch), Rémi (Französisch), Ruth (USA Englisch), Ser (kastilienisch Spanisch), Sofie (Dänisch), Stephen (USA Englisch), Suvi (Finnisch), (Brasilienisch-portugiesisch), Tomoko (Japanisch), - und yd-Stimmen (G Bol Arabic) werden von Amazon Polly nur bei Verwendung von NTTS unterstützt. Alle anderen Stimmen haben ein Gegenstück, das mit der Standard-TTS-Methode erstellt wurde. Wenn Sie eine reine NTTS-Sprache verwenden, muss der TTS-Engine-Parameter auf gesetzt werden, unabhängig davonneural, ob Sie die Konsole oder die API verwenden.

Kompatibilität von Funktionen und Regionen

Neurale Stimmen sind nicht in allen AWS Regionen verfügbar und unterstützen auch nicht alle Amazon Polly-Funktionen.

Neuronale Stimmen werden in den folgenden Regionen unterstützt:

  • USA Ost (Nord-Virginia): us-east-1

  • USA West (Oregon): us-west-2

  • Afrika (Kapstadt): af-south-1

  • Asien-Pazifik (Tokio): ap-northeast-1

  • Asien-Pazifik (Seoul): ap-northeast-2

  • Asien-Pazifik (Osaka): ap-northeast-3

  • Asien-Pazifik (Mumbai): ap-south-1

  • Asien-Pazifik (Singapur): ap-southeast-1

  • Asien-Pazifik (Sydney): ap-southeast-2

  • Kanada (Zentral): ca-central-1

  • Europa (Frankfurt): eu-central-1

  • Europa (Irland): eu-west-1

  • Europa (London): eu-west-2

  • Europa (Paris): eu-west-3

  • AWS GovCloud (USA-West): us-gov-west-1

Endpunkte und Protokolle für diese Regionen sind identisch mit denen für Standardstimmen. Weitere Informationen finden Sie unter Endpunkte und Kontingente von Amazon Polly.

Die folgenden Funktionen werden für neuronale Stimmen unterstützt:

  • Echtzeit- und asynchrone Sprachsyntheseoperationen.

  • Sprechstil von Newscaster. Weitere Informationen zu den Sprechstilen finden Sie unter NTTS Newscaster Sprechstil.

  • Alle Sprachzeichen.

  • Viele (aber nicht alle) SSML-Tags, die von Amazon Polly unterstützt werden. Weitere Informationen zu NTTS-unterstützten SSML-Tags finden Sie unter Unterstützte SSML-Tags.

Wie bei Standardstimmungen können Sie aus verschiedenen Samplingraten wählen, um die Bandbreite und Audioqualität für Ihre Anwendung zu optimieren. Gültige Samplingraten für Standard- und neuronale Stimmen sind 8 kHz, 16 kHz, 22 kHz oder 24 kHz. Der Standardwert für Standardstimmen ist 22 kHz. Der Standardwert für neuronale Stimmen ist 24 kHz Amazon Polly unterstützt MP3-, OCCP- (Vorbis) und unformatierte PCM-Audiostream-Formate.

Die Sprach-Engine

Mit Amazon Polly können Sie entweder neuronale oder Standardstimmen mit der -engineEigenschaft verwenden. Es hat drei mögliche Werte: Standard , Long Form oder Neural . Standard ist der Standardwert.

Wichtig

Wenn Sie sich nicht in einer der Regionen befinden, in denen NTTS unterstützt wird, wird nur die Standard-Sprach-Engine in der Konsole angezeigt. Wenn die neuronale Engine nicht angezeigt wird, überprüfen Sie Ihre Region. Weitere Informationen zu den Regionen, in denen NTTS verwendet werden kann, finden Sie unter Kompatibilität von Funktionen und Regionen.

Wenn Sie eine reine NTTS-Sprache verwenden, muss der TTS-Engine-Parameter auf gesetzt werden, unabhängig davonneural, ob Sie die Konsole oder die API verwenden.

Auswählen der Sprach-Engine (Konsole)

So wählen Sie eine Sprach-Engine aus (Konsole)
  1. Öffnen Sie die Amazon Polly-Konsole unter https://console.aws.amazon.com/polly/.

  2. Wählen Sie auf der Seite Text-to-Speech für Engine die Option Standard , Langform oder Neural aus.

    Wenn Sie Neural (Neuronal) auswählen, sind nur neuronale Stimmen verfügbar und reine standardmäßige Stimmen deaktiviert.

Auswählen der Sprach-Engine (CLI)

So wählen Sie eine Sprach-Engine (CLI) aus

Der engine Parameter ist optional und hat drei mögliche Werte: standardLong Form, oder Neural. Verwenden Sie diese Eigenschaft bei der Erstellung einer SynthesisSynthesisTask-Operation.

Sie können beispielsweise den folgenden Code verwenden, um den start-speech-synthesis-task AWS CLI Befehl in der Region USA West-2 (Oregon) auszuführen.

Das folgende AWS CLI Beispiel ist für Unix, Linux und macOS formatiert. Ersetzen Sie für Windows den umgekehrten Schrägstrich (\) Unix-Fortsetzungszeichen am Ende jeder Zeile durch ein caret (^) und verwenden Sie vollständige Anführungszeichen (") um den Eingabetext herum durch einfache Anführungszeichen (') für innere Tags.

aws polly start-speech-synthesis-task \ --engine neural --region us-west-2 \ --endpoint-url "https://polly.us-west-1.amazonaws.com/" \ --output-format mp3 \ --output-s3-bucket-name your-bucket-name \ --output-s3-key-prefix optional/prefix/path/file \ --voice-id Joanna \ --text file://text_file.txt

Dies führt zu einer Antwort, die ähnlich aussieht wie diese:

"SynthesisTask": { "CreationTime": [..], "Engine": "neural", "OutputFormat": "mp3", "OutputUri": "https://s3.us-west-1.amazonaws.com/your-bucket-name/optional/prefix/path/file.<task_id>.mp3", "TextType": "text", "RequestCharacters": [..], "TaskStatus": "scheduled", "TaskId": [task_id], "VoiceId": "Joanna" }