Benutzerdefinierte Sprachmodelle - Amazon Transcribe

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Benutzerdefinierte Sprachmodelle

Benutzerdefinierte Sprachmodelle wurden entwickelt, um die Transkriptionsgenauigkeit für domänenspezifische Sprache zu verbessern. Dies schließt alle Inhalte ein, die nicht dem entsprechen, was Sie in normalen, alltäglichen Gesprächen hören würden. Wenn Sie beispielsweise den Tagungsband einer wissenschaftlichen Konferenz transkribieren, ist es unwahrscheinlich, dass eine Standardtranskription viele der von den Vortragenden verwendeten wissenschaftlichen Begriffe wiedererkennt. In diesem Fall können Sie ein benutzerdefiniertes Sprachmodell trainieren, um die in Ihrer Disziplin verwendeten Fachbegriffe zu erkennen.

Im Gegensatz zu benutzerdefinierten Vokabeln, die die Wiedererkennung eines Wortes verbessern, indem sie Hinweise geben (z. B. zur Aussprache), lernen benutzerdefinierte Sprachmodelle den Kontext, der mit einem bestimmten Wort verknüpft ist. Dazu gehört, wie und wann ein Wort verwendet wird und welche Beziehung ein Wort zu anderen Wörtern hat. Wenn Sie Ihr Modell beispielsweise anhand von klimawissenschaftlichen Forschungsarbeiten trainieren, lernt Ihr Modell möglicherweise, dass „Eisscholle“ ein wahrscheinlicheres Wortpaar ist als „Eisfluss“.

Die unterstützten Sprachen für benutzerdefinierte Sprachmodelle finden Sie unterUnterstützte Sprachen und sprachspezifische Funktionen. Beachten Sie, dass Sie die Sprachenidentifikation nicht aktivieren können, wenn Sie Ihrer Anfrage ein benutzerdefiniertes Sprachmodell hinzufügen (Sie müssen einen Sprachcode angeben).

API-Operationen speziell für benutzerdefinierte Sprachmodelle

Datenquellen

Sie können jede Art von Textdaten verwenden, um Ihr Modell zu trainieren. Je näher Ihr Textinhalt jedoch an Ihren Audioinhalten ist, desto genauer ist Ihr Modell. Daher ist es wichtig, Textdaten auszuwählen, die dieselben Begriffe im gleichen Kontext wie Ihr Audio verwenden.

Die besten Daten für das Training eines Modells sind genaue Transkripte. Dies wird als domäneninterne Daten betrachtet. Domaininterne Textdaten haben genau dieselben Begriffe, dieselbe Verwendung und denselben Kontext wie das Audio, das Sie transkribieren möchten.

Wenn Sie nicht über genaue Transkripte verfügen, verwenden Sie Zeitschriftenartikel, technische Berichte, Whitepapers, Konferenzberichte, Benutzerhandbücher, Nachrichtenartikel, Website-Inhalte und jeden anderen Text, der die gewünschten Begriffe enthält, die in einem ähnlichen Kontext wie in Ihrem Audio verwendet werden. Dies wird als domänenbezogene Daten betrachtet.

Um ein robustes benutzerdefiniertes Sprachmodell zu erstellen, ist möglicherweise eine erhebliche Menge an Textdaten erforderlich, die die in Ihrem Audio gesprochenen Begriffe enthalten müssen. Sie können bis Amazon Transcribe zu 2 GB an Textdaten bereitstellen, um Ihr Modell zu trainieren. Diese werden als Trainingsdaten bezeichnet. Wenn Sie keine (oder nur wenige) domäneninterne Transkripte haben, können Sie optional bis zu 200 MB an Textdaten Amazon Transcribe bereitstellen, um Ihr Modell zu optimieren — dies wird als Tuning-Daten bezeichnet.

Daten trainieren oder optimieren

Der Zweck von Trainingsdaten besteht darin, Amazon Transcribe zu lehren, neue Begriffe zu erkennen und den Kontext zu erlernen, in dem diese Begriffe verwendet werden. Um ein robustes Modell zu erstellen, ist Amazon Transcribe möglicherweise eine große Menge relevanter Textdaten erforderlich. Es wird dringend empfohlen, so viele Trainingsdaten wie möglich bis zum Limit von 2 GB bereitzustellen.

Der Zweck der Datenoptimierung besteht darin, die aus Ihren Trainingsdaten gewonnenen kontextuellen Beziehungen zu verfeinern und zu optimieren. Zum Erstellen eines benutzerdefinierten Sprachmodells.

Es liegt an Ihnen, zu entscheiden, wie Sie die Trainings- und optional die Tuning-Daten am besten auswählen. Jeder Fall ist einzigartig und hängt von der Art und Menge der Daten ab, die Sie haben. Optimierungsdaten werden empfohlen, wenn Ihnen domäneninterne Trainingsdaten fehlen.

Wenn du dich dafür entscheidest, beide Datentypen einzubeziehen, überschneide deine Trainings- und Tuning-Daten nicht. Trainings- und Tuning-Daten sollten eindeutig sein. Überlappende Daten können Ihr benutzerdefiniertes Sprachmodell verzerren und verzerren, was sich auf dessen Genauigkeit auswirkt.

Als allgemeine Richtlinie empfehlen wir, wann immer möglich genaue, domäneninterne Texte als Trainingsdaten zu verwenden. Hier sind einige allgemeine Szenarien, die in der Reihenfolge ihrer Präferenz aufgeführt sind:

  • Wenn Sie mehr als 10.000 Wörter mit genauem, domäneninternem Transkripttext haben, verwenden Sie ihn als Trainingsdaten. In diesem Fall müssen keine Tuning-Daten hinzugefügt werden. Dies ist das ideale Szenario zum Training eines benutzerdefinierten Sprachmodells.

  • Wenn Sie über einen genauen, domäneninternen Transkripttext mit weniger als 10.000 Wörtern verfügen und nicht die gewünschten Ergebnisse erzielen, sollten Sie erwägen, Ihre Trainingsdaten durch domänenbezogene schriftliche Texte wie technische Berichte zu ergänzen. Reservieren Sie in diesem Fall einen kleinen Teil (10-25%) Ihrer Domain-Transkriptdaten, um ihn als Tuning-Daten zu verwenden.

  • Wenn Sie keinen domäneninternen Transkripttext haben, laden Sie Ihren gesamten domänenbezogenen Text als Trainingsdaten hoch. In diesem Fall ist Text im Transkriptstil geschriebenem Text vorzuziehen. Dies ist das am wenigsten effektive Szenario für das Training eines benutzerdefinierten Sprachmodells.

Wenn Sie bereit sind, Ihr Modell anzulegen, finden Sie weitere InformationenEin benutzerdefiniertes Sprachmodell erstellen.