Modèles de langage personnalisés - Amazon Transcribe

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Modèles de langage personnalisés

Les modèles linguistiques personnalisés sont conçus pour améliorer la précision de la transcription des discours spécifiques à un domaine. Cela inclut tout contenu en dehors de ce que vous entendriez dans les conversations normales de tous les jours. Par exemple, si vous transcrivez les actes d'une conférence scientifique, il est peu probable qu'une transcription standard reconnaisse la plupart des termes scientifiques utilisés par les présentateurs. Dans ce cas, vous pouvez créer un modèle de langage personnalisé pour reconnaître les termes spécialisés utilisés dans votre discipline.

Contrairement aux vocabulaires personnalisés, qui améliorent la reconnaissance d'un mot en fournissant des indices (tels que des prononciations), les modèles de langage personnalisés apprennent le contexte associé à un mot donné. Cela inclut comment et quand un mot est utilisé, ainsi que la relation qu'un mot entretient avec d'autres mots. Par exemple, si vous entraînez votre modèle à l'aide d'articles de recherche sur la climatologie, il se peut que votre modèle apprenne que « banquise » est une paire de mots plus probable que « flux de glace ».

Pour consulter les langues prises en charge pour les modèles de langue personnalisés, reportez-vous àLangues prises en charge et fonctionnalités spécifiques aux langues. Notez que si vous incluez un modèle de langue personnalisé dans votre demande, vous ne pouvez pas activer l'identification de la langue (vous devez spécifier un code de langue).

Opérations d'API spécifiques aux modèles de langage personnalisés

Sources de données

Vous pouvez utiliser n'importe quel type de données texte pour entraîner votre modèle. Toutefois, plus le contenu de votre texte est proche de votre contenu audio, plus votre modèle est précis. Il est donc important de choisir des données textuelles qui utilisent les mêmes termes dans le même contexte que votre fichier audio.

Les meilleures données pour l'entraînement d'un modèle sont des transcriptions précises. Ces données sont considérées comme des données internes au domaine. Les données textuelles du domaine ont exactement les mêmes termes, la même utilisation et le même contexte que l'audio que vous souhaitez transcrire.

Si vous ne disposez pas de transcriptions précises, utilisez des articles de journaux, des rapports techniques, des livres blancs, des actes de conférence, des manuels d'instructions, des articles de presse, du contenu de sites Web et tout autre texte contenant les termes souhaités utilisés dans un contexte similaire à celui de votre audio. Ces données sont considérées comme liées au domaine.

La création d'un modèle de langage personnalisé robuste peut nécessiter une quantité importante de données textuelles, qui doivent contenir les termes prononcés dans votre fichier audio. Vous pouvez fournir jusqu'Amazon Transcribeà 2 Go de données texte pour entraîner votre modèle. C'est ce que l'on appelle les données d'entraînement. Si vous n'avez pas (ou peu) de transcriptions dans le domaine, vous pouvez éventuellement Amazon Transcribe fournir jusqu'à 200 Mo de données texte pour ajuster votre modèle. C'est ce que l'on appelle les données de réglage.

Données d'entraînement ou de réglage

Les données d'apprentissage ont pour but d'apprendre Amazon Transcribe à reconnaître de nouveaux termes et à connaître le contexte dans lequel ces termes sont utilisés. La création d'un modèle robuste Amazon Transcribe peut nécessiter un volume important de données textuelles pertinentes. Il est fortement recommandé de fournir autant de données d'entraînement que possible, jusqu'à la limite de 2 Go.

L'objectif du réglage des données est d'aider à affiner et à optimiser les relations contextuelles apprises à partir de vos données d'entraînement. Les données de réglage ne sont pas requises pour la création d'un modèle de langue personnalisé.

C'est à vous de décider de la meilleure façon de sélectionner l'entraînement et, éventuellement, de régler les données. Chaque cas est unique et dépend du type et de la quantité de données dont vous disposez. Les données de réglage sont recommandées lorsque vous ne disposez pas de données d'entraînement dans le domaine.

Si vous choisissez d'inclure les deux types de données, ne superposez pas vos données d'entraînement et de réglage ; les données d'entraînement et de réglage doivent être uniques. Les données qui se chevauchent peuvent biaiser et fausser votre modèle de langage personnalisé, ce qui a une incidence sur sa précision.

D'une manière générale, nous vous recommandons d'utiliser un texte précis et propre au domaine comme données d'entraînement dans la mesure du possible. Voici quelques scénarios généraux, classés par ordre de préférence :

  • Si vous disposez de plus de 10 000 mots de texte de transcription précis et intégré au domaine, utilisez-le comme données d'apprentissage. Dans ce cas, il n'est pas nécessaire d'inclure des données de réglage. C'est le modèle idéal pour la formation d'un modèle de langue personnalisé.

  • Si votre texte de transcription intégré au domaine contient moins de 10 000 mots et que vous n'obtenez pas les résultats souhaités, pensez à compléter vos données d'entraînement avec des textes écrits liés au domaine, tels que des rapports techniques. Dans ce cas, réservez une petite partie (10 à 25 %) de vos données de transcription internes au domaine à utiliser comme données de réglage.

  • Si vous n'avez pas de texte de transcription intégré au domaine, téléchargez tout le texte lié à votre domaine sous forme de données d'apprentissage. Dans ce cas, le texte de type transcription est préférable au texte écrit. Il s'agit du scénario le moins efficace pour former un modèle de langage personnalisé.

Lorsque vous êtes prêt à créer votre modèle, reportez-vous àCréation d'un modèle de langage personnalisé.