Sources de données Données d’entraînement ou données de réglage

Modèles de langue personnalisés

Les modèles de langue personnalisés sont conçus pour améliorer la précision de la transcription des discours spécifiques à un domaine. Cela inclut tout contenu autre que celui que vous entendriez dans les conversations normales de tous les jours. Par exemple, si vous transcrivez les débats d’une conférence scientifique, il est peu probable qu’une transcription standard reconnaisse la plupart des termes scientifiques utilisés par les intervenants. Dans ce cas, vous pouvez entraîner un modèle de langue personnalisé pour reconnaître les termes spécialisés utilisés dans votre discipline.

Contrairement aux vocabulaires personnalisés, qui améliorent la reconnaissance d’un mot en fournissant des indices (tels que des prononciations), les modèles de langue personnalisés apprennent le contexte associé à un mot donné. Cela inclut comment et quand un mot est utilisé, ainsi que la relation qu’un mot entretient avec d’autres mots. Par exemple, si vous entraînez votre modèle à l’aide de documents de recherche en climatologie, votre modèle apprendra peut-être que « banquise » est un mot plus probable que « flux de glace ».

Pour connaître les langues prises en charge pour les modèles de langue personnalisés, consultez la section Langues prises en charge et fonctionnalités spécifiques aux langues. Notez que si vous incluez un modèle de langue personnalisé dans votre demande, vous ne pouvez pas activer l’identification de la langue (vous devez spécifier un code de langue).

Opérations d’API spécifiques aux modèles de langue personnalisés

CreateLanguageModel, DeleteLanguageModel, DescribeLanguageModel, ListLanguageModels

Sources de données

Vous pouvez utiliser n’importe quel type de données texte pour entraîner votre modèle. Toutefois, plus le contenu de votre texte est proche de votre contenu audio, plus votre modèle est précis. Il est donc important de choisir des données texte qui utilisent les mêmes termes dans le même contexte que votre fichier audio.

Les meilleures données pour l’entraînement d’un modèle sont des transcriptions précises. Ces données sont considérées comme des données internes au domaine. Les données texte internes au domaine ont exactement les mêmes termes, utilisations et contextes que l’audio que vous souhaitez transcrire.

Si vous ne disposez pas de transcriptions précises, utilisez des articles de journaux, des rapports techniques, des livres blancs, des débats de conférence, des manuels d’instructions, des articles de presse, du contenu de sites Web et tout autre texte contenant les termes souhaités utilisés dans un contexte similaire à celui de votre audio. Ces données sont considérées comme des données relatives au domaine.

La création d’un modèle de langue personnalisé robuste peut nécessiter une quantité importante de données texte, qui doivent contenir les termes prononcés dans votre audio. Vous pouvez fournir jusqu' Amazon Transcribe à 2 Go de données texte pour entraîner votre modèle, c'est ce que l'on appelle les données d'entraînement. Facultativement, lorsque vous n'avez pas (ou peu) de transcriptions internes au domaine, vous pouvez fournir jusqu' Amazon Transcribe à 200 Mo de données texte pour ajuster votre modèle. C'est ce que l'on appelle les données de réglage.

Données d’entraînement ou données de réglage

L'objectif des données de formation est d'apprendre Amazon Transcribe à reconnaître de nouveaux termes et à connaître le contexte dans lequel ces termes sont utilisés. Pour créer un modèle robuste, Amazon Transcribe peut nécessiter un grand volume de données texte pertinentes. Il est fortement recommandé de fournir autant de données d’entraînement que possible, dans la limite de 2 Go.

Le but du réglage des données est d’aider à affiner et à optimiser les relations contextuelles apprises à partir de vos données d’entraînement. Les données de réglage ne sont pas nécessaires pour créer un modèle de langue personnalisé.

C’est à vous de décider de la meilleure façon de sélectionner les données d’entraînement et, éventuellement, les données de réglage. Chaque cas est unique et dépend du type et de la quantité de données dont vous disposez. Les données de réglage sont recommandées lorsque vous ne disposez pas de données d’entraînement internes au domaine.

Si vous choisissez d’inclure les deux types de données, ne superposez pas vos données d’entraînement et vos données de réglage ; elles doivent être uniques. Le chevauchement des données peut biaiser et fausser votre modèle de langue personnalisé, ce qui a un impact sur sa précision.

À titre indicatif, et dans la mesure du possible, nous vous recommandons d’utiliser du texte précis propre au domaine comme données d’entraînement. Voici quelques scénarios généraux, classés par ordre de préférence :

Si vous avez plus de 10 000 mots de texte de transcription précis dans le domaine, utilisez-les comme données d’apprentissage. Dans ce cas, il n’est pas nécessaire d’inclure des données de réglage. C’est le scénario idéal pour la formation d’un modèle de langue personnalisé.
Si vous disposez d’un texte de transcription précis dans le domaine contenant moins de 10 000 mots et que vous n’obtenez pas les résultats souhaités, pensez à compléter vos données d’entraînement par des textes écrits liés au domaine, tels que des rapports techniques. Dans ce cas, réservez une petite partie (10 à 25 %) de vos données de transcription internes au domaine pour les utiliser comme données de réglage.
Si vous n’avez aucun texte de transcription dans le domaine, téléchargez tout le texte lié à votre domaine sous forme de données d’entraînement. Dans ce cas, il est préférable d’utiliser un texte transcrit plutôt qu’un texte écrit. C’est le scénario le moins efficace pour l’entraînement d’un modèle de langue personnalisé.

Lorsque vous êtes prêt à créer votre modèle, consultez la section Création d’un modèle de langue personnalisé.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisation d’un vocabulaire personnalisé

Création d’un modèle de langue personnalisé