Création d’un vocabulaire personnalisé à l’aide d’un tableau - Amazon Transcribe

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d’un vocabulaire personnalisé à l’aide d’un tableau

L’utilisation d’un tableau est la méthode préférée pour créer votre vocabulaire personnalisé. Les tableaux de vocabulaires doivent comporter quatre colonnes (Phrase, SoundsLike, IPA, and DisplayAs), qui peuvent être incluses dans n’importe quel ordre :

Expression SoundsLike IPA DisplayAs

Obligatoire. Chaque ligne de votre tableau doit contenir une entrée dans cette colonne.

N’utilisez pas d’espaces dans cette colonne.

Si votre entrée contient plusieurs mots, séparez-les par un trait d’union (-). Par exemple, Andorra-la-Vella ou Los-Angeles.

Pour les acronymes, les lettres prononcées doivent être séparées par un point. Le point final doit également être prononcé. Si votre acronyme est au pluriel, vous devez utiliser un trait d’union entre l’acronyme et le « s ». Par exemple, « CLI » devient C.L.I. ( et non C.L.I) et « ABCs » devient A.B.C.-s (et nonA.B.C-s).

Si votre expression est composée à la fois d’un mot et d’un acronyme, ces deux éléments doivent être séparés par un trait d’union. Par exemple, « DynamoDB » devient Dynamo-D.B..

N’incluez pas de chiffres dans cette colonne ; les chiffres doivent être épelés. Par exemple, « VX02Q » devient V.X.-zero-two-Q..

SoundsLiken'est plus pris en charge pour le vocabulaire personnalisé. Veuillez laisser la colonne vide. Toutes les valeurs de cette colonne seront ignorées. Nous supprimerons le support de cette colonne à l'avenir.

IPAn'est plus pris en charge pour le vocabulaire personnalisé. Veuillez laisser la colonne vide. Toutes les valeurs de cette colonne seront ignorées. Nous supprimerons le support de cette colonne à l'avenir.

Facultatif. Les lignes de cette colonne peuvent être laissées vides.

Vous pouvez utiliser des espaces dans cette colonne.

Définit l’apparence que vous souhaitez donner à votre entrée dans votre sortie de transcription. Par exemple, Andorra-la-Vella dans la colonne Phrase devient Andorra la Vella dans la colonne DisplayAs.

Si une ligne de cette colonne est vide, Amazon Transcribe utilise le contenu de la Phrase colonne pour déterminer le résultat.

Vous pouvez inclure des chiffres (0-9) dans cette colonne.

Points à prendre en compte lors de la création de votre tableau :

  • Votre tableau doit contenir les quatre en-têtes (Phrase, SoundsLike, IPA, and DisplayAs) de colonne. La Phrase colonne doit contenir une entrée sur chaque ligne. La possibilité de fournir des entrées de prononciation via IPA et n'SoundsLikeest plus prise en charge et vous pouvez laisser la colonne vide. Toutes les valeurs de ces colonnes seront ignorées.

  • Chaque colonne doit être délimitée par des tabulations ou des virgules (,) ; cela s’applique à chaque ligne de votre fichier de vocabulaire personnalisé. Si une ligne contient des colonnes vides, vous devez tout de même inclure un délimiteur (tabulation ou virgule) pour chaque colonne.

  • Les espaces ne sont autorisés que dans les colonnes IPA et DisplayAs. N’utilisez pas d’espaces pour séparer les colonnes.

  • IPAet ne SoundsLike sont plus pris en charge pour le vocabulaire personnalisé. Veuillez laisser la colonne vide. Toutes les valeurs de ces colonnes seront ignorées. Nous supprimerons le support de cette colonne à l'avenir.

  • La colonne DisplayAs prend en charge les symboles et les caractères spéciaux (par exemple, C++). Toutes les autres colonnes prennent en charge les caractères répertoriés sur la page de jeu de caractères de votre langue.

  • Si vous souhaitez inclure des chiffres dans la colonne Phrase, vous devez les épeler. Les chiffres (0-9) ne sont pris en charge que dans la colonne DisplayAs.

  • Vous devez enregistrer votre tableau sous forme de fichier texte brut (*.txt) au format LF. Si vous utilisez un autre format, par exemple CRLF, votre vocabulaire personnalisé ne peut pas être traité.

  • Vous devez télécharger votre fichier de vocabulaire personnalisé dans un Amazon S3 bucket et le traiter à l'aide de celui-ci CreateVocabularyavant de pouvoir l'inclure dans une demande de transcription. Reportez-vous à Création de tableaux de vocabulaires personnalisés pour obtenir des instructions.

Note

Saisissez des acronymes, ou d’autres termes dont les lettres doivent être prononcées individuellement, sous forme de lettres séparées par des points (A.B.C.). Pour saisir le pluriel d’un acronyme, tel que « ABCs », séparez le « s » de l’acronyme par un tiret (A.B.C.-s). Vous pouvez utiliser des majuscules ou des minuscules pour saisir un acronyme. Les acronymes ne sont pas pris en charge dans toutes les langues ; consultez la section Langues prises en charge et fonctionnalités spécifiques aux langues.

Voici un exemple de tableau de vocabulaire personnalisé (où [TAB] représente un caractère de tabulation) :

Phrase[TAB]SoundsLike[TAB]IPA[TAB]DisplayAs Los-Angeles[TAB][TAB][TAB]Los Angeles Eva-Maria[TAB][TAB][TAB] A.B.C.-s[TAB][TAB][TAB]ABCs Amazon-dot-com[TAB][TAB][TAB]Amazon.com C.L.I.[TAB][TAB][TAB]CLI Andorra-la-Vella[TAB][TAB][TAB]Andorra la Vella Dynamo-D.B.[TAB][TAB][TAB]DynamoDB V.X.-zero-two[TAB][TAB][TAB]VX02 V.X.-zero-two-Q.[TAB][TAB][TAB]VX02Q

Pour plus de clarté visuelle, voici le même tableau avec des colonnes alignées. N’ajoutez pas d’espaces entre les colonnes de votre tableau de vocabulaire personnalisé ; votre tableau doit sembler mal aligné comme dans l’exemple précédent.

Phrase [TAB]SoundsLike [TAB]IPA [TAB]DisplayAs Los-Angeles [TAB] [TAB] [TAB]Los Angeles Eva-Maria [TAB] [TAB] [TAB] A.B.C.-s [TAB] [TAB] [TAB]ABCs amazon-dot-com [TAB] [TAB] [TAB]amazon.com C.L.I. [TAB] [TAB] [TAB]CLI Andorra-la-Vella[TAB] [TAB] [TAB]Andorra la Vella Dynamo-D.B. [TAB] [TAB] [TAB]DynamoDB V.X.-zero-two [TAB] [TAB] [TAB]VX02 V.X.-zero-two-Q.[TAB] [TAB] [TAB]VX02Q

Création de tableaux de vocabulaires personnalisés

Pour traiter une table de vocabulaire personnalisée à utiliser avec Amazon Transcribe, consultez les exemples suivants :

  1. Connectez-vous à la AWS Management Console.

  2. Dans le panneau de navigation, choisissez Vocabulaire personnalisé. La page Vocabulaire personnalisé s’ouvre. Elle vous permet de consulter les vocabulaires existants ou d’en créer un nouveau.

  3. Sélectionnez Créer du vocabulaire.

    Amazon Transcribe capture d'écran de la console : la page « vocabulaire personnalisé ».

    Vous accédez alors à la page Créer du vocabulaire. Entrez un nom pour votre nouveau vocabulaire personnalisé.

    Trois possibilités s’offrent à vous :

    1. Téléchargez un fichier txt ou csv depuis votre ordinateur.

      Vous pouvez créer votre vocabulaire personnalisé à partir de zéro ou télécharger un modèle pour vous aider à démarrer. Votre vocabulaire est ensuite renseigné automatiquement dans le volet Afficher et modifier le vocabulaire.

      Amazon Transcribe capture d'écran de la console : la page « créer et importer du vocabulaire ».
    2. Importez un fichier txt ou csv à partir d'un Amazon S3 emplacement.

      Vous pouvez créer votre vocabulaire personnalisé à partir de zéro ou télécharger un modèle pour vous aider à démarrer. Téléchargez votre fichier de vocabulaire terminé dans un compartiment Amazon S3 et spécifiez son URI dans votre demande. Votre vocabulaire est ensuite renseigné automatiquement dans le volet Afficher et modifier le vocabulaire.

      Amazon Transcribe capture d'écran de la console : la page « créer et importer du vocabulaire ».
    3. Créez manuellement votre vocabulaire dans la console.

      Accédez au volet Afficher et modifier le vocabulaire et sélectionnez Ajouter 10 lignes. Vous pouvez désormais saisir des termes manuellement.

      Amazon Transcribe capture d'écran de la console : la page « créer et importer du vocabulaire ».
  4. Vous pouvez modifier votre vocabulaire dans le volet Afficher et modifier le vocabulaire. Pour apporter des modifications, cliquez sur l’entrée que vous souhaitez modifier.

    Amazon Transcribe capture d'écran de la console : le volet « créer et modifier le vocabulaire ».

    Si vous faites une erreur, vous recevez un message d’erreur détaillé afin que vous puissiez corriger tout problème avant de traiter votre vocabulaire. Notez que si vous ne corrigez pas toutes les erreurs avant de sélectionner Créer du vocabulaire, votre demande de vocabulaire échoue.

    Amazon Transcribe capture d'écran de la console : le volet « créer et modifier le vocabulaire ».

    Cochez la case (✓) pour enregistrer vos modifications ou cliquez sur le « X » pour les ignorer.

  5. Vous pouvez également ajouter des balises à votre vocabulaire personnalisé. Une fois que vous avez rempli tous les champs et que vous êtes satisfait de votre vocabulaire, sélectionnez Créer du vocabulaire en bas de la page. Vous revenez alors à la page Vocabulaire personnalisé où vous pouvez voir le statut de votre vocabulaire personnalisé. Lorsque le statut passe de « En attente » à « Prêt », votre vocabulaire personnalisé peut être utilisé avec une transcription.

    Amazon Transcribe capture d'écran de la console : vocabulaire personnalisé en attente pendant le traitement.
  6. Si le statut passe à « Échec », sélectionnez le nom de votre vocabulaire personnalisé pour accéder à sa page d’informations.

    Amazon Transcribe capture d'écran de la console : page « vocabulaire personnalisé » montrant un vocabulaire comme complet et un autre comme défaillant.

    En haut de cette page, une bannière Raison de l’échec fournit des informations sur la raison pour laquelle votre vocabulaire personnalisé a échoué. Corrigez l’erreur dans votre fichier texte, puis réessayez.

    Amazon Transcribe capture d'écran de la console : la page d'informations du vocabulaire indique la raison de l'échec.

Cet exemple utilise la commande create-vocabulary avec un fichier de vocabulaire personnalisé sous forme de tableau. Pour plus d’informations, consultez CreateVocabulary.

Pour utiliser un vocabulaire personnalisé existant dans une tâche de transcription, VocabularyName définissez-le dans le Settingschamp lorsque vous appelez l'StartTranscriptionJobopération ou, dans le AWS Management Console, choisissez le vocabulaire personnalisé dans la liste déroulante.

aws transcribe create-vocabulary \ --vocabulary-name my-first-vocabulary \ --vocabulary-file-uri s3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-file.txt \ --language-code en-US

Voici un autre exemple d’utilisation de la commande create-vocabulary et d’un corps de requête qui crée votre vocabulaire personnalisé.

aws transcribe create-vocabulary \ --cli-input-json file://filepath/my-first-vocab-table.json

Le fichier my-first-vocab-table.json contient le corps de requête suivant.

{ "VocabularyName": "my-first-vocabulary", "VocabularyFileUri": "s3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-table.txt", "LanguageCode": "en-US" }

Lorsque VocabularyState passe de PENDING à READY, votre vocabulaire personnalisé est prêt à être utilisé avec une transcription. Pour afficher le statut actuel de votre vocabulaire personnalisé, exécutez :

aws transcribe get-vocabulary \ --vocabulary-name my-first-vocabulary

Cet exemple utilise le AWS SDK for Python (Boto3) pour créer un vocabulaire personnalisé à partir d'un tableau à l'aide de la méthode create_vocabulary. Pour plus d’informations, consultez CreateVocabulary.

Pour utiliser un vocabulaire personnalisé existant dans une tâche de transcription, VocabularyName définissez-le dans le Settingschamp lorsque vous appelez l'StartTranscriptionJobopération ou, dans le AWS Management Console, choisissez le vocabulaire personnalisé dans la liste déroulante.

Pour d'autres exemples d'utilisation AWS des SDK, notamment des exemples spécifiques aux fonctionnalités, des scénarios et des exemples multiservices, reportez-vous au chapitre. Exemples de code pour Amazon Transcribe à l'aide de kits de développement logiciel AWS

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_vocabulary( LanguageCode = 'en-US', VocabularyName = vocab_name, VocabularyFileUri = 's3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-table.txt' ) while True: status = transcribe.get_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Note

Si vous créez un nouveau Amazon S3 compartiment pour vos fichiers de vocabulaire personnalisés, assurez-vous que le IAM rôle à l'origine de la CreateVocabularydemande est autorisé à accéder à ce compartiment. Si le rôle ne dispose pas des autorisations appropriées, votre demande échoue. Vous pouvez éventuellement spécifier un IAM rôle dans votre demande en incluant le DataAccessRoleArn paramètre. Pour plus d'informations sur IAM les rôles et les politiques dans Amazon Transcribe, voirExemples de politiques basées sur l'identité Amazon Transcribe.