Entraînez des outils de reconnaissance personnalisés (console) - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Entraînez des outils de reconnaissance personnalisés (console)

Vous pouvez créer des outils de reconnaissance d'entités personnalisés à l'aide de la console Amazon Comprehend. Cette section explique comment créer et entraîner un outil de reconnaissance d'entités personnalisé.

Rubriques

    Pour créer le système de reconnaissance d'entités personnalisé, fournissez d'abord un jeu de données pour entraîner votre modèle. Avec cet ensemble de données, incluez l'un des éléments suivants : un ensemble de documents annotés ou une liste d'entités et leur étiquette de type, ainsi qu'un ensemble de documents contenant ces entités. Pour plus d’informations, consultez Reconnaissance d'entités personnalisée.

    Pour entraîner un outil de reconnaissance d'entités personnalisé à l'aide d'un fichier CSV
    1. Connectez-vous à la console Amazon Comprehend AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/comprehend/

    2. Dans le menu de gauche, choisissez Personnalisation, puis Reconnaissance d'entité personnalisée.

    3. Choisissez Créer un nouveau modèle.

    4. Donnez un nom au dispositif de reconnaissance. Le nom doit être unique au sein de la région et du compte.

    5. Sélectionnez la langue.

    6. Sous Type d'entité personnalisé, entrez une étiquette personnalisée que vous souhaitez que le dispositif de reconnaissance trouve dans le jeu de données.

      Le type d'entité doit être en majuscules, et s'il est composé de plusieurs mots, séparez-les par un trait de soulignement.

    7. Choisissez Ajouter un type.

    8. Si vous souhaitez ajouter un type d'entité supplémentaire, saisissez-le, puis choisissez Ajouter un type. Si vous souhaitez supprimer l'un des types d'entités que vous avez ajoutés, choisissez Supprimer le type, puis choisissez le type d'entité à supprimer de la liste. Un maximum de 25 types d'entités peuvent être répertoriés.

    9. Pour chiffrer votre tâche de formation, choisissez le chiffrement Recognizer, puis choisissez d'utiliser une clé KMS associée au compte actuel ou une clé provenant d'un autre compte.

      • Si vous utilisez une clé associée au compte actuel, choisissez l'ID de clé KMS dans le champ ID de clé.

      • Si vous utilisez une clé associée à un autre compte, dans le champ ARN de la clé KMS, entrez l'ARN de l'ID de la clé.

      Note

      Pour plus d'informations sur la création et l'utilisation de clés KMS et le chiffrement associé, consultez AWS Key Management Service.

    10. Sous Spécifications des données, choisissez le format de vos documents de formation :

      • Fichier CSV : fichier CSV qui complète vos documents de formation. Le fichier CSV contient des informations sur les entités personnalisées que votre modèle entraîné détectera. Le format requis du fichier varie selon que vous fournissez des annotations ou une liste d'entités.

      • Manifeste augmenté : ensemble de données étiqueté produit par Amazon SageMaker Ground Truth. Ce fichier est au format de lignes JSON. Chaque ligne est un objet JSON complet qui contient un document de formation et ses étiquettes. Chaque étiquette indique une entité nommée dans le document de formation. Vous pouvez fournir jusqu'à 5 fichiers manifestes augmentés.

      Pour plus d'informations sur les formats disponibles et pour des exemples, consultezFormer des modèles de reconnaissance d'entités personnalisés.

    11. Sous Type de formation, choisissez le type de formation à utiliser :

      • Utilisation des annotations et des documents de formation

      • Utilisation de la liste des entités et des documents de formation

      Si vous choisissez des annotations, entrez l'URL du fichier d'annotations dans Amazon S3. Vous pouvez également accéder au compartiment ou au dossier dans Amazon S3 où se trouvent les fichiers d'annotation et choisir Browse S3.

      Si vous choisissez une liste d'entités, entrez l'URL de la liste d'entités dans Amazon S3. Vous pouvez également accéder au compartiment ou au dossier dans Amazon S3 où se trouve la liste des entités et choisir Browse S3.

    12. Entrez l'URL d'un ensemble de données d'entrée contenant les documents de formation dans Amazon S3. Vous pouvez également accéder au compartiment ou au dossier d'Amazon S3 où se trouvent les documents de formation et choisir Sélectionner un dossier.

    13. Sous Ensemble de données de test, sélectionnez la manière dont vous souhaitez évaluer les performances de votre modèle entraîné. Vous pouvez le faire à la fois pour les annotations et les types d'entraînement par liste d'entités.

      • Autosplit : Autosplit sélectionne automatiquement 10 % des données d'entraînement que vous avez fournies pour les utiliser comme données de test

      • (Facultatif) Fourni par le client : lorsque vous sélectionnez Fourni par le client, vous pouvez spécifier exactement les données de test que vous souhaitez utiliser.

    14. Si vous sélectionnez l'ensemble de données de test fourni par le client, entrez l'URL du fichier d'annotations dans Amazon S3. Vous pouvez également accéder au compartiment ou au dossier dans Amazon S3 où se trouvent les fichiers d'annotation et choisir Sélectionner un dossier.

    15. Dans la section Choisissez un rôle IAM, sélectionnez un rôle IAM existant ou créez-en un nouveau.

      • Choisissez un rôle IAM existant : sélectionnez cette option si vous possédez déjà un rôle IAM autorisé à accéder aux compartiments Amazon S3 en entrée et en sortie.

      • Créer un nouveau rôle IAM : sélectionnez cette option lorsque vous souhaitez créer un nouveau rôle IAM avec les autorisations appropriées permettant à Amazon Comprehend d'accéder aux compartiments d'entrée et de sortie.

        Note

        Si les documents d'entrée sont chiffrés, le rôle IAM utilisé doit disposer d'une kms:Decrypt autorisation. Pour plus d’informations, consultez Autorisations requises pour utiliser le chiffrement KMS.

    16. (Facultatif) Pour lancer vos ressources dans Amazon Comprehend à partir d'un VPC, entrez l'ID du VPC sous VPC ou choisissez-le dans la liste déroulante.

      1. Choisissez le sous-réseau sous Sous-réseau (s). Après avoir sélectionné le premier sous-réseau, vous pouvez en choisir d'autres.

      2. Sous Groupe (s) de sécurité, choisissez le groupe de sécurité à utiliser si vous en avez spécifié un. Après avoir sélectionné le premier groupe de sécurité, vous pouvez en choisir d'autres.

      Note

      Lorsque vous utilisez un VPC avec votre tâche de reconnaissance d'entité personnalisée, le VPC DataAccessRole utilisé pour les opérations de création et de démarrage doit disposer d'autorisations sur le VPC à partir duquel les documents d'entrée et le compartiment de sortie sont accessibles.

    17. (Facultatif) Pour ajouter une balise au système de reconnaissance d'entités personnalisé, entrez une paire clé-valeur sous Balises. Choisissez Ajouter une balise. Pour supprimer cette paire avant de créer le dispositif de reconnaissance, choisissez Supprimer le tag.

    18. Choisissez Train.

    Le nouveau dispositif de reconnaissance apparaîtra alors dans la liste et indiquera son statut. Il s'affichera d'abord sous la formeSubmitted. Il s'affichera ensuite Training pour un classificateur qui traite des documents de formation, Trained pour un classificateur prêt à être utilisé et In error pour un classificateur comportant une erreur. Vous pouvez cliquer sur une tâche pour obtenir plus d'informations sur le système de reconnaissance, y compris les éventuels messages d'erreur.

    Pour entraîner un outil de reconnaissance d'entités personnalisé avec un document en texte brut, PDF ou Word
    1. Connectez-vous à la console Amazon Comprehend AWS Management Console et ouvrez-la.

    2. Dans le menu de gauche, choisissez Personnalisation, puis Reconnaissance d'entité personnalisée.

    3. Choisissez Train recognizer.

    4. Donnez un nom au dispositif de reconnaissance. Le nom doit être unique au sein de la région et du compte.

    5. Sélectionnez la langue. Remarque : Si vous entraînez un document PDF ou Word, l'anglais est la langue prise en charge.

    6. Sous Type d'entité personnalisé, entrez une étiquette personnalisée que vous souhaitez que le dispositif de reconnaissance trouve dans le jeu de données.

      Le type d'entité doit être en majuscules, et s'il est composé de plusieurs mots, séparez-les par un trait de soulignement.

    7. Choisissez Ajouter un type.

    8. Si vous souhaitez ajouter un type d'entité supplémentaire, saisissez-le, puis choisissez Ajouter un type. Si vous souhaitez supprimer l'un des types d'entités que vous avez ajoutés, choisissez Supprimer le type, puis choisissez le type d'entité à supprimer de la liste. Un maximum de 25 types d'entités peuvent être répertoriés.

    9. Pour chiffrer votre tâche de formation, choisissez le chiffrement Recognizer, puis choisissez d'utiliser une clé KMS associée au compte actuel ou une clé provenant d'un autre compte.

      • Si vous utilisez une clé associée au compte actuel, choisissez l'ID de clé KMS dans le champ ID de clé.

      • Si vous utilisez une clé associée à un autre compte, dans le champ ARN de la clé KMS, entrez l'ARN de l'ID de la clé.

      Note

      Pour plus d'informations sur la création et l'utilisation de clés KMS et le chiffrement associé, consultez AWS Key Management Service.

    10. Sous Données d'entraînement, choisissez le manifeste augmenté comme format de données :

      • Manifeste augmenté : ensemble de données étiqueté produit par Amazon SageMaker Ground Truth. Ce fichier est au format de lignes JSON. Chaque ligne du fichier est un objet JSON complet qui contient un document de formation et ses étiquettes. Chaque étiquette indique une entité nommée dans le document de formation. Vous pouvez fournir jusqu'à 5 fichiers manifestes augmentés. Si vous utilisez des documents PDF pour les données d'entraînement, vous devez sélectionner le manifeste augmenté. Vous pouvez fournir jusqu'à 5 fichiers manifestes augmentés. Pour chaque fichier, vous pouvez nommer jusqu'à 5 attributs à utiliser comme données d'entraînement.

      Pour plus d'informations sur les formats disponibles et pour des exemples, consultezFormer des modèles de reconnaissance d'entités personnalisés.

    11. Sélectionnez le type de modèle d'entraînement.

      Si vous avez sélectionné Documents en texte brut, sous Emplacement d'entrée, entrez l'URL Amazon S3 du fichier manifeste augmenté Amazon SageMakerGround Truth. Vous pouvez également accéder au compartiment ou au dossier dans Amazon S3 où se trouvent les manifestes augmentés et choisir Sélectionner un dossier.

    12. Sous Nom de l'attribut, entrez le nom de l'attribut qui contient vos annotations. Si le fichier contient des annotations provenant de plusieurs tâches d'étiquetage en chaîne, ajoutez un attribut pour chaque tâche. Dans ce cas, chaque attribut contient l'ensemble des annotations d'une tâche d'étiquetage. Remarque : Vous pouvez fournir jusqu'à 5 noms d'attributs pour chaque fichier.

    13. Sélectionnez Ajouter.

    14. Si vous avez sélectionné Documents PDF ou Word sous Emplacement de saisie, saisissez l'URL Amazon S3 du fichier manifeste augmenté Amazon SageMaker Ground Truth. Vous pouvez également accéder au compartiment ou au dossier dans Amazon S3 où se trouvent les manifestes augmentés et choisir Sélectionner un dossier.

    15. Entrez le préfixe S3 pour vos fichiers de données d'annotation. Il s'agit des documents PDF que vous avez étiquetés.

    16. Entrez le préfixe S3 pour vos documents source. Il s'agit des documents PDF originaux (objets de données) que vous avez fournis à Ground Truth pour votre travail d'étiquetage.

    17. Entrez les noms des attributs contenant vos annotations. Remarque : Vous pouvez fournir jusqu'à 5 noms d'attributs pour chaque fichier. Tous les attributs de votre fichier que vous ne spécifiez pas sont ignorés.

    18. Dans la section Rôle IAM, sélectionnez un rôle IAM existant ou créez-en un nouveau.

      • Choisissez un rôle IAM existant : sélectionnez cette option si vous possédez déjà un rôle IAM autorisé à accéder aux compartiments Amazon S3 en entrée et en sortie.

      • Créer un nouveau rôle IAM : sélectionnez cette option lorsque vous souhaitez créer un nouveau rôle IAM avec les autorisations appropriées permettant à Amazon Comprehend d'accéder aux compartiments d'entrée et de sortie.

        Note

        Si les documents d'entrée sont chiffrés, le rôle IAM utilisé doit disposer d'une kms:Decrypt autorisation. Pour plus d’informations, consultez Autorisations requises pour utiliser le chiffrement KMS.

    19. (Facultatif) Pour lancer vos ressources dans Amazon Comprehend à partir d'un VPC, entrez l'ID du VPC sous VPC ou choisissez-le dans la liste déroulante.

      1. Choisissez le sous-réseau sous Sous-réseau (s). Après avoir sélectionné le premier sous-réseau, vous pouvez en choisir d'autres.

      2. Sous Groupe (s) de sécurité, choisissez le groupe de sécurité à utiliser si vous en avez spécifié un. Après avoir sélectionné le premier groupe de sécurité, vous pouvez en choisir d'autres.

      Note

      Lorsque vous utilisez un VPC avec votre tâche de reconnaissance d'entité personnalisée, le VPC DataAccessRole utilisé pour les opérations de création et de démarrage doit disposer d'autorisations sur le VPC à partir duquel les documents d'entrée et le compartiment de sortie sont accessibles.

    20. (Facultatif) Pour ajouter une balise au système de reconnaissance d'entités personnalisé, entrez une paire clé-valeur sous Balises. Choisissez Ajouter une balise. Pour supprimer cette paire avant de créer le dispositif de reconnaissance, choisissez Supprimer le tag.

    21. Choisissez Train.

    Le nouveau dispositif de reconnaissance apparaîtra alors dans la liste et indiquera son statut. Il s'affichera d'abord sous la formeSubmitted. Il s'affichera ensuite Training pour un classificateur qui traite des documents de formation, Trained pour un classificateur prêt à être utilisé et In error pour un classificateur comportant une erreur. Vous pouvez cliquer sur une tâche pour obtenir plus d'informations sur le système de reconnaissance, y compris les éventuels messages d'erreur.