Entraînez des classificateurs personnalisés (console) - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Entraînez des classificateurs personnalisés (console)

Vous pouvez créer et entraîner un classificateur personnalisé à l'aide de la console, puis utiliser le classificateur personnalisé pour analyser vos documents.

Pour former un classificateur personnalisé, vous avez besoin d'un ensemble de documents de formation. Vous étiquetez ces documents avec les catégories que vous souhaitez que le classificateur de documents reconnaisse. Pour plus d'informations sur la préparation de vos documents de formation, consultezPréparation des données d'entraînement du classificateur.

Pour créer et entraîner un modèle de classificateur de documents
  1. Connectez-vous à la console Amazon Comprehend AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/comprehend/

  2. Dans le menu de gauche, choisissez Personnalisation, puis Classification personnalisée.

  3. Choisissez Créer un nouveau modèle.

  4. Sous Paramètres du modèle, entrez le nom du modèle pour le classificateur. Le nom doit être unique au sein de votre compte et de votre région actuelle.

    (Facultatif) Entrez un nom de version. Le nom doit être unique au sein de votre compte et de votre région actuelle.

  5. Sélectionnez la langue des documents de formation. Pour connaître les langues prises en charge par les classificateurs, consultezModèles de classification des formations.

  6. (Facultatif) Si vous souhaitez chiffrer les données du volume de stockage pendant qu'Amazon Comprehend traite votre tâche de formation, choisissez le chiffrement Classifier. Choisissez ensuite d'utiliser une clé KMS associée à votre compte actuel ou une clé provenant d'un autre compte.

    • Si vous utilisez une clé associée au compte actuel, choisissez l'ID de clé pour l'ID de clé KMS.

    • Si vous utilisez une clé associée à un autre compte, entrez l'ARN de l'ID de clé sous ARN de la clé KMS.

    Note

    Pour plus d'informations sur la création et l'utilisation des clés KMS et le chiffrement associé, consultez AWS Key Management Service (AWS KMS).

  7. Sous Spécifications des données, choisissez le type de modèle d'entraînement à utiliser.

    • Documents en texte brut : choisissez cette option pour créer un modèle en texte brut. Entraînez le modèle à l'aide de documents en texte brut.

    • Documents natifs : choisissez cette option pour créer un modèle de document natif. Entraînez le modèle à l'aide de documents natifs (PDF, Word, images).

  8. Choisissez le format de données de vos données d'entraînement. Pour plus d'informations sur les formats de données, consultezFormats de fichiers d'entraînement du classificateur.

    • Fichier CSV : sélectionnez cette option si vos données d'entraînement utilisent le format de fichier CSV.

    • Manifeste augmenté : choisissez cette option si vous avez utilisé Ground Truth pour créer des fichiers de manifeste augmenté pour vos données d'entraînement. Ce format est disponible si vous avez choisi les documents en texte brut comme type de modèle de formation.

  9. Choisissez le mode Classificateur à utiliser.

    • Mode étiquette unique : choisissez ce mode si les catégories que vous attribuez aux documents s'excluent mutuellement et que vous entraînez votre classificateur à attribuer une étiquette à chaque document. Dans l'API Amazon Comprehend, le mode à étiquette unique est appelé mode multi-classes.

    • Mode multi-étiquettes : choisissez ce mode si plusieurs catégories peuvent être appliquées simultanément à un document et que vous entraînez votre classificateur à attribuer une ou plusieurs étiquettes à chaque document.

  10. Si vous choisissez le mode multi-étiquettes, vous pouvez sélectionner le séparateur pour les étiquettes. Utilisez ce caractère délimiteur pour séparer les libellés lorsqu'un document de formation comporte plusieurs classes. Le séparateur par défaut est le caractère en forme de tube.

  11. (Facultatif) Si vous avez choisi le manifeste augmenté comme format de données, vous pouvez saisir jusqu'à cinq fichiers de manifeste augmenté. Chaque fichier manifeste augmenté contient soit un ensemble de données d'entraînement, soit un ensemble de données de test. Vous devez fournir au moins un ensemble de données d'entraînement. Les ensembles de données de test sont facultatifs. Procédez comme suit pour configurer les fichiers manifestes augmentés :

    1. Sous Entraînement et jeu de données de test, développez le panneau de localisation des entrées.

    2. Dans Type d'ensemble de données, choisissez Données d'entraînement ou Données de test.

    3. Pour l'emplacement S3 du fichier manifeste augmenté de SageMaker Ground Truth, entrez l'emplacement du compartiment Amazon S3 qui contient le fichier manifeste ou naviguez jusqu'à celui-ci en choisissant Browse S3. Le rôle IAM que vous utilisez pour les autorisations d'accès pour le travail de formation doit disposer d'autorisations de lecture pour le compartiment S3.

    4. Pour les noms d'attributs, entrez le nom de l'attribut contenant vos annotations. Si le fichier contient des annotations provenant de plusieurs tâches d'étiquetage en chaîne, ajoutez un attribut pour chaque tâche.

    5. Pour ajouter un autre emplacement d'entrée, choisissez Ajouter un emplacement d'entrée, puis configurez l'emplacement suivant.

  12. (Facultatif) Si vous avez choisi le fichier CSV comme format de données, procédez comme suit pour configurer le jeu de données d'entraînement et le jeu de données de test facultatif :

    1. Sous Ensemble de données d'entraînement, entrez l'emplacement du compartiment Amazon S3 qui contient votre fichier CSV de données d'entraînement ou accédez à celui-ci en choisissant Browse S3. Le rôle IAM que vous utilisez pour les autorisations d'accès pour le travail de formation doit disposer d'autorisations de lecture pour le compartiment S3.

      (Facultatif) Si vous avez choisi les documents natifs comme type de modèle de formation, vous fournissez également l'URL du dossier Amazon S3 qui contient les fichiers d'exemple de formation.

    2. Sous Test dataset, indiquez si vous souhaitez fournir des données supplémentaires à Amazon Comprehend afin de tester le modèle entraîné.

      • Autosplit : Autosplit sélectionne automatiquement 10 % de vos données d'entraînement à réserver pour les utiliser comme données de test.

      • (Facultatif) Fourni par le client : entrez l'URL du fichier CSV des données de test dans Amazon S3. Vous pouvez également accéder à son emplacement dans Amazon S3 et choisir Sélectionner un dossier.

        (Facultatif) Si vous avez choisi les documents natifs comme type de modèle de formation, vous devez également fournir l'URL du dossier Amazon S3 qui contient les fichiers de test.

  13. (Facultatif) En mode lecture de document, vous pouvez remplacer les actions d'extraction de texte par défaut. Cette option n'est pas requise pour les modèles de texte brut, car elle s'applique à l'extraction de texte pour les documents numérisés. Pour plus d’informations, consultez Configuration des options d'extraction de texte.

  14. (Facultatif pour les modèles en texte brut) Pour les données de sortie, entrez l'emplacement d'un compartiment Amazon S3 pour enregistrer les données de sortie d'entraînement, telles que la matrice de confusion. Pour plus d’informations, consultez Matrice Confusion.

    (Facultatif) Si vous choisissez de chiffrer le résultat de votre formation, choisissez Chiffrement. Choisissez ensuite d'utiliser une clé KMS associée au compte actuel ou une clé provenant d'un autre compte.

    • Si vous utilisez une clé associée au compte actuel, choisissez l'alias de clé pour l'ID de clé KMS.

    • Si vous utilisez une clé associée à un autre compte, entrez l'ARN de l'alias ou de l'ID de clé sous ID de clé KMS.

  15. Pour le rôle IAM, choisissez Choisir un rôle IAM existant, puis choisissez un rôle IAM existant doté d'autorisations de lecture pour le compartiment S3 contenant vos documents de formation. Le rôle doit avoir une politique de confiance qui commence par « comprehend.amazonaws.com pour être valide ».

    Si vous ne possédez pas encore de rôle IAM doté de ces autorisations, choisissez Créer un rôle IAM pour en créer un. Choisissez les autorisations d'accès pour accorder ce rôle, puis choisissez un suffixe de nom pour distinguer le rôle des rôles IAM dans votre compte.

    Note

    Pour les documents d'entrée chiffrés, le rôle IAM utilisé doit également disposer d'une kms:Decrypt autorisation. Pour plus d’informations, consultez Autorisations requises pour utiliser le chiffrement KMS.

  16. (Facultatif) Pour lancer vos ressources dans Amazon Comprehend à partir d'un VPC, entrez l'ID du VPC sous VPC ou choisissez-le dans la liste déroulante.

    1. Choisissez le sous-réseau sous Sous-réseaux (s). Après avoir sélectionné le premier sous-réseau, vous pouvez en choisir d'autres.

    2. Sous Groupe (s) de sécurité, choisissez le groupe de sécurité à utiliser si vous en avez spécifié un. Après avoir sélectionné le premier groupe de sécurité, vous pouvez en choisir d'autres.

    Note

    Lorsque vous utilisez un VPC pour votre tâche de classification, le VPC DataAccessRole utilisé pour les opérations de création et de démarrage doit disposer d'autorisations sur le VPC qui accède aux documents d'entrée et au compartiment de sortie.

  17. (Facultatif) Pour ajouter une balise au classificateur personnalisé, entrez une paire clé-valeur sous Tags. Choisissez Ajouter une balise. Pour supprimer cette paire avant de créer le classificateur, choisissez Supprimer le tag. Pour plus d’informations, consultez Balisage de vos ressources .

  18. Sélectionnez Créer.

La console affiche la page Classificateurs. Le nouveau classificateur apparaît dans le tableau et indique son Submitted statut. Lorsque le classificateur commence à traiter les documents de formation, le statut passe àTraining. Lorsqu'un classificateur est prêt à être utilisé, son statut passe à Trained ouTrained with warnings. Si le statut est le casTRAINED_WITH_WARNINGS, passez en revue le dossier des fichiers ignorés dans leRésultat d'entraînement du classificateur.

Si Amazon Comprehend a rencontré des erreurs lors de la création ou de la formation, le statut passe à. In error Vous pouvez choisir une tâche de classificateur dans le tableau pour obtenir plus d'informations sur le classificateur, y compris les éventuels messages d'erreur.

La liste des classificateurs personnalisés.