Classification du texte - TensorFlow - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Classification du texte - TensorFlow

L'algorithme Amazon SageMaker Text Classification est un TensorFlow algorithme d'apprentissage supervisé qui prend en charge l'apprentissage par transfert avec de nombreux modèles préentraînés issus du TensorFlow Hub. Utilisez l'apprentissage par transfert pour affiner l'un des modèles pré-entraînés disponibles sur votre propre jeu de données, même si une grande quantité de données de texte n'est pas disponible. L'algorithme de classification de texte prend une image en entrée et génère en sortie une probabilité pour chaque étiquette de classe fournie. Les jeux de données de formation doivent être au format CSV.

Comment utiliser l' TensorFlow algorithme de classification de SageMaker texte

Vous pouvez utiliser la classification de texte TensorFlow en tant qu'algorithme SageMaker intégré d'Amazon. La section suivante décrit comment utiliser la classification de texte TensorFlow avec le SDK SageMaker Python. Pour plus d'informations sur l'utilisation de la classification de texte, TensorFlow depuis l'interface utilisateur Amazon SageMaker Studio Classic, consultezSageMaker JumpStart.

L' TensorFlow algorithme de classification du texte prend en charge l'apprentissage par transfert à l'aide de l'un des TensorFlow modèles préentraînés compatibles. Pour obtenir la liste de tous les modèles pré-entraînés disponibles, consultez TensorFlow Modèles de hub. Chaque modèle pré-entraîné possède un model_id unique. L'exemple suivant utilise BERT Base Uncased (model_id : tensorflow-tc-bert-en-uncased-L-12-H-768-A-12-2) pour l'affinage sur un jeu de données personnalisé. Les modèles préentraînés sont tous prétéléchargés depuis le TensorFlow Hub et stockés dans des compartiments Amazon S3 afin que les tâches de formation puissent être exécutées de manière isolée sur le réseau. Utilisez ces artefacts d'apprentissage de modèles prégénérés pour créer un SageMaker estimateur.

Tout d'abord, récupérez l'URI de l'image Docker, l'URI du script d'entraînement et l'URI du modèle pré-entraîné. Ensuite, modifiez les hyperparamètres comme bon vous semble. Vous pouvez consulter un dictionnaire Python de tous les hyperparamètres disponibles et de leurs valeurs par défaut avec hyperparameters.retrieve_default. Pour plus d’informations, consultez Classification du texte - TensorFlow Hyperparamètres. Utilisez ces valeurs pour créer un SageMaker estimateur.

Note

Les valeurs par défaut des hyperparamètres sont différentes selon les modèles. Par exemple, pour les modèles plus grands, la taille de lot par défaut est inférieure.

Cet exemple utilise le jeu de données SST2, qui contient des critiques de films positives et négatives. Nous avons pré-téléchargé le jeu de données et l'avons mis à disposition avec Amazon S3. Pour affiner votre modèle, appelez .fit à l'aide de l'emplacement Amazon S3 de votre jeu de données d'entraînement. Tout compartiment S3 utilisé dans un bloc-notes doit se trouver dans la même région AWS que l'instance de bloc-notes qui y accède.

from sagemaker import image_uris, model_uris, script_uris, hyperparameters from sagemaker.estimator import Estimator model_id, model_version = "tensorflow-tc-bert-en-uncased-L-12-H-768-A-12-2", "*" training_instance_type = "ml.p3.2xlarge" # Retrieve the Docker image train_image_uri = image_uris.retrieve(model_id=model_id,model_version=model_version,image_scope="training",instance_type=training_instance_type,region=None,framework=None) # Retrieve the training script train_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="training") # Retrieve the pretrained model tarball for transfer learning train_model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="training") # Retrieve the default hyperparameters for fine-tuning the model hyperparameters = hyperparameters.retrieve_default(model_id=model_id, model_version=model_version) # [Optional] Override default hyperparameters with custom values hyperparameters["epochs"] = "5" # Sample training data is available in this bucket training_data_bucket = f"jumpstart-cache-prod-{aws_region}" training_data_prefix = "training-datasets/SST2/" training_dataset_s3_path = f"s3://{training_data_bucket}/{training_data_prefix}" output_bucket = sess.default_bucket() output_prefix = "jumpstart-example-tc-training" s3_output_location = f"s3://{output_bucket}/{output_prefix}/output" # Create an Estimator instance tf_tc_estimator = Estimator( role=aws_role, image_uri=train_image_uri, source_dir=train_source_uri, model_uri=train_model_uri, entry_point="transfer_learning.py", instance_count=1, instance_type=training_instance_type, max_run=360000, hyperparameters=hyperparameters, output_path=s3_output_location, ) # Launch a training job tf_tc_estimator.fit({"training": training_dataset_s3_path}, logs=True)

Pour plus d'informations sur l'utilisation de l' TensorFlowalgorithme de classification de SageMaker texte pour l'apprentissage par transfert sur un ensemble de données personnalisé, consultez le bloc-notes Introduction à JumpStart la classification de texte.

Interface d'entrée et de sortie pour l' TensorFlow algorithme de classification de texte

Chacun des modèles préentraînés répertoriés dans TensorFlow Hub Models peut être affiné pour n'importe quel ensemble de données composé de phrases de texte comportant un nombre quelconque de classes. Le modèle pré-entraîné associe une couche de classification au modèle d'intégration de texte et initialise les paramètres de la couche sur des valeurs aléatoires. La dimension de sortie de la couche de classification est déterminée en fonction du nombre de classes détectées dans les données d'entrée.

Soyez conscient de la façon dont vous devez formater vos données d'entraînement pour les saisir dans le TensorFlow modèle de classification de texte.

  • Format d'entrée des données d'entraînement : répertoire contenant un fichier data.csv. Chaque ligne de la première colonne doit comporter des étiquettes de classe entières comprises entre 0 et le nombre de classes. Chaque ligne de la seconde colonne doit contenir les données de type correspondant.

Voici un exemple de fichier CSV d'entrée. Notez que le fichier ne doit pas avoir d'en-tête. Le fichier doit être hébergé dans un compartiment Amazon S3 avec un chemin similaire au suivant : s3://bucket_name/input_directory/. Notez que le / de fin est obligatoire.

| | | |---|---| |0 |hide new secretions from the parental units| |0 |contains no wit , only labored gags| |1 |that loves its characters and communicates something rather beautiful about human nature| |...|...|

Entraînement incrémentiel

Vous pouvez amorcer l'entraînement d'un nouveau modèle à l'aide d'artefacts provenant d'un modèle avec lequel vous vous êtes déjà entraîné SageMaker. L'entraînement incrémentiel permet de gagner du temps lorsque vous souhaitez entraîner un nouveau modèle avec des données identiques ou similaires.

Note

Vous ne pouvez amorcer qu'un modèle de classification de SageMaker texte avec un autre TensorFlow modèle de classification de texte dans TensorFlow lequel vous avez été entraîné SageMaker.

Vous pouvez utiliser n'importe quel jeu de données pour l'entraînement incrémentiel, à condition que l'ensemble de classes reste le même. L'étape d'entraînement incrémentiel est similaire à l'étape d'affinage, mais au lieu de commencer par un modèle pré-entraîné, vous commencez par un modèle affiné existant.

Pour plus d'informations sur l'utilisation de l'entraînement incrémentiel avec l' TensorFlow algorithme de classification de SageMaker texte, consultez le bloc-notes d'exemple Introduction à JumpStart la classification de texte.

Inférence avec l'algorithme de classification de texte TensorFlow

Vous pouvez héberger le modèle affiné issu de votre formation en classification de TensorFlow texte à des fins d'inférence. Tous les formats de texte brut pour l'inférence doivent avoir le type de contenu application/x-text.

L'exécution de l'inférence permet d'obtenir des valeurs de probabilité, des étiquettes de classe pour toutes les classes et l'étiquette prédite correspondant à l'indice de classe présentant la probabilité la plus élevée, codé au format JSON. Le TensorFlow modèle Classification de texte traite une seule chaîne par demande et ne produit qu'une seule ligne. Voici un exemple de réponse au format JSON :

accept: application/json;verbose {"probabilities": [prob_0, prob_1, prob_2, ...], "labels": [label_0, label_1, label_2, ...], "predicted_label": predicted_label}

Si accept a pour valeur application/json, le modèle génère en sortie uniquement des probabilités.

Recommandation d'instance Amazon EC2 pour l'algorithme de classification de texte TensorFlow

L' TensorFlow algorithme Text Classification prend en charge toutes les instances de CPU et de GPU pour l'entraînement, notamment :

  • ml.p2.xlarge

  • ml.p2.16xlarge

  • ml.p3.2xlarge

  • ml.p3.16xlarge

  • ml.g4dn.xlarge

  • ml.g4dn.16.xlarge

  • ml.g5.xlarge

  • ml.g5.48xlarge

Nous recommandons d'utiliser les instances de GPU avec davantage de mémoire pour l'entraînement avec de grandes tailles de lot. Les instances de CPU (telles que M5) et de GPU (P2, P3, G4dn ou G5) peuvent être utilisées pour l'inférence. Pour obtenir une liste complète des instances de SageMaker formation et d'inférence dans toutes AWS les régions, consultez Amazon SageMaker Pricing.

Classification du texte - TensorFlow exemples de carnets

Pour plus d'informations sur l'utilisation de l' TensorFlow algorithme de classification de SageMaker texte pour l'apprentissage par transfert sur un ensemble de données personnalisé, consultez le bloc-notes Introduction à JumpStart la classification de texte.

Pour savoir comment créer et accéder à des instances de bloc-notes Jupyter dans lesquelles vous pouvez exécuter l'exemple SageMaker, consultez. Instances Amazon SageMaker Notebook Après avoir créé une instance de bloc-notes et l'avoir ouverte, sélectionnez l'onglet SageMakerExemples pour afficher la liste de tous les SageMaker exemples. Pour ouvrir un bloc-notes, choisissez son onglet Use (Utiliser), puis Create copy (Créer une copie).