Hyperparamètres Word2vec Hyperparamètres de classification textuelle

BlazingText Hyperparamètres

Lorsque vous démarrez une tâche d'entraînement avec une demande CreateTrainingJob, vous devez spécifier un algorithme d'entraînement. Vous pouvez également spécifier des hyperparamètres spécifiques à l'algorithme sous forme de cartes. string-to-string Les hyperparamètres de l' BlazingText algorithme dépendent du mode que vous utilisez : Word2Vec (non supervisé) et Classification de texte (supervisé).

Hyperparamètres Word2vec

Le tableau suivant répertorie les hyperparamètres de l'algorithme d'entraînement BlazingText Word2Vec fourni par Amazon. SageMaker

Nom du paramètre	Description
`mode`	L'architecture Word2vec utilisée pour l'entraînement. Obligatoire Valeurs valides : `batch_skipgram`, `skipgram` ou `cbow`
`batch_size`	La taille de chaque lot lorsque `mode` est défini sur `batch_skipgram`. Définissez un nombre entre 10 et 20. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 11
`buckets`	Nombre de compartiments de hachage à utiliser pour les sous-mots. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 2000000
`epochs`	Le nombre de passages complets sur les données d'entraînements. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 5
`evaluation`	Si le modèle entraîné est évalué à l'aide du test WordSimilarity -353. Facultatif Valeurs valides : (booléennes) `True` ou `False` Valeur par défaut : `True`
`learning_rate`	Pas d'apprentissage utilisé pour les mises à jour de paramètres. Facultatif Valeurs valides : valeur flottante positive Valeur par défaut : 0.05
`min_char`	Nombre minimum de caractères à utiliser pour les sous-mots/n-grammes de caractère. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 3
`min_count`	Les mots qui apparaissent moins de `min_count` fois sont ignorés. Facultatif Valeurs valides : entier non négatif Valeur par défaut : 5
`max_char`	Nombre maximum de caractères à utiliser pour les sous-mots/n-grammes de caractère. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 6
`negative_samples`	Nombre d'échantillons négatifs pour la stratégie de partage d'échantillons négatifs. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 5
`sampling_threshold`	Seuil de l'occurrence des mots. Les mots qui apparaissent avec une fréquence plus élevée dans les données d'entraînement sont échantillonnés de façon aléatoire. Facultatif Valeurs valides : fraction positive. Plage recommandée : [0, 1e-3]. Valeur par défaut : 0.0001
`subwords`	Indique s'il convient d'apprendre les plongements de sous-mots. Facultatif Valeurs valides : (booléennes) `True` ou `False` Valeur par défaut : `False`
`vector_dim`	La dimension des vecteurs de mots que l'algorithme apprend. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 100
`window_size`	La taille de la fenêtre de contexte. La fenêtre de contexte correspond au nombre de mots entourant le mot cible utilisé pour l'entraînement. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 5

Hyperparamètres de classification textuelle

Le tableau suivant répertorie les hyperparamètres de l'algorithme d'entraînement à la classification de texte fourni par Amazon SageMaker.

Note

Certains des paramètres sont communs aux modes Classification textuelle et Word2vec. Toutefois, ils peuvent avoir un sens différent selon le contexte.

Nom du paramètre	Description
`mode`	Mode d'entraînement. Obligatoire Valeurs valides : `supervised`
`buckets`	Nombre de compartiments de hachage à utiliser pour les n-grammes de mot. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 2000000
`early_stopping`	Indique s'il convient d'arrêter l'entraînement si la précision de validation ne s'améliore pas après un nombre `patience` d'époques. Notez qu'un canal de validation est requis si l'arrêt anticipé est utilisé. Facultatif Valeurs valides : (booléennes) `True` ou `False` Valeur par défaut : `False`
`epochs`	Nombre maximum de passages complets sur les données d'entraînement. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 5
`learning_rate`	Pas d'apprentissage utilisé pour les mises à jour de paramètres. Facultatif Valeurs valides : valeur flottante positive Valeur par défaut : 0.05
`min_count`	Les mots qui apparaissent moins de `min_count` fois sont ignorés. Facultatif Valeurs valides : entier non négatif Valeur par défaut : 5
`min_epochs`	Nombre minimum d'époques à entraîner avant d'invoquer la logique d'arrêt anticipé. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 5
`patience`	Nombre d'époques à attendre avant d'appliquer l'arrêt anticipé lorsqu'il n'y a aucun avancement sur l'ensemble de validation. Utilisé uniquement si `early_stopping` est `True`. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 4
`vector_dim`	Dimension de la couche d'intégration. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 100
`word_ngrams`	Nombre de caractéristiques de n-grammes de mot à utiliser. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 2

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

BlazingText

Réglage d'un modèle