Réglage d'un modèle BlazingText - Amazon SageMaker

Réglage d'un modèle BlazingText

Le réglage de modèle automatique, ou réglage d'hyperparamètre, détecte la meilleure version d'un modèle en exécutant plusieurs tâches qui testent une plage d'hyperparamètres sur votre ensemble de données. Vous choisissez les hyperparamètres réglables, une plage de valeurs pour chacun d'eux et une métrique d'objectif. Vous choisissez la métrique d'objectif parmi les métriques que calcule l'algorithme. Le réglage de modèle automatique recherche parmi les hyperparamètres choisis la combinaison de valeurs qui produira un modèle permettant d'optimiser la métrique d'objectif.

Pour plus d'informations sur le réglage de modèle, consultez Réglage de modèle automatique avec SageMaker.

Métriques calculées par l'algorithme BlazingText

L'algorithme Word2vec BlazingText (modes skipgram, cbow et batch_skipgram) porte sur une seule métrique durant l'entraînement : train:mean_rho. Cette métrique est calculée sur les ensembles de données de similarité lexicale de WS-353. Utilisez cette métrique comme objectif lors du réglage des valeurs d'hyperparamètres pour l'algorithme Word2vec.

L'algorithme de classification textuelle BlazingText (mode supervised) porte également sur une seule métrique durant l'entraînement : la métrique validation:accuracy. Utilisez ces métriques comme objectif lors du réglage des valeurs d'hyperparamètres pour l'algorithme de classification textuelle.

Nom de la métrique Description Orientation de l'optimisation
train:mean_rho

Corrélation (rhô) moyenne (coefficient de corrélation de Spearman) pour les ensembles de données de similarité lexicale de WS-353.

Agrandir

validation:accuracy

Précision de la classification pour l'ensemble de données de validation spécifié par l'utilisateur

Agrandir

Hyperparamètres BlazingText réglables

Hyperparamètres réglables pour l'algorithme Word2vec

Réglez un modèle Word2vec BlazingText Amazon SageMaker à l'aide des hyperparamètres suivants. Les hyperparamètres ayant le plus grand impact sur les métriques d'objectif Word2vec sont les suivants : mode, learning_rate, window_size, vector_dim et negative_samples.

Nom du paramètre Type de paramètre Plages ou valeurs recommandées
batch_size

IntegerParameterRange

[8-32]

epochs

IntegerParameterRange

[5-15]

learning_rate

ContinuousParameterRange

Valeur min. : 0,005, Valeur max. : 0,01

min_count

IntegerParameterRange

[0-100]

mode

CategoricalParameterRange

['batch_skipgram', 'skipgram', 'cbow']

negative_samples

IntegerParameterRange

[5-25]

sampling_threshold

ContinuousParameterRange

Valeur min. : 0,0001, Valeur max. : 0,001

vector_dim

IntegerParameterRange

[32-300]

window_size

IntegerParameterRange

[1-10]

Hyperparamètres réglables pour l'algorithme de classification textuelle

Réglez un modèle de classification textuelle BlazingText Amazon SageMaker à l'aide des hyperparamètres suivants.

Nom du paramètre Type de paramètre Plages ou valeurs recommandées
buckets

IntegerParameterRange

[1 000 000-10 000 000]

epochs

IntegerParameterRange

[5-15]

learning_rate

ContinuousParameterRange

Valeur min. : 0,005, Valeur max. : 0,01

min_count

IntegerParameterRange

[0-100]

mode

CategoricalParameterRange

['supervised']

vector_dim

IntegerParameterRange

[32-300]

word_ngrams

IntegerParameterRange

[1-3]