Classification du texte - TensorFlow Hyperparamètres - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Classification du texte - TensorFlow Hyperparamètres

Les hyperparamètres sont des paramètres définis avant qu'un modèle de machine learning ne commence à apprendre. Les hyperparamètres suivants sont pris en charge par l' TensorFlow algorithme de détection d'objets SageMaker intégré d'Amazon. Consultez Régler une classification de texte - TensorFlow modèle pour obtenir des informations sur le réglage des hyperparamètres.

Nom du paramètre Description
batch_size

Taille de lot pour l'entraînement. Pour l'entraînement sur des instances dotées de plusieurs GPU, cette taille de lot est utilisée sur l'ensemble des GPU.

Valeurs valides : nombre entier positif.

Valeur par défaut : 32.

beta_1

Version beta1 des optimiseurs "adam" et "adamw". Représente le taux de dégradation exponentielle pour les estimations du premier moment. Ignoré pour les autres optimiseurs.

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 0.9.

beta_2

Version beta2 des optimiseurs "adam" et "adamw". Représente le taux de dégradation exponentielle pour les estimations du second moment. Ignoré pour les autres optimiseurs.

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 0.999.

dropout_rate

Taux d'abandon pour la couche d'abandon au niveau de la couche de classification supérieure. Utilisé uniquement quand reinitialize_top_layer a pour valeur "True".

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 0.2

early_stopping

Définissez ce paramètre sur "True" pour utiliser une logique d'arrêt anticipé au cours de l'entraînement. S'il a pour valeur "False", l'arrêt anticipé n'est pas utilisé.

Valeurs valides : chaîne, valeur : ("True" ou "False").

Valeur par défaut : "False".

early_stopping_min_delta Modification minimale requise pour être considérée comme une amélioration. Une modification absolue inférieure à la valeur de early_stopping_min_delta ne constitue pas une amélioration. Utilisé uniquement quand early_stopping a pour valeur "True".

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 0.0.

early_stopping_patience

Nombre d'époques pour continuer l'entraînement sans amélioration. Utilisé uniquement quand early_stopping a pour valeur "True".

Valeurs valides : nombre entier positif.

Valeur par défaut : 5.

epochs

Nombre de dates epoch d'entraînement.

Valeurs valides : nombre entier positif.

Valeur par défaut : 10.

epsilon

Epsilon des optimiseurs "adam", "rmsprop", "adadelta" et "adagrad". Généralement défini sur une petite valeur pour éviter la division par 0. Ignoré pour les autres optimiseurs.

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 1e-7.

initial_accumulator_value

Valeur de départ pour les accumulateurs, ou valeurs de moment par paramètre, pour l'optimiseur "adagrad". Ignoré pour les autres optimiseurs.

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 0.0001.

learning_rate Taux d'apprentissage de l'optimiseur.

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 0.001.

momentum

Moment pour les optimiseurs "sgd" et "nesterov". Ignoré pour les autres optimiseurs.

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 0.9.

optimizer

Type d'optimiseur. Pour plus d'informations, consultez la section Optimiseurs dans la TensorFlow documentation.

Valeurs valides : chaîne, l'une des valeurs suivantes : ("adamw", "adam", "sgd", "nesterov", "rmsprop", "adagrad", "adadelta").

Valeur par défaut : "adam".

regularizers_l2

Facteur de régularisation L2 pour la couche dense au niveau de la couche de classification. Utilisé uniquement quand reinitialize_top_layer a pour valeur "True".

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 0.0001.

reinitialize_top_layer

Si ce paramètre a pour valeur "Auto", les paramètres de la couche de classification supérieure sont réinitialisés au cours de l'affinage. Pour l'entraînement incrémentiel, les paramètres de la couche de classification supérieure ne sont pas réinitialisés à moins d'être définis sur "True".

Valeurs valides : chaîne, l'une des valeurs suivantes : ("Auto", "True" ou "False").

Valeur par défaut : "Auto".

rho

Facteur de déduction pour le gradient des optimiseurs "adadelta" et "rmsprop". Ignoré pour les autres optimiseurs.

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 0.95.

train_only_on_top_layer

S'il a pour valeur "True", seuls les paramètres de la couche de classification supérieure sont ajustés. S'il a pour valeur "False", tous les paramètres du modèle sont affinés.

Valeurs valides : chaîne, valeur : ("True" ou "False").

Valeur par défaut : "False".

validation_split_ratio

Fraction des données d'entraînement à diviser de manière aléatoire pour créer des données de validation. Utilisé uniquement si les données de validation ne sont pas fournies via le canal validation.

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 0.2.

warmup_steps_fraction

Fraction du nombre total d'étapes de mise à jour du gradient, au cours de laquelle le taux d'apprentissage passe de 0 au taux d'apprentissage initial en guise d'échauffement. Utilisé uniquement avec l'optimiseur adamw.

Valeurs valides : valeur à virgule flottante, plage : [0.0, 1.0].

Valeur par défaut : 0.1.