Hyperparamètres de seq2seq - Amazon SageMaker

Hyperparamètres de seq2seq

Nom du paramètre Description
batch_size

Taille de lot minimale pour une pente de gradient.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 64

beam_size

Longueur du faisceau pour la recherche de faisceau. Utilisé lors de la formation pour le calcul de bleu et utilisé lors de l'inférence.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 5

bleu_sample_size

Nombre d'instances à choisir dans l'ensemble de données de validation pour décoder et calculer le score de bleu durant la formation. À définir sur -1 pour utiliser l'ensemble complet de validation (si bleu a la valeur optimized_metric).

Facultatif

Valeurs valides : nombre entier

Valeur par défaut : 0

bucket_width

Renvoie les compartiments (source, cible) jusqu'à (max_seq_len_source, max_seq_len_target). Le côté le plus long des données utilise des pas de bucket_width, alors que le côté le plus court utilise des pas mis à l'échelle descendante par le rapport moyen entre la longueur source et la longueur cible. Si l'un des côtés atteint sa longueur maximale avant l'autre, la largeur des compartiments supplémentaires de ce côté-là est fixée à ce côté-là de max_len.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 10

bucketing_enabled

À définir sur false pour désactiver la mise en compartiment, puis déployez jusqu'à la longueur maximale.

Facultatif

Valeurs valides : true ou false

Valeur par défaut: true

checkpoint_frequency_num_batches

Contrôle et évaluation tous les x lots. Cet hyperparamètre de points de contrôle est transmis à l'algorithme seq2seq de SageMaker pour l'arrêt anticipé et la récupération du meilleur modèle. Les points de contrôle de l'algorithme s'exécutent localement dans le conteneur d'entraînement de l'algorithme et ne sont pas compatibles avec les points de contrôle SageMaker. L'algorithme enregistre temporairement les points de contrôle dans un chemin local et stocke l'artefact du meilleur modèle dans le chemin de sortie du modèle dans S3 après l'arrêt de la tâche d'entraînement.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 1000

checkpoint_threshold

Nombre maximal du modèle de points de contrôle autorisé à ne pas être amélioré dans optimized_metric de l'ensemble de données de validation avant l'arrêt de la formation. Cet hyperparamètre de points de contrôle est transmis à l'algorithme seq2seq de SageMaker pour l'arrêt anticipé et la récupération du meilleur modèle. Les points de contrôle de l'algorithme s'exécutent localement dans le conteneur d'entraînement de l'algorithme et ne sont pas compatibles avec les points de contrôle SageMaker. L'algorithme enregistre temporairement les points de contrôle dans un chemin local et stocke l'artefact du meilleur modèle dans le chemin de sortie du modèle dans S3 après l'arrêt de la tâche d'entraînement.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 3

clip_gradient

Rognez les valeurs de gradient absolu supérieures à celle-ci. Définissez une valeur négative pour désactiver.

Facultatif

Valeurs valides : Float

Valeur par défaut : 1

cnn_activation_type

Type d'activation cnn à utiliser.

Facultatif

Valeurs valides : String. L'une des valeurs suivantes : glu, relu, softrelu, sigmoid ou tanh.

Valeur par défaut: glu

cnn_hidden_dropout

Probabilité de dropout entre couches convolutives.

Facultatif

Valeurs valides : Float. Plage [0,1].

Valeur par défaut : 0

cnn_kernel_width_decoder

Largeur du noyau (kernel) pour le décodeur cnn.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 5

cnn_kernel_width_encoder

Largeur du noyau (kernel) pour l'encodeur cnn.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 3

cnn_num_hidden

Nombre d'unités cnn masquées de l'encodeur et du décodeur.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 512

decoder_type

Type de décodeur.

Facultatif

Valeurs valides : String. rnn ou cnn.

Valeur par défaut : rnn

embed_dropout_source

Probabilité de dropout pour les intégrations côté source.

Facultatif

Valeurs valides : Float. Plage [0,1].

Valeur par défaut : 0

embed_dropout_target

Probabilité de dropout pour les intégrations côté cible.

Facultatif

Valeurs valides : Float. Plage [0,1].

Valeur par défaut : 0

encoder_type

Type d'encodeur. L'architecture des rnn est basée sur le mécanisme d'attention de Bahdanau et al. Celle des réseaux cnn repose sur Gehring et al.

Facultatif

Valeurs valides : String. rnn ou cnn.

Valeur par défaut: rnn

fixed_rate_lr_half_life

Moitié de vie pour le taux d'apprentissage en termes de nombre de points de contrôle des planificateurs fixed_rate_*.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 10

learning_rate

Taux de formation initial.

Facultatif

Valeurs valides : Float

Valeur par défaut : 0.0003

loss_type

Fonction de perte pour la formation.

Facultatif

Valeurs valides : String. cross-entropy

Valeur par défaut: cross-entropy

lr_scheduler_type

Type de planificateur du taux d'apprentissage. plateau_reduce signifie une réduction du taux d'apprentissage à chaque fois que optimized_metric sur des niveauxvalidation_accuracy. inv_t est la dégradation temporelle inverse learning_rate/(1+decay_rate* t)

Facultatif

Valeurs valides : String. plateau_reduce, fixed_rate_inv_t ou fixed_rate_inv_sqrt_t.

Valeur par défaut: plateau_reduce

max_num_batches

Nombre maximal de mises à jour/lots à traiter. -1 pour l'infini.

Facultatif

Valeurs valides : nombre entier

Valeur par défaut : -1

max_num_epochs

Nombre maximal de dates epoch à transmettre par le biais des données de formation avant que l'ajustement ne soit arrêté. La formation se poursuit jusqu'au nombre de dates epoch, même si la précision de la validation n'est pas améliorée lorsque ce paramètre est transmis. Paramètre ignoré s'il n'est pas passé.

Facultatif

Valeurs valides : nombre entier positif et inférieur ou égal à max_num_epochs.

Valeur par défaut : None

max_seq_len_source

Longueur maximale de la séquence source. Les séquences qui dépassent cette longueur sont tronquées à cette valeur.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 100

max_seq_len_target

Longueur maximale de la séquence cible. Les séquences qui dépassent cette longueur sont tronquées à cette valeur.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 100

min_num_epochs

Nombre minimal de périodes (epochs) que la formation doit exécuter avant qu'elle ne soit arrêtée via les conditions early_stopping.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 0

momentum

Constante de vitesse utilisée pour sgd. Ne transmettez pas ce paramètre si vous utilisez adam ou rmsprop.

Facultatif

Valeurs valides : Float

Valeur par défaut : None

num_embed_source

Taille d'intégration des jetons source.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 512

num_embed_target

Taille d'intégration des jetons cible.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 512

num_layers_decoder

Nombre de couches du décodeur rnn ou cnn.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 1

num_layers_encoder

Nombre de couches de l'encodeur rnn ou cnn.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 1

optimized_metric

Métriques d'optimisation avec arrêt anticipé.

Facultatif

Valeurs valides : String. perplexity, accuracy ou bleu.

Valeur par défaut: perplexity

optimizer_type

Optimiseur à partir duquel choisir.

Facultatif

Valeurs valides : String. adam, sgd ou rmsprop.

Valeur par défaut: adam

plateau_reduce_lr_factor

Facteur avec lequel multiplier le taux d'apprentissage (pour plateau_reduce).

Facultatif

Valeurs valides : Float

Valeur par défaut : 0.5

plateau_reduce_lr_threshold

Pour le planificateur plateau_reduce, multipliez le taux d'apprentissage avec le facteur de réduction si la valeur optimized_metric ne s'est pas améliorée pour autant de points de contrôle.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 3

rnn_attention_in_upper_layers

Transmettez l'attention aux couches supérieures de rnn, comme (voir article sur le système NMT de Google). Applicable uniquement si plusieurs couches sont utilisées.

Facultatif

Valeurs valides : booléennes (true ou false)

Valeur par défaut: true

rnn_attention_num_hidden

Nombre d'unités masquées pour les couches d'attention. Valeur par défaut : rnn_num_hidden.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut: rnn_num_hidden

rnn_attention_type

Modèle d'attention pour les encodeurs. mlp fait référence à la concaténation (« concat ») et bilinear (bilinéaire) à « general » (voir article de Luong et al.).

Facultatif

Valeurs valides : String. L'une des valeurs suivantes : dot, fixed, mlp ou bilinear.

Valeur par défaut: mlp

rnn_cell_type

Type spécifique d'architecture rnn.

Facultatif

Valeurs valides : String. lstm ou gru.

Valeur par défaut: lstm

rnn_decoder_state_init

Procédure pour initialiser les états du décodeur rnn à partir des encodeurs.

Facultatif

Valeurs valides : String. last, avg ou zero.

Valeur par défaut: last

rnn_first_residual_layer

Première couche rnn à avoir une connexion résiduelle ; applicable uniquement si le nombre de couches de l'encodeur ou du décodeur est supérieur à 1.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 2

rnn_num_hidden

Nombre d'unités rnn masquées de l'encodeur et du décodeur. La valeur doit être un multiple de 2, car l'algorithme utilise par défaut le réseau LSTM bidirectionnel.

Facultatif

Valeurs valides : nombre entier positif

Valeur par défaut : 1024

rnn_residual_connections

Ajout d'une connexion résiduelle aux types rnn empilés. Le nombre de couches doit être supérieur à 1.

Facultatif

Valeurs valides : booléennes (true ou false)

Valeur par défaut: false

rnn_decoder_hidden_dropout

Probabilité de dropout d'un état masqué qui associe le contexte à l'état rnn masqué du décodeur.

Facultatif

Valeurs valides : Float. Plage [0,1].

Valeur par défaut : 0

training_metric

Métriques de suivi de la formation sur les données de validation.

Facultatif

Valeurs valides : String. perplexity ou accuracy.

Valeur par défaut: perplexity

weight_decay

Constante de dégradation de pondération.

Facultatif

Valeurs valides : Float

Valeur par défaut : 0

weight_init_scale

Échelle d'initialisation de pondération (pour les initialisations uniform et xavier).

Facultatif

Valeurs valides : Float

Valeur par défaut : 2.34

weight_init_type

Type d'initialisation de pondération.

Facultatif

Valeurs valides : String. uniform ou xavier.

Valeur par défaut: xavier

xavier_factor_type

Type de facteur xavier.

Facultatif

Valeurs valides : String. in, out ou avg.

Valeur par défaut: in