Sequence-to-Sequence Hyperparamètres

Le tableau suivant répertorie les hyperparamètres que vous pouvez définir lors de l'entraînement avec l'algorithme Amazon SageMaker AI Sequence-to-Sequence (seq2seq).

Nom du paramètre	Description
`batch_size`	Taille de lot minimale pour une pente de gradient. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 64
`beam_size`	Longueur du faisceau pour la recherche de faisceau. Utilisé lors de la formation pour le calcul de `bleu` et utilisé lors de l'inférence. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 5
`bleu_sample_size`	Nombre d'instances à choisir dans l'ensemble de données de validation pour décoder et calculer le score de `bleu` durant la formation. À définir sur -1 pour utiliser l'ensemble complet de validation (si `bleu` a la valeur `optimized_metric`). Facultatif Valeurs valides : nombre entier Valeur par défaut : 0
`bucket_width`	Renvoie les compartiments (source, cible) jusqu'à (`max_seq_len_source`, `max_seq_len_target`). Le côté le plus long des données utilise des pas de `bucket_width`, alors que le côté le plus court utilise des pas mis à l'échelle descendante par le rapport moyen entre la longueur source et la longueur cible. Si l'un des côtés atteint sa longueur maximale avant l'autre, la largeur des compartiments supplémentaires de ce côté-là est fixée à ce côté-là de `max_len`. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 10
`bucketing_enabled`	À définir sur `false` pour désactiver la mise en compartiment, puis déployez jusqu'à la longueur maximale. Facultatif Valeurs valides : `true` ou `false` Valeur par défaut : `true`
`checkpoint_frequency_num_batches`	Contrôle et évaluation tous les x lots. Cet hyperparamètre de point de contrôle est transmis à l'algorithme seq2seq de l' SageMaker IA pour arrêter rapidement et récupérer le meilleur modèle. Le point de contrôle de l'algorithme s'exécute localement dans le conteneur d'entraînement de l'algorithme et n'est pas compatible avec le point de contrôle basé sur l' SageMaker IA. L'algorithme enregistre temporairement les points de contrôle dans un chemin local et stocke l'artefact du meilleur modèle dans le chemin de sortie du modèle dans S3 après l'arrêt de la tâche d'entraînement. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 1000
`checkpoint_threshold`	Nombre maximal du modèle de points de contrôle autorisé à ne pas être amélioré dans `optimized_metric` de l'ensemble de données de validation avant l'arrêt de la formation. Cet hyperparamètre de point de contrôle est transmis à l'algorithme seq2seq de l' SageMaker IA pour arrêter rapidement et récupérer le meilleur modèle. Le point de contrôle de l'algorithme s'exécute localement dans le conteneur d'entraînement de l'algorithme et n'est pas compatible avec le point de contrôle basé sur l' SageMaker IA. L'algorithme enregistre temporairement les points de contrôle dans un chemin local et stocke l'artefact du meilleur modèle dans le chemin de sortie du modèle dans S3 après l'arrêt de la tâche d'entraînement. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 3
`clip_gradient`	Rognez les valeurs de gradient absolu supérieures à celle-ci. Définissez une valeur négative pour désactiver. Facultatif Valeurs valides : float Valeur par défaut : 1
`cnn_activation_type`	Type d'activation `cnn` à utiliser. Facultatif Valeurs valides : string. L'une des valeurs suivantes : `glu`, `relu`, `softrelu`, `sigmoid` ou `tanh`. Valeur par défaut : `glu`
`cnn_hidden_dropout`	Probabilité de dropout entre couches convolutives. Facultatif Valeurs valides : float. Plage [0,1]. Valeur par défaut : 0
`cnn_kernel_width_decoder`	Largeur du noyau (kernel) pour le décodeur `cnn`. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 5
`cnn_kernel_width_encoder`	Largeur du noyau (kernel) pour l'encodeur `cnn`. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 3
`cnn_num_hidden`	Nombre d'unités `cnn` masquées de l'encodeur et du décodeur. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 512
`decoder_type`	Type de décodeur. Facultatif Valeurs valides : string. `rnn` ou `cnn`. Valeur par défaut : rnn
`embed_dropout_source`	Probabilité de dropout pour les intégrations côté source. Facultatif Valeurs valides : float. Plage [0,1]. Valeur par défaut : 0
`embed_dropout_target`	Probabilité de dropout pour les intégrations côté cible. Facultatif Valeurs valides : float. Plage [0,1]. Valeur par défaut : 0
`encoder_type`	Type d'encodeur. L'architecture des `rnn` est basée sur le mécanisme d'attention de Bahdanau et al. Celle des réseaux cnn repose sur Gehring et al. Facultatif Valeurs valides : string. `rnn` ou `cnn`. Valeur par défaut : `rnn`
`fixed_rate_lr_half_life`	Moitié de vie pour le taux d'apprentissage en termes de nombre de points de contrôle des planificateurs `fixed_rate_`. Facultatif* Valeurs valides : nombre entier positif Valeur par défaut : 10
`learning_rate`	Taux de formation initial. Facultatif Valeurs valides : float Valeur par défaut : 0.0003
`loss_type`	Fonction de perte pour la formation. Facultatif Valeurs valides : String. `cross-entropy` Valeur par défaut : `cross-entropy`
`lr_scheduler_type`	Type de planificateur du taux d'apprentissage. `plateau_reduce` signifie une réduction du taux d'apprentissage à chaque fois que `optimized_metric` sur des niveaux`validation_accuracy`. `inv_t` est la dégradation temporelle inverse `learning_rate`/(1+`decay_rate`* t) Facultatif Valeurs valides : string. `plateau_reduce`, `fixed_rate_inv_t` ou `fixed_rate_inv_sqrt_t`. Valeur par défaut : `plateau_reduce`
`max_num_batches`	Nombre maximal de mises à jour/lots à traiter. -1 pour l'infini. Facultatif Valeurs valides : nombre entier Valeur par défaut : -1
`max_num_epochs`	Nombre maximal de dates epoch à transmettre par le biais des données de formation avant que l'ajustement ne soit arrêté. La formation se poursuit jusqu'au nombre de dates epoch, même si la précision de la validation n'est pas améliorée lorsque ce paramètre est transmis. Paramètre ignoré s'il n'est pas passé. Facultatif Valeurs valides : nombre entier positif et inférieur ou égal à max_num_epochs. Valeur par défaut : none
`max_seq_len_source`	Longueur maximale de la séquence source. Les séquences qui dépassent cette longueur sont tronquées à cette valeur. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 100
`max_seq_len_target`	Longueur maximale de la séquence cible. Les séquences qui dépassent cette longueur sont tronquées à cette valeur. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 100
`min_num_epochs`	Nombre minimal de périodes (epochs) que la formation doit exécuter avant qu'elle ne soit arrêtée via les conditions `early_stopping`. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 0
`momentum`	Constante de vitesse utilisée pour `sgd`. Ne transmettez pas ce paramètre si vous utilisez `adam` ou `rmsprop`. Facultatif Valeurs valides : float Valeur par défaut : none
`num_embed_source`	Taille d'intégration des jetons source. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 512
`num_embed_target`	Taille d'intégration des jetons cible. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 512
`num_layers_decoder`	Nombre de couches du décodeur rnn ou cnn. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 1
`num_layers_encoder`	Nombre de couches de l'encodeur `rnn` ou `cnn`. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 1
`optimized_metric`	Métriques d'optimisation avec arrêt anticipé. Facultatif Valeurs valides : string. `perplexity`, `accuracy` ou `bleu`. Valeur par défaut : `perplexity`
`optimizer_type`	Optimiseur à partir duquel choisir. Facultatif Valeurs valides : string. `adam`, `sgd` ou `rmsprop`. Valeur par défaut : `adam`
`plateau_reduce_lr_factor`	Facteur avec lequel multiplier le taux d'apprentissage (pour `plateau_reduce`). Facultatif Valeurs valides : float Valeur par défaut : 0.5
`plateau_reduce_lr_threshold`	Pour le planificateur `plateau_reduce`, multipliez le taux d'apprentissage avec le facteur de réduction si la valeur `optimized_metric` ne s'est pas améliorée pour autant de points de contrôle. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 3
`rnn_attention_in_upper_layers`	Transmettez l'attention aux couches supérieures de rnn, comme l'article sur le système NMT de Google. Applicable uniquement si plusieurs couches sont utilisées. Facultatif Valeurs valides : booléennes (`true` ou `false`) Valeur par défaut : `true`
`rnn_attention_num_hidden`	Nombre d'unités masquées pour les couches d'attention. Valeur par défaut : `rnn_num_hidden` Facultatif Valeurs valides : nombre entier positif Valeur par défaut : `rnn_num_hidden`
`rnn_attention_type`	Modèle d'attention pour les encodeurs. `mlp` fait référence à la concaténation (« concat ») et bilinear (bilinéaire) à « general » (voir article de Luong et al.). Facultatif Valeurs valides : string. L'une des valeurs suivantes : `dot`, `fixed`, `mlp` ou `bilinear`. Valeur par défaut : `mlp`
`rnn_cell_type`	Type spécifique d'architecture `rnn`. Facultatif Valeurs valides : string. `lstm` ou `gru`. Valeur par défaut : `lstm`
`rnn_decoder_state_init`	Procédure pour initialiser les états du décodeur `rnn` à partir des encodeurs. Facultatif Valeurs valides : string. `last`, `avg` ou `zero`. Valeur par défaut : `last`
`rnn_first_residual_layer`	Première couche rnn à avoir une connexion résiduelle ; applicable uniquement si le nombre de couches de l'encodeur ou du décodeur est supérieur à 1. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 2
`rnn_num_hidden`	Nombre d'unités rnn masquées de l'encodeur et du décodeur. La valeur doit être un multiple de 2, car l'algorithme utilise par défaut le réseau LSTM bidirectionnel. Facultatif Valeurs valides : nombre entier positif Valeur par défaut : 1024
`rnn_residual_connections`	Ajout d'une connexion résiduelle aux types rnn empilés. Le nombre de couches doit être supérieur à 1. Facultatif Valeurs valides : booléennes (`true` ou `false`) Valeur par défaut : `false`
`rnn_decoder_hidden_dropout`	Probabilité de dropout d'un état masqué qui associe le contexte à l'état rnn masqué du décodeur. Facultatif Valeurs valides : float. Plage [0,1]. Valeur par défaut : 0
`training_metric`	Métriques de suivi de la formation sur les données de validation. Facultatif Valeurs valides : string. `perplexity` ou `accuracy`. Valeur par défaut : `perplexity`
`weight_decay`	Constante de dégradation de pondération. Facultatif Valeurs valides : float Valeur par défaut : 0
`weight_init_scale`	Échelle d'initialisation de pondération (pour les initialisations `uniform` et `xavier`). Facultatif Valeurs valides : float Valeur par défaut : 2.34
`weight_init_type`	Type d'initialisation de pondération. Facultatif Valeurs valides : string. `uniform` ou `xavier`. Valeur par défaut : `xavier`
`xavier_factor_type`	Type de facteur xavier. Facultatif Valeurs valides : string. `in`, `out` ou `avg`. Valeur par défaut : `in`

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Comment ça marche

Réglage d'un modèle