Sequence to Sequence ハイパーパラメータ

次の表に、Amazon SageMaker AI Sequence-to-Sequence (seq2seq) アルゴリズムでトレーニングするときに設定できるハイパーパラメータを示します。

Parameter Name	説明
`batch_size`	勾配降下のミニバッチサイズ。オプション有効な値: 正の整数デフォルト値: 64
`beam_size`	ビームサーチのビームの長さ。トレーニング中に `bleu` の計算に使用され、推論中に使用されます。オプション有効な値: 正の整数デフォルト値: 5
`bleu_sample_size`	トレーニング中に `bleu` スコアをデコードして計算するために検証データセットから選択するインスタンスの数。完全な検証セットを使用するには -1 に設定します (`bleu` が `optimized_metric` として選択されている場合)。オプション有効な値: 整数デフォルト値: 0
`bucket_width`	(source,target) バケットを最大で (`max_seq_len_source`,`max_seq_len_target`) で返します。より長い側のデータは `bucket_width` のステップを使用し、短い側はターゲット/ソースの長さの平均比でスケールダウンしたステップを使用します。一方の側が他方より先に最大長に達した場合、その側の余分なバケットの幅はその側の `max_len` に固定されます。オプション有効な値: 正の整数デフォルト値: 10
`bucketing_enabled`	バケットを無効にし、最大長に展開するには、`false` に設定します。オプション有効な値: `true` または `false` デフォルト値: `true`
`checkpoint_frequency_num_batches`	x バッチごとにチェックポイントと評価を行います。このチェックポイントハイパーパラメータは、SageMaker AI の seq2seq アルゴリズムに渡され、最適なモデルを早期停止して取得します。アルゴリズムのチェックポイントはアルゴリズムのトレーニングコンテナでローカルに実行され、SageMaker AI チェックポイントと互換性がありません。アルゴリズムは、一時的にチェックポイントをローカルパスに保存し、トレーニングジョブが停止した後、最適なモデルアーティファクトを S3 のモデル出力パスに保存します。オプション有効な値: 正の整数デフォルト値: 1000
`checkpoint_threshold`	トレーニングが停止する前に検証データセット上の `optimized_metric` で改善しないように許可されたモデルのチェックポイントの最大数。このチェックポイントハイパーパラメータは、SageMaker AI の seq2seq アルゴリズムに渡され、最適なモデルを早期停止して取得します。アルゴリズムのチェックポイントはアルゴリズムのトレーニングコンテナでローカルに実行され、SageMaker AI チェックポイントと互換性がありません。アルゴリズムは、一時的にチェックポイントをローカルパスに保存し、トレーニングジョブが停止した後、最適なモデルアーティファクトを S3 のモデル出力パスに保存します。オプション有効な値: 正の整数デフォルト値： 3
`clip_gradient`	これより大きなクリップのグラデーション絶対値。無効にするには、負の値に設定します。オプション有効な値: 浮動小数点数デフォルト値： 1
`cnn_activation_type`	使用される `cnn` のアクティベーションタイプ。オプション有効な値：文字列。`glu`、`relu`、`softrelu`、`sigmoid`、`tanh` のいずれか。デフォルト値: `glu`
`cnn_hidden_dropout`	畳み込みレイヤー間のドロップアウトのドロップアウトする確率。オプション有効な値: 浮動小数点数。[0,1] の範囲です。デフォルト値: 0
`cnn_kernel_width_decoder`	`cnn` デコーダーのカーネル幅。オプション有効な値: 正の整数デフォルト値: 5
`cnn_kernel_width_encoder`	`cnn` エンコーダーのカーネル幅。オプション有効な値: 正の整数デフォルト値： 3
`cnn_num_hidden`	エンコーダーやデコーダーの `cnn` の非表示ユニットの数。オプション有効な値: 正の整数デフォルト値: 512
`decoder_type`	デコーダーの種類。オプション有効な値：文字列。`rnn` または `cnn` です。デフォルト値: rnn
`embed_dropout_source`	ソース側の埋め込みのドロップアウトする確率。オプション有効な値: 浮動小数点数。[0,1] の範囲です。デフォルト値: 0
`embed_dropout_target`	ターゲット側の埋め込みのドロップアウトする確率。オプション有効な値: 浮動小数点数。[0,1] の範囲です。デフォルト値: 0
`encoder_type`	エンコーダーの種類。`rnn` アーキテクチャーは Bahdanau らによるアテンション機構に基づいており、cnn アーキテクチャーは Gehring らに基づいています。オプション有効な値：文字列。`rnn` または `cnn` です。デフォルト値: `rnn`
`fixed_rate_lr_half_life`	`fixed_rate_`* のスケジューラのチェックポイント数に関する学習レートの半減期。オプション有効な値: 正の整数デフォルト値: 10
`learning_rate`	初期学習レート。オプション有効な値: 浮動小数点数デフォルト値: 0.0003
`loss_type`	トレーニングの損失関数。オプション有効な値: 文字列。 `cross-entropy` デフォルト値: `cross-entropy`
`lr_scheduler_type`	学習レートスケジューラタイプ。`plateau_reduce` は、`validation_accuracy` の `optimized_metric` がプラトーに達するたびに学習レートを下げることを意味します。`inv_t` は逆時間減衰です。`learning_rate`/(1+`decay_rate`t) オプション* 有効な値：文字列。`plateau_reduce`、`fixed_rate_inv_t`、`fixed_rate_inv_sqrt_t` のいずれか 1 つ。デフォルト値: `plateau_reduce`
`max_num_batches`	処理する更新/バッチの最大数。無限の場合は -1。オプション有効な値: 整数デフォルト値: -1
`max_num_epochs`	フィッティングが停止する前にトレーニングデータを移行するエポックの最大数。このパラメータが渡された場合に検証の正確性が改善しない場合でも、トレーニングはエポックがこの数に達するまで続行されます。渡されない場合は無視されます。オプション有効な値: max_num_epochs 以下の正の整数。デフォルト値: なし
`max_seq_len_source`	ソースシーケンスの長さの最大長。この長さより長いシーケンスはこの長さに切り捨てられます。オプション有効な値: 正の整数デフォルト値: 100
`max_seq_len_target`	ターゲットシーケンスの長さの最大長。この長さより長いシーケンスはこの長さに切り捨てられます。オプション有効な値: 正の整数デフォルト値: 100
`min_num_epochs`	トレーニングが `early_stopping` 条件に従って停止されるまでに実行する必要のあるエポックの最小数。オプション有効な値: 正の整数デフォルト値: 0
`momentum`	`sgd` に使用されるモーメンタム定数。`adam` または `rmsprop` を使用している場合は、このパラメータを渡さないでください。オプション有効な値: 浮動小数点数デフォルト値: なし
`num_embed_source`	ソーストークンの埋め込みサイズ。オプション有効な値: 正の整数デフォルト値: 512
`num_embed_target`	ターゲットトークンの埋め込みサイズ。オプション有効な値: 正の整数デフォルト値: 512
`num_layers_decoder`	デコーダー rnn または cnn のレイヤーの数。オプション有効な値: 正の整数デフォルト値： 1
`num_layers_encoder`	エンコーダー `rnn` または `cnn` のレイヤーの数。オプション有効な値: 正の整数デフォルト値： 1
`optimized_metric`	早期停止を最適化するメトリクス。オプション有効な値：文字列。`perplexity`、`accuracy`、`bleu` のいずれか 1 つ。デフォルト値: `perplexity`
`optimizer_type`	選択するオプティマイザー。オプション有効な値：文字列。`adam`、`sgd`、`rmsprop` のいずれか 1 つ。デフォルト値: `adam`
`plateau_reduce_lr_factor`	学習レートを乗算する係数 (`plateau_reduce` の場合)。オプション有効な値: 浮動小数点数デフォルト値: 0.5
`plateau_reduce_lr_threshold`	`plateau_reduce` スケジューラでは、`optimized_metric` がこの数のチェックポイントを改善しなかった場合、学習レートに減衰係数を乗算します。オプション有効な値: 正の整数デフォルト値： 3
`rnn_attention_in_upper_layers`	Google NMT のペーパーのように、アテンションを rnn の上位レイヤーに渡します。複数のレイヤーが使用されている場合にのみ適用できます。オプション有効な値: ブール値 (`true` または `false`) デフォルト値: `true`
`rnn_attention_num_hidden`	アテンションレイヤーの非表示ユニットの数。デフォルトは `rnn_num_hidden` です。オプション有効な値: 正の整数デフォルト値: `rnn_num_hidden`
`rnn_attention_type`	エンコーダーのアテンションモデル。Luong らのペーパーによると、`mlp` は concat を参照し、bilinear は general を参照します。オプション有効な値：文字列。`dot`、`fixed`、`mlp`、`bilinear` のいずれか。デフォルト値: `mlp`
`rnn_cell_type`	特定のタイプの `rnn` アーキテクチャー。オプション有効な値：文字列。`lstm` または `gru` です。デフォルト値: `lstm`
`rnn_decoder_state_init`	`rnn` デコーダーの状態をエンコーダーから初期化する方法。オプション有効な値：文字列。`last`、`avg`、`zero` のいずれか 1 つ。デフォルト値: `last`
`rnn_first_residual_layer`	残差接続がある最初の rnn レイヤー、エンコーダーまたはデコーダー内のレイヤーの数が 1 を超える場合にのみ適用可能。オプション有効な値: 正の整数デフォルト値: 2
`rnn_num_hidden`	エンコーダーおよびデコーダーの rnn の非表示ユニットの数。このアルゴリズムはデフォルトで双方向の長短期記憶 (LSTM) を使用するため、これは 2 の倍数である必要があります。オプション有効な値: 正の偶数デフォルト値: 1024
`rnn_residual_connections`	多層 rnn に残差接続を追加する。レイヤーの数は 1 を超える必要があります。オプション有効な値: ブール値 (`true` または `false`) デフォルト値: `false`
`rnn_decoder_hidden_dropout`	コンテキストをデコーダーの rnn の非表示状態を組み合わせる、非表示状態のドロップアウトする確率。オプション有効な値: 浮動小数点数。[0,1] の範囲です。デフォルト値: 0
`training_metric`	検証データ上のトレーニングを追跡するメトリクス。オプション有効な値：文字列。`perplexity` または `accuracy` です。デフォルト値: `perplexity`
`weight_decay`	重み減衰定数。オプション有効な値: 浮動小数点数デフォルト値: 0
`weight_init_scale`	重み初期化方法のスケール (初期化方法が `uniform` および `xavier` の場合)。オプション有効な値: 浮動小数点数デフォルト値: 2.34
`weight_init_type`	重み初期化方法の種類。オプション有効な値：文字列。`uniform` または `xavier` です。デフォルト値: `xavier`
`xavier_factor_type`	Xavier の係数タイプ。オプション有効な値：文字列。`in`、`out`、`avg` のいずれか 1 つ。デフォルト値: `in`

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

仕組み

モデルの調整