Sequence to Sequence ハイパーパラメータ - Amazon SageMaker

Sequence to Sequence ハイパーパラメータ

パラメータ名 説明
batch_size

勾配降下のミニバッチサイズ。

オプション

有効な値: 正の整数

デフォルト値: 64

beam_size

ビームサーチのビームの長さ。トレーニング中に bleu の計算に使用され、推論中に使用されます。

オプション

有効な値: 正の整数

デフォルト値: 5

bleu_sample_size

トレーニング中に bleu スコアをデコードして計算するために検証データセットから選択するインスタンスの数。完全な検証セットを使用するには -1 に設定します (bleuoptimized_metric として選択されている場合)。

オプション

有効な値: 整数

デフォルト値: 0

bucket_width

(source,target) バケットを最大で (max_seq_len_source,max_seq_len_target) で返します。より長い側のデータは bucket_width のステップを使用し、短い側はターゲット/ソースの長さの平均比でスケールダウンしたステップを使用します。一方の側が他方より先に最大長に達した場合、その側の余分なバケットの幅はその側の max_len に固定されます。

オプション

有効な値: 正の整数

デフォルト値: 10

bucketing_enabled

バケットを無効にし、最大長に展開するには、false に設定します。

オプション

有効な値: true または false

デフォルト値: true

checkpoint_frequency_num_batches

x バッチごとにチェックポイントと評価を行います。

オプション

有効な値: 正の整数

デフォルト値: 1000

checkpoint_threshold

トレーニングが停止する前に検証データセット上の optimized_metric で改善しないように許可されたモデルのチェックポイントの最大数。

オプション

有効な値: 正の整数

デフォルト値: 3

clip_gradient

これより大きなクリップのグラデーション絶対値。無効にするには、負の値に設定します。

オプション

有効な値: 浮動小数点数

デフォルト値: 1

cnn_activation_type

使用される cnn のアクティベーションタイプ。

オプション

有効な値: 文字列.glurelusoftrelusigmoidtanh のいずれか。

デフォルト値: glu

cnn_hidden_dropout

畳み込みレイヤー間のドロップアウトのドロップアウトする確率。

オプション

有効な値: 浮動小数点数。[0,1] の範囲です。

デフォルト値: 0

cnn_kernel_width_decoder

cnn デコーダーのカーネル幅。

オプション

有効な値: 正の整数

デフォルト値: 5

cnn_kernel_width_encoder

cnn エンコーダーのカーネル幅。

オプション

有効な値: 正の整数

デフォルト値: 3

cnn_num_hidden

エンコーダーやデコーダーの cnn の非表示ユニットの数。

オプション

有効な値: 正の整数

デフォルト値: 512

decoder_type

デコーダーの種類。

オプション

有効な値: 文字列.rnn または cnn

デフォルト値: rnn

embed_dropout_source

ソース側の埋め込みのドロップアウトする確率。

オプション

有効な値: 浮動小数点数。[0,1] の範囲です。

デフォルト値: 0

embed_dropout_target

ターゲット側の埋め込みのドロップアウトする確率。

オプション

有効な値: 浮動小数点数。[0,1] の範囲です。

デフォルト値: 0

encoder_type

エンコーダーの種類。rnn アーキテクチャーは Bahdanau らによるアテンション機構に基づいており、cnn アーキテクチャーは Gehring らに基づいています。

オプション

有効な値: 文字列.rnn または cnn

デフォルト値: rnn

fixed_rate_lr_half_life

fixed_rate_* のスケジューラのチェックポイント数に関する学習レートの半減期。

オプション

有効な値: 正の整数

デフォルト値: 10

learning_rate

初期学習レート。

オプション

有効な値: 浮動小数点数

デフォルト値: 0.0003

loss_type

トレーニングの損失関数。

オプション

有効な値: 文字列. cross-entropy

デフォルト値: cross-entropy

lr_scheduler_type

学習レートスケジューラタイプ。plateau_reduce は、validation_accuracyoptimized_metric がプラトーに達するたびに学習レートを下げることを意味します。inv_t は逆時間減衰です。learning_rate/(1+decay_rate*t)

オプション

有効な値: 文字列.plateau_reducefixed_rate_inv_tfixed_rate_inv_sqrt_t のいずれか 1 つ。

デフォルト値: plateau_reduce

max_num_batches

処理する更新/バッチの最大数。無限の場合は -1。

オプション

有効な値: 整数

デフォルト値: -1

max_num_epochs

フィッティングが停止する前にトレーニングデータを移行するエポックの最大数。このパラメータが渡された場合に検証の正確性が改善しない場合でも、トレーニングはエポックがこの数に達するまで続行されます。渡されない場合は無視されます。

オプション

有効な値: max_num_epochs 以下の正の整数。

デフォルト値: なし

max_seq_len_source

ソースシーケンスの長さの最大長。この長さより長いシーケンスはこの長さに切り捨てられます。

オプション

有効な値: 正の整数

デフォルト値: 100

max_seq_len_target

ターゲットシーケンスの長さの最大長。この長さより長いシーケンスはこの長さに切り捨てられます。

オプション

有効な値: 正の整数

デフォルト値: 100

min_num_epochs

トレーニングが early_stopping 条件に従って停止されるまでに実行する必要のあるエポックの最小数。

オプション

有効な値: 正の整数

デフォルト値: 0

momentum

sgd に使用されるモーメンタム定数。adam または rmsprop を使用している場合は、このパラメータを渡さないでください。

オプション

有効な値: 浮動小数点数

デフォルト値: なし

num_embed_source

ソーストークンの埋め込みサイズ。

オプション

有効な値: 正の整数

デフォルト値: 512

num_embed_target

ターゲットトークンの埋め込みサイズ。

オプション

有効な値: 正の整数

デフォルト値: 512

num_layers_decoder

デコーダー rnn または cnn のレイヤーの数。

オプション

有効な値: 正の整数

デフォルト値: 1

num_layers_encoder

エンコーダー rnn または cnn のレイヤーの数。

オプション

有効な値: 正の整数

デフォルト値: 1

optimized_metric

早期停止を最適化するメトリクス。

オプション

有効な値: 文字列.perplexityaccuracybleu のいずれか 1 つ。

デフォルト値: perplexity

optimizer_type

選択するオプティマイザー。

オプション

有効な値: 文字列.adamsgdrmsprop のいずれか 1 つ。

デフォルト値: adam

plateau_reduce_lr_factor

学習レートを乗算する係数 (plateau_reduce の場合)。

オプション

有効な値: 浮動小数点数

デフォルト値: 0.5

plateau_reduce_lr_threshold

plateau_reduce スケジューラでは、optimized_metric がこの数のチェックポイントを改善しなかった場合、学習レートに減衰係数を乗算します。

オプション

有効な値: 正の整数

デフォルト値: 3

rnn_attention_in_upper_layers

Google NMT のペーパーのように、アテンションを rnn の上位レイヤーに渡します。複数のレイヤーが使用されている場合にのみ適用できます。

オプション

有効な値: ブール値 (true または false)

デフォルト値: true

rnn_attention_num_hidden

アテンションレイヤーの非表示ユニットの数。デフォルトは rnn_num_hidden です。

オプション

有効な値: 正の整数

デフォルト値: rnn_num_hidden

rnn_attention_type

エンコーダーのアテンションモデル。Luong らのペーパーによると、mlp は concat を参照し、bilinear は general を参照します。

オプション

有効な値: 文字列.dotfixedmlpbilinear のいずれか。

デフォルト値: mlp

rnn_cell_type

特定のタイプの rnn アーキテクチャー。

オプション

有効な値: 文字列.lstm または gru

デフォルト値: lstm

rnn_decoder_state_init

rnn デコーダーの状態をエンコーダーから初期化する方法。

オプション

有効な値: 文字列.lastavgzero のいずれか 1 つ。

デフォルト値: last

rnn_first_residual_layer

残差接続がある最初の rnn レイヤー、エンコーダーまたはデコーダー内のレイヤーの数が 1 を超える場合にのみ適用可能。

オプション

有効な値: 正の整数

デフォルト値: 2

rnn_num_hidden

エンコーダーおよびデコーダーの rnn の非表示ユニットの数。このアルゴリズムはデフォルトで双方向の長短期記憶 (LSTM) を使用するため、これは 2 の倍数である必要があります。

オプション

有効な値: 正の偶数

デフォルト値: 1024

rnn_residual_connections

多層 rnn に残差接続を追加する。レイヤーの数は 1 を超える必要があります。

オプション

有効な値: ブール値 (true または false)

デフォルト値: false

rnn_decoder_hidden_dropout

コンテキストをデコーダーの rnn の非表示状態を組み合わせる、非表示状態のドロップアウトする確率。

オプション

有効な値: 浮動小数点数。[0,1] の範囲です。

デフォルト値: 0

training_metric

検証データ上のトレーニングを追跡するメトリクス。

オプション

有効な値: 文字列.perplexity または accuracy

デフォルト値: perplexity

weight_decay

重み減衰定数。

オプション

有効な値: 浮動小数点数

デフォルト値: 0

weight_init_scale

重み初期化方法のスケール (初期化方法が uniform および xavier の場合)。

オプション

有効な値: 浮動小数点数

デフォルト値: 2.34

weight_init_type

重み初期化方法の種類。

オプション

有効な値: 文字列.uniform または xavier

デフォルト値: xavier

xavier_factor_type

Xavier の係数タイプ。

オプション

有効な値: 文字列.inoutavg のいずれか 1 つ。

デフォルト値: in