IP Insights ハイパーパラメータ - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

IP Insights ハイパーパラメータ

CreateTransformJob リクエストで、トレーニングアルゴリズムを指定します。アルゴリズム固有のハイパーパラメータをマップとして指定することもできます。 string-to-string 次の表は、Amazon SageMaker IP インサイトアルゴリズムのハイパーパラメータを示しています。

Parameter Name 説明
num_entity_vectors

トレーニングするエンティティベクトル表現 (エンティティ埋め込みベクトル) の数。トレーニングセット内の各エンティティは、ハッシュ関数を使用してこれらのベクトルの 1 つにランダムに割り当てられます。ハッシュ衝突のために、複数のエンティティが同じベクトルに割り当てられる可能性があります。この場合、同じベクトルが複数のエンティティを表します。衝突率がそれほど高くない限り、これは一般的にモデルのパフォーマンスにはほとんど影響しません。衝突率を低く保つには、この値をできるだけ高く設定します。ただし、モデルサイズ、つまりトレーニングと推論の両方におけるメモリ要件は、このハイパーパラメータに比例して直線的に拡大します。この値は、一意のエンティティ識別子の数の 2 倍に設定することをお勧めします。

必須

有効な値: 1 ≤ 正の整数 ≤ 250,000,000

vector_dim

エンティティと IP アドレスを表す埋め込みベクトルのサイズ。値が大きいほど、これらの表現を使用してエンコードできる情報が多くなります。実際には、モデルサイズはこのパラメータに比例して線形的に拡大し、ディメンションの大きさを制限することができます。さらに、使用するベクトル表現が大きすぎると、特に小さなトレーニングデータセットの場合は、モデルが過剰適合となる可能性があります。過剰適合が発生するのは、モデルがデータ内のパターンを学習していないが、トレーニングデータを効果的に記憶していることにより、一般化できず推論中のパフォーマンスが低下する場合です。推奨値は 128 です。

必須

有効な値: 4 ≤ 正の整数 ≤ 4096

batch_metrics_publish_interval

Apache MXNet Speedometer 関数がネットワークのトレーニング速度 (サンプル数/秒) を出力する間隔 (X バッチごと)。

オプション

有効な値: 正の整数 ≥ 1

デフォルト値: 1,000

epochs

トレーニングデータへのパスの数。最適な値は、データサイズと学習レートによって異なります。通常の値の範囲は 5 ~ 100 です。

オプション

有効な値: 正の整数 ≥ 1

デフォルト値: 10

learning_rate

オプティマイザの学習レート。IP インサイトは gradient-descent-based Adam オプティマイザーを使用します。学習レートは、ステップサイズを効果的に制御して、各反復でモデルパラメータを更新します。学習レートが高すぎると、トレーニングが最小値を上回る可能性があるため、モデルが発散する可能性があります。一方、学習レートが低すぎると収束が遅くなります。通常の値の範囲は 1e-4 から 1e-1 です。

オプション

有効な値: 1e-6 ≤ 浮動小数点数 ≤ 10.0

デフォルト値: 0.001

mini_batch_size

各ミニバッチ内の例の数。トレーニング手順では、データをミニバッチ単位で処理します。最適な値は、データセット内の一意のアカウント識別子の数に応じて異なります。一般に、値が大きいほどトレーニングが速くなりmini_batch_size、 shuffled-negative-sample 可能な組み合わせの数も多くなります。ただし、mini_batch_size が大きいと、トレーニングは不十分な極小値に収束し、推論に関するパフォーマンスが比較的低くなる可能性があります。

オプション

有効な値: 1 ≤ 正の整数 ≤ 500000

デフォルト値: 10,000

num_ip_encoder_layers

IP アドレスの埋め込みをエンコードするために使用された完全接続レイヤーの数。レイヤーの数が多いほど、IP アドレス間のパターンをキャプチャするモデルの能力が高まります。ただし、多数のレイヤーを使用すると、過剰適合が起きる可能性が高くなります。

オプション

有効な値: 0 ≤ 正の整数 ≤ 100

デフォルト値: 1

random_negative_sampling_rate

入力例ごとに生成されるランダムな負のサンプルの数 R。トレーニング手順は、モデルのベクトル表現が折りたたまれて単一点になるのを防ぐ目的で、負のサンプルに依存します。ランダムな負のサンプリングは、ミニバッチ内の各入力アカウントに対して R 個のランダム IP アドレスを生成します。random_negative_sampling_rate (R) と shuffled_negative_sampling_rate (S) の合計は、1 ≤ R + S ≤ 500 の範囲内でなければなりません。

オプション

有効な値: 0 ≤ 正の整数 ≤ 500

デフォルト値: 1

shuffled_negative_sampling_rate

入力例ごとに生成される、シャッフルされた負のサンプルの数 S。トレーニングデータ自体からランダムに抽出された、より現実的な負のサンプルを使用する方が役立つ場合もあります。この種の負のサンプリングを実現するには、ミニバッチ内でデータをシャッフルします。シャッフルされた負のサンプリングは、ミニバッチ内で IP アドレスとアカウントの組み合わせをシャッフルすることによって S 個の負の IP アドレスを生成します。random_negative_sampling_rate (R) と shuffled_negative_sampling_rate (S) の合計は、1 ≤ R + S ≤ 500 の範囲内でなければなりません。

オプション

有効な値: 0 ≤ 正の整数 ≤ 500

デフォルト値: 1

weight_decay

重み減衰係数。このパラメータは、モデルによるトレーニングデータの過剰適合を回避するために必要な L2 正則化係数を追加します。

オプション

有効な値: 0.0 ≤ 浮動小数点数 ≤ 10.0

デフォルト値: 0.00001