推論パラメータでレスポンスの生成に影響を与える

モデル推論を実行するときは、推論パラメータを調整して、モデルレスポンスに影響を与えることができます。推論パラメータによって、モデルが生成中に検討する出力候補のプールを変更したり、最終レスポンスを制限したりできます。

推論パラメータのデフォルト値と範囲はモデルによって異なります。さまざまなモデルの推論パラメータについては、「Inference request parameters and response fields for foundation models」を参照してください。

以下のカテゴリのパラメータは、さまざまなモデルに共通しています。

トピック

ランダム性と多様性
Length

ランダム性と多様性

どのシーケンスでも、モデルはシーケンス内の次のトークンのオプションの確率分布を決定します。出力で各トークンを生成するために、モデルはこの分布からサンプリングします。ランダム性と多様性とは、モデルのレスポンスにおける変動量を指します。これらの要因は、分布を制限または調整することで制御できます。基盤モデルでは通常、レスポンスのランダム性と多様性を制御するための以下のパラメータがサポートされています。

[温度] — 予測出力の確率分布の形状に影響し、モデルがより確率の低い出力を選択する可能性にも影響します。
- 確率の高い出力を選択するには、モデルに影響する値を低く設定します。
- 確率の低い出力を選択するには、モデルに影響する値を高く設定します。
専門用語で言うと、温度は次のトークンの確率質量関数を変調します。温度が低いほど関数が急勾配になり、レスポンスがより決定論的になります。一方、温度が高いほど関数が平坦になり、ランダムなレスポンスが多くなります。
[トップ K] — モデルが次のトークンについて検討する最も可能性の高い候補の数。
- 小さい値を選択するとプールのサイズが小さくなり、選択肢がより可能性の高い出力に限定されます。
- 大きい値を選択するとプールのサイズが大きくなり、モデルが可能性の低い出力を考慮できるようになります。
例えば、[トップ K] に 50 の値を選択した場合、モデルはシーケンスにおいて次に来る可能性が最も高い 50 個のトークンの中から選択します。
[トップ P] — モデルが次のトークンについて考慮する最も可能性の高い候補のパーセンテージ。
- 小さい値を選択するとプールのサイズが小さくなり、選択肢がより可能性の高い出力に限定されます。
- 大きい値を選択するとプールのサイズが大きくなり、モデルが可能性の低い出力を考慮できるようになります。
専門用語で言うと、このモデルはレスポンスのセットの累積確率分布を計算し、分布の上位 P% のみを考慮します。

例えば、[トップ P] に 0.8 の値を選択した場合、モデルはシーケンスにおいて次に来る可能性が最も高い 80% のトークンの確率分布から選択します。

次の表は、これらのパラメータの効果をまとめたものです。

パラメータ	低い値の効果	高い値の効果
温度	高い確率のトークンの可能性を向上する低い確率のトークンの可能性を低下する	低い確率のトークンの可能性を向上する高い確率のトークンの可能性を低下する
トップ K	低い確率のトークンを削除する	低い確率のトークンを許可する
トップ P	低い確率のトークンを削除する	低い確率のトークンを許可する

これらのパラメータを理解するための例として、プロンプト I hear the hoof beats of " の例について考えてみましょう。モデルが、次の 3 つの単語を次のトークンの候補として決定したとします。このモデルでは、各単語に確率も割り当てられます。


{
    "horses": 0.7,
    "zebras": 0.2,
    "unicorns": 0.1
}

[温度] を高く設定すると、確率分布が平坦になり、確率の差が小さくなるため、「ユニコーン」を選ぶ確率は上がり、「馬」を選ぶ確率は下がります。
[トップ K] を 2 に設定すると、モデルは最も可能性の高い候補の上位 2 つ、つまり「馬」と「シマウマ」のみを考慮します。
[トップ P] を 0.7 に設定した場合、モデルは「horses」のみを考慮します。確率分布の上位 70% に入る候補は「horses」だけだからです。[トップ P] を 0.9 に設定した場合は、「horses」と「zebras」が考慮されます。いずれも確率分布の上位 90% に入っているからです。

Length

基盤モデルでは通常、レスポンスの長さを制限するパラメータがサポートされています。これらのパラメータの例を以下に示します。

[レスポンスの長さ] — 生成されたレスポンスで返されるトークンの最小数または最大数を指定する正確な値。
[ペナルティ] — レスポンス内の出力にどの程度ペナルティを課すかを指定します。次に例を示します。
- レスポンスの長さ。
- レスポンスで繰り返されるトークン。
- レスポンス内のトークンの頻度。
- レスポンス内のトークンのタイプ。
[停止シーケンス] — モデルがそれ以上トークンを生成しないようにする文字シーケンスを指定します。指定した停止シーケンスをモデルが生成すると、そのシーケンスの後に生成が停止します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

推論の仕組み

サポートされているリージョンおよびモデル