推論パラメータ - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

推論パラメータ

推論パラメータは、モデルのレスポンスを制限したり影響を与えたりするように調整できる値です。以下のカテゴリのパラメータは、さまざまなモデルに共通して見られます。

ランダム性と多様性

どのシーケンスでも、モデルはシーケンス内の次のトークンのオプションの確率分布を決定します。出力で各トークンを生成するために、モデルはこの分布からサンプリングします。ランダム性と多様性とは、モデルのレスポンスにおける変動量を指します。これらの要因は、分布を制限または調整することで制御できます。基盤モデルでは通常、レスポンスのランダム性と多様性を制御するための以下のパラメータがサポートされています。

  • [温度] — 予測出力の確率分布の形状に影響し、モデルがより確率の低い出力を選択する可能性にも影響します。

    • 確率の高い出力を選択するには、モデルに影響する値を低く設定します。

    • 確率の低い出力を選択するには、モデルに影響する値を高く設定します。

    専門用語で言うと、温度は次のトークンの確率質量関数を変調します。温度が低いほど関数が急勾配になり、レスポンスがより決定論的になります。一方、温度が高いほど関数が平坦になり、ランダムなレスポンスが多くなります。

  • [トップ K] — モデルが次のトークンについて検討する最も可能性の高い候補の数。

    • 小さい値を選択するとプールのサイズが小さくなり、選択肢がより可能性の高い出力に限定されます。

    • 大きい値を選択するとプールのサイズが大きくなり、モデルが可能性の低い出力を考慮できるようになります。

    例えば、[トップ K] に 50 の値を選択した場合、モデルはシーケンスにおいて次に来る可能性が最も高い 50 個のトークンの中から選択します。

  • [トップ P] — モデルが次のトークンについて考慮する最も可能性の高い候補のパーセンテージ。

    • 小さい値を選択するとプールのサイズが小さくなり、選択肢がより可能性の高い出力に限定されます。

    • 大きい値を選択するとプールのサイズが大きくなり、モデルが可能性の低い出力を考慮できるようになります。

    専門用語で言うと、このモデルはレスポンスのセットの累積確率分布を計算し、分布の上位 P% のみを考慮します。

    例えば、[トップ P] に 0.8 の値を選択した場合、モデルはシーケンスにおいて次に来る可能性が最も高い 80% のトークンの確率分布から選択します。

次の表は、これらのパラメータの効果をまとめたものです。

パラメータ 低い値の効果 高い値の効果
温度 高い確率のトークンの可能性を向上する

低い確率のトークンの可能性を低下する

低い確率のトークンの可能性を向上する

高い確率のトークンの可能性を低下する

トップ K 低い確率のトークンを削除する 低い確率のトークンを許可する
トップ P 低い確率のトークンを削除する 低い確率のトークンを許可する

これらのパラメータを理解するための例として、プロンプト I hear the hoof beats of " の例について考えてみましょう。モデルが、次の 3 つの単語を次のトークンの候補として決定したとします。このモデルでは、各単語に確率も割り当てられます。

{ "horses": 0.7, "zebras": 0.2, "unicorns": 0.1 }
  • [温度] を高く設定すると、確率分布が平坦になり、確率の差が小さくなるため、「ユニコーン」を選ぶ確率は上がり、「馬」を選ぶ確率は下がります。

  • [トップ K] を 2 に設定すると、モデルは最も可能性の高い候補の上位 2 つ、つまり「馬」と「シマウマ」のみを考慮します。

  • Top P を 0.7 に設定すると、確率分布の上位 70% にある唯一の候補であるため、モデルは「馬」のみを考慮します。トップ P を 0.9 に設定すると、モデルは「馬」と「ゼブラ」を確率分布の上位 90% にあると見なします。

長さ

基盤モデルでは通常、レスポンスの長さを制限するパラメータがサポートされています。これらのパラメータの例を以下に示します。

  • [レスポンスの長さ] — 生成されたレスポンスで返されるトークンの最小数または最大数を指定する正確な値。

  • [ペナルティ] — レスポンス内の出力にどの程度ペナルティを課すかを指定します。次に例を示します。

    • レスポンスの長さ。

    • レスポンスで繰り返されるトークン。

    • レスポンス内のトークンの頻度。

    • レスポンス内のトークンのタイプ。

  • [停止シーケンス] — モデルがそれ以上トークンを生成しないようにする文字シーケンスを指定します。指定した停止シーケンスをモデルが生成すると、そのシーケンスの後に生成が停止します。