Autopilot で大規模言語モデルを微調整するためのメトリクス

データセットを使用して、Autopilot はターゲット言語モデル (LLM) を直接微調整し、デフォルトの目標メトリクスであるクロスエントロピー損失を強化します。

クロスエントロピー損失は、予測確率分布とトレーニングデータ内の単語の実際の分布との類似性を評価するために広く使用されているメトリクスです。クロスエントロピー損失を最小限に抑えることで、モデルは、特にテキスト生成に関連するタスクで、より正確でコンテキストに応じた予測を行う方法を学習します。

LLM を微調整した後、ROUGEスコアの範囲を使用して生成されたテキストの品質を評価できます。さらに、評価プロセスの一環として、多重度とクロスエントロピーのトレーニングと検証の損失を分析できます。

多重度損失は、モデルがテキストシーケンス内の次の単語をどの程度予測できるかを測定し、値が低いほど言語とコンテキストの理解が深まることを示します。
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) は、自然言語処理 (NLP) と機械学習の分野で使用され、テキストの要約やテキスト生成など、機械生成テキストの品質を評価するための一連のメトリクスです。主に、生成されたテキストと検証データセットのグラウンドトゥルース参照 (人が作成した) テキストの類似性を評価します。 ROUGEメジャーは、システム生成テキストと参照テキストの n グラム (連続した単語シーケンス) の精度や再現率など、テキストの類似性のさまざまな側面を評価するように設計されています。目標は、モデルがリファレンステキストに存在する情報をどの程度適切にキャプチャしているかを評価することです。

ROUGE メトリクスには、使用する n グラムのタイプと評価されるテキスト品質の特定の側面に応じて、いくつかのバリアントがあります。

次のリストには、Autopilot で大規模言語モデルを微調整した後に使用できるROUGEメトリクスの名前と説明が含まれています。

ROUGE-1, ROUGE-2

ROUGE-NプライマリROUGEメトリクスであるは、システム生成テキストとリファレンステキスト間の n グラムの重複を測定します。は、異なるの値 n (ここでは 1または 2) に調整して、システム生成テキストがリファレンステキストから n グラムをどの程度キャプチャしたかを評価ROUGE-Nできます。

ROUGE-L

ROUGE-L (ROUGE-Longest Common Subsequence) は、システムによって生成されたテキストと参照テキストの間の最長の共通サブシーケンスを計算します。このバリアントは、コンテンツの重複に加えて単語の順序を考慮します。

ROUGE-L-Sum

ROUGE-L-SUM (要約の最長共通サブシーケンス) は、テキスト要約システムの評価用に設計されています。マシンが生成した概要と参照概要の間の最長の共通サブシーケンスを測定することに重点を置いてROUGE-L-SUMいます。は、テキスト要約タスクで重要なテキスト内の単語の順序を考慮します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ハイパーパラメータ

モデルのデプロイと予測