用於微調 Autopilot 中大型語言模型的指標 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

用於微調 Autopilot 中大型語言模型的指標

Autopilot 會使用您的資料集直接對目標語言模型 (LLM) 進行微調,以增強預設目標指標,即交叉熵損失。

交叉熵損失是一種廣泛使用的指標,用於評估預測的概率分佈與訓練資料中文字的實際分佈之間的不相似性。透過將交叉熵損失最小化,模型學習會進行更精確並與上下文相關的預測,特別是在與文字生成相關的任務中。

微調 LLM 後,您可以使用一系列分數來評估其生成文本的質量。ROUGE此外,您可以在評估過程中分析困惑度、交叉熵訓練和驗證損失。

  • 困惑損失可衡量模型在一系列文字中預測下一個字的程度,而較低的值則表示對語言和上下文有更好的理解。

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE)是自然語言處理 (NLP) 和機器學習領域中使用的一組指標,用於評估機器產生文字的品質,例如文字摘要或文字產生。它主要評估生成文本和驗證數據集的地面真相參考(人工編寫)文本之間的相似性。 ROUGE措施旨在評估文本相似性的各個方面,包括系統生成和參考文本中 n 克(連續字序列)的精確度和召回。目標是評估模型擷取參考文字中存在的資訊的程度。

    根據使用的 n 克類型以及要評估的文字品質的特定方面,ROUGE量度有幾種變體。

    下列清單包含在 Autopilot 中微調大型語言模型之後可用ROUGE度量的名稱和說明。

    ROUGE-1, ROUGE-2

    ROUGE-N(主要量度) ROUGE 測量系統產生文字與參考文字之間 n 克的重疊。 ROUGE-N可以調整為 n (here 12) 的不同值,以評估系統產生的文字從參考文字擷取 n 公克的程度。

    ROUGE-L

    ROUGE-L(ROUGE-Longest通用子序列) 會計算系統產生文字與參照文字之間最長的公用子序列。除了內容重疊之外,此變體還會考慮文字順序。

    ROUGE-L-Sum

    ROUGE-L-SUM(用於匯總的最長通用子序列)是專為文本匯總系統的評估而設計的。它著重於測量機器生成的摘要和參考摘要之間最長的共同子序列。 ROUGE-L-SUM考慮到文字中字詞的順序,這在文字摘要工作中很重要。