在 Autopilot 中微调大型语言模型的指标

使用您的数据集，Autopilot 直接微调目标语言模型 (LLM)，以增强默认的目标指标，即交叉熵损失。

交叉熵损失是一种广泛使用的指标，用于评测预测的概率分布与训练数据中实际单词分布之间的差异。通过尽可能减少交叉熵损失，模型可以学习做出更准确、与上下文更相关的预测，尤其是在与文本生成相关的任务中。

微调法学硕士学位后，您可以使用一系列分数来评估其生成的文本的ROUGE质量。此外，作为评估过程的一部分，您可以分析困惑度、交叉熵训练和验证损失。

困惑度损失衡量模型预测文本序列中下一个单词的准确程度，较低的值表示对语言和上下文的理解更好。
Recall-Oriented Understudy for Gisting Evaluation (ROUGE)是一组用于自然语言处理 (NLP) 和机器学习领域的指标，用于评估机器生成的文本（例如文本摘要或文本生成）的质量。它主要评估生成的文本与验证数据集的基本事实参考（人工编写）文本之间的相似性。 ROUGE衡量标准旨在评估文本相似性的各个方面，包括系统生成的文本和参考文本中 n-grams（连续的单词序列）的精度和记忆度。其目标是评测模型采集参考文本中所提供信息的效果如何。

ROUGE指标有几种变体，具体取决于所使用的 n 元语法的类型和正在评估的文本质量的具体方面。

以下列表包含在 Autopilot 中对大型语言模型进行微调后可用ROUGE指标的名称和描述。

ROUGE-1, ROUGE-2

ROUGE-N是主要ROUGE衡量标准，用于衡量系统生成的文本和参考文本之间的 n 元语法重叠度。 ROUGE-N可以调整为不同的值n（此处1或2），以评估系统生成的文本从参考文本中捕获 n 元语法的效果如何。

ROUGE-L

ROUGE-L（ROUGE-Longest公共子序列）计算系统生成的文本和参考文本之间最长的公共子序列。除了内容重叠之外，此变体还考虑单词顺序。

ROUGE-L-Sum

ROUGE-L-SUM（用于摘要的最长公共子序列）专为评估文本摘要系统而设计。它侧重于测量机器生成的摘要和参考摘要之间最长的公共子序列。 ROUGE-L-SUM考虑了文本中的单词顺序，这在文本摘要任务中很重要。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

超参数

模型部署和预测