选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

在 Autopilot 中微调大型语言模型的指标

聚焦模式
在 Autopilot 中微调大型语言模型的指标 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

以下部分描述了可用于理解经过微调的大型语言模型的指标(LLMs)。Autopilot 可使用您的数据集直接微调目标 LLM,以增强默认目标指标--交叉熵损失。

交叉熵损失是一种广泛使用的指标,用于评测预测的概率分布与训练数据中实际单词分布之间的差异。通过尽可能减少交叉熵损失,模型可以学习做出更准确、与上下文更相关的预测,尤其是在与文本生成相关的任务中。

微调 LLM 后,您可以使用以下范围来评估其生成的文本的质量 ROUGE 分数。此外,作为评估过程的一部分,您可以分析困惑度、交叉熵训练和验证损失。

  • 困惑度损失衡量模型预测文本序列中下一个单词的准确程度,较低的值表示对语言和上下文的理解更好。

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE) 是一组用于自然语言处理 (NLP) 和机器学习领域的指标,用于评估机器生成的文本(例如文本摘要或文本生成)的质量。它主要用于评测生成的文本与验证数据集中实际参考(由人工编写)文本之间的相似性。ROUGE 衡量标准旨在评估文本相似性的各个方面,包括系统生成的文本和参考文本中 n-grams(连续的单词序列)的精度和记忆度。其目标是评测模型采集参考文本中所提供信息的效果如何。

    有几种变体 ROUGE 指标,具体取决于所使用的 n 元语法的类型和正在评估的文本质量的具体方面。

    以下列表包含的名称和描述 ROUGE 在 Autopilot 中对大型语言模型进行微调后可用的指标。

    ROUGE-1, ROUGE-2

    ROUGE-N,主要 ROUGE metric,衡量系统生成的文本和参考文本之间 n 元语法的重叠度。ROUGE-N 可以调整为不同的值n(此处12),以评估系统生成的文本从参考文本中捕获 n 元语法的效果如何。

    ROUGE-L

    ROUGE-L (ROUGE-Longest Common Subcence)计算系统生成的文本和参考文本之间最长的公共子序列。除了内容重叠之外,此变体还考虑单词顺序。

    ROUGE-L-Sum

    ROUGE-L-SUM (用于摘要的最长公共子序列)专为评估文本摘要系统而设计。它侧重于测量机器生成的摘要和参考摘要之间最长的共同子序列。ROUGE-L-SUM 考虑了文本中的单词顺序,这在文本摘要任务中很重要。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。