SageMaker AI 训练作业 - Amazon Nova

SageMaker AI 训练作业

使用 Amazon SageMaker Training Jobs 自定义 Amazon Nova 模型遵循一种结构化的工作流程,其旨在简化微调大型语言模型的复杂过程。这种端到端的工作流程包括模型训练、评估以及推理部署。有关更多信息,请参阅《Amazon SageMaker AI 开发人员指南》中的自定义 Amazon Nova 模型

使用 Amazon SageMaker AI,您可以微调 Amazon Nova 等现有的预训练基础模型,而无需从头开始训练自己的模型。以下各章节详细说明了使用 Amazon Nova 基础模型时 SageMaker AI 中的微调选项。

全秩微调

全秩微调可修改所有基础模型参数,以优化其在特定任务或领域中的性能。这种全面的方法对整个模型架构进行了更新,其修改程度比基于适配器的方法更深。有关更多信息,请参阅微调基础模型

全秩微调的工作原理

在全秩微调过程中,模型通过使用您的训练数据更新所有参数来进行学习。该全秩微调过程:

  • 允许模型针对您的领域开发专业知识。

  • 支持对模型的底层表示进行重大更改。

  • 与基于适配器的方法相比,需要更多的计算资源,但对特定任务的性能更好。

何时选择全秩微调

我们建议在以下场景使用全秩微调:

  • 当 LoRA PEFT 微调无法实现所需的性能水平时。

  • 适合需要深厚专业知识的专业领域(例如医疗、法律或技术领域)。

  • 当您的用例有庞大的高质量数据集时。

  • 当精度要求比计算成本考量更重要时。

  • 适用于需要与基础模型行为存在重大偏离的应用。

低秩适配器微调

要增强基础模型的性能,最有效和最具成本效益的方法是低秩适配器参数高效微调 (LoRA PEFT)。LoRA PEFT 的基本原理是,只需更新少数的附加权重即可适应新的任务或领域。

LoRA PEFT 在特定的模型层引入可训练的低秩权重矩阵以有效微调基础模型,从而在保持模型质量的同时减少可训练参数的数量。LoRA PEFT 适配器通过纳入轻量级适配器层来强化基础模型,这些适配器层在推理过程中修改模型的权重,同时使原模型参数保持不变。这种方法也被视为最具成本效益的微调技术之一。有关更多信息,请参阅使用适配器推理组件微调模型

何时选择 LoRA PEFT

我们建议在以下场景中使用 LoRA PEFT:

  • 通常您应该先采用 LoRA PEFT 而非其他微调方法,因为这是一个快速的训练过程。

  • LoRA PEFT 适合基础模型的性能已经令人满意的情况。在此情况下,LoRA PEFT 旨在增强其在多个相关任务中的能力,例如文本摘要或语言翻译。LoRA PEFT 的正则化特性也有助于防止过度拟合,并降低模型“忘记”源域的风险。这可以确保模型保持多功能性,并且可以适应各种应用。

  • 在数据集相对较小时,您可以将 LoRA PEFT 用于指令微调场景。LoRA PEFT 在处理特定任务的小型数据集时表现优于处理更广泛、更大的数据集。

  • 对于超出 Amazon Bedrock 自定义数据限制的大型标注数据集,可以在 SageMaker AI 上使用 LoRA PEFT 生成更好的结果。

  • 如果已经通过 Amazon Bedrock 微调取得了预期结果,SageMaker AI 上的 LoRA PEFT 就可以帮助进一步优化模型超参数。

直接偏好优化

直接偏好优化 (DPO) 是一种高效的基础模型微调方法,它使用配对的比较数据使模型输出与人类偏好保持一致。这种方法根据人类对哪些响应更符合预期的反馈,直接优化模型行为。

DPO 为什么很重要

基于大规模数据训练的基础模型生成的输出虽然在事实层面可能是正确的,但往往无法与特定用户需求、组织价值观或安全要求相符合。DPO 可通过执行以下操作来弥补这一差距:

  • 根据预期的行为模式微调模型。

  • 减少不良的输出或有害的响应。

  • 使模型响应与品牌声音和沟通指南保持一致。

  • 根据领域专家的反馈改善响应质量。

DPO 的工作原理

DPO 使用配对的示例,由人类评估者指出在两种可能的响应中偏好哪一种响应。该模型通过学习来最大化生成偏好响应的可能性,同时最大程度减少非预期的响应。您可以使用下面的方法之一来实现 DPO:

  • 全秩 DPO:更新所有模型参数,以针对偏好响应进行优化。

  • 基于 LoRA 的 DPO:使用轻量级适配器来学习偏好对齐,需要较少的计算资源。

何时选择 DPO

我们建议在以下场景中使用 DPO:

  • 针对需要符合特定人类偏好的主观输出进行优化。

  • 调整模型的语气、风格或内容特征以匹配预期的响应模式。

  • 根据用户反馈和错误分析对现有模型进行针对性的改进。

  • 在不同用例中保持一致的输出质量。

  • 通过偏好的响应模式实施安全护栏。

  • 使用无奖励强化学习进行训练。

  • 仅使用偏好数据,而非已评分或标注的数据。

  • 在细致的对齐任务中改进模型,例如有用、无害或诚实。

DPO 适用于通过精心策划的偏好数据集来迭代优化模型行为,这些数据集展示了预期及非预期的输出。这种方法可灵活支持全秩和基于 LoRA 的方法,因此您可以根据自己的计算资源和特殊要求选择最合适的实现方式。

蒸馏

模型蒸馏是指将知识从大型、高级模型转移到小型、高效模型的方法。对于 Amazon Nova 模型,大型“教师式”模型(例如 Amazon Nova Pro 或 Amazon Nova Premier)将其功能传递给小型“学生式”模型(例如 Amazon Nova Lite 或 Amazon Nova Micro)。这将创建一个自定义的模型,该模型在使用更少资源的同时保持高性能。

有关如何使用 SageMaker AI 训练作业完成这一过程的信息,请参阅 Amazon Nova 蒸馏