评估 LLMs 医疗保健和生命科学应用 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

评估 LLMs 医疗保健和生命科学应用

本节全面概述了在医疗保健和生命科学用例中评估大型语言模型 (LLMs) 的要求和注意事项。

重要的是要使用实况数据和中小企业反馈来减轻偏见,并验证法学硕士生成的响应的准确性。本节介绍收集和整理训练和测试数据的最佳实践。它还可以帮助您实施防护措施并衡量数据偏见和公平性。它还讨论了常见的医学自然语言处理 (NLP) 任务,例如文本分类、命名实体识别和文本生成,及其相关的评估指标。

它还提供了在训练实验阶段和后期制作阶段进行法学硕士评估的工作流程。模型监控和 LLM 操作是该评估过程的重要组成部分。

医疗 NLP 任务的训练和测试数据

医疗 NLP 任务通常使用医学语料库(例如 PubMed)或患者信息(例如临床患者就诊记录)来分类、总结和生成见解。医务人员,例如医生、医疗保健管理人员或技术人员,其专业知识和观点各不相同。由于这些医务人员之间的主观性,较小的培训和测试数据集会带来偏见的风险。为了降低这种风险,我们建议采用以下最佳实践:

  • 使用预训练的 LLM 解决方案时,请确保您有足够数量的测试数据。测试数据应与实际医疗数据完全匹配或非常相似。根据任务的不同,记录的范围可能从 20 到 100 多条不等。

  • 在微调法学硕士学位时,请从各种目标医学领域收集足够数量的带标签(事实真相) SMEs 的记录。一般的起点是至少有 100 条高质量记录,我们建议每家中小企业的记录不超过 20 条。但是,考虑到任务的复杂性以及您的准确性验收标准,可能需要更多记录。

  • 如果您的医疗用例需要,请实施防护措施并衡量数据的偏见和公平性。例如,请确保法学硕士学位防止由于患者的种族特征而导致的误诊。有关更多信息,请参阅本指南中的安全和护栏部分。

许多人工智能研发公司,例如Anthropic,已经在其基础模型中实施了护栏以避免毒性。您可以使用毒性检测来检查输入提示和来自的输出响应 LLMs。有关更多信息,请参阅 Amazon Comprehend 文档中的毒性检测

在任何生成式人工智能任务中,都有产生幻觉的风险。您可以通过执行 NLP 任务(例如分类)来降低这种风险。您还可以使用更高级的技术,例如文本相似度量度。 BertScore是一种常用的文本相似度量标准。有关可用于缓解幻觉的技术的更多信息,请参阅大型语言模型中幻觉缓解技术的综合调查

医疗 NLP 任务的指标

在为训练和测试建立基本真相数据和中小企业提供的标签后,您可以创建可量化的指标。通过定性流程(例如压力测试和审查法学硕士学位)来检查质量有助于快速开发。但是,指标充当量基准,支持Future LLM的运营,并充当每个生产版本的性能基准。

了解医疗任务至关重要。指标通常映射到以下常规 NLP 任务之一: