本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
评估医疗保健行业的生成式 AI 解决方案
评估您构建的医疗保健 AI 解决方案对于确保它们在现实医疗环境中有效、可靠和可扩展至关重要。使用系统的方法来评估解决方案中每个组件的性能。以下是可用于评估解决方案的方法和指标的摘要。
评估信息的提取
评估信息提取解决方案(例如智能简历解析器和自定义实体提取器)的性能。您可以使用测试数据集来衡量这些解决方案的响应是否一致。如果您没有涵盖多功能医疗保健人才档案和患者病历的数据集,则可以使用法学硕士的推理功能创建自定义测试数据集。例如,您可以使用大型参数模型,例如 Anthropic Claude 模型,以生成测试数据集。
以下是可用于评估信息提取模型的三个关键指标:
-
准确性和完整性 — 这些指标评估输出在多大程度上捕获了地面实况数据中存在的正确和完整的信息。这包括检查提取信息的正确性以及提取的信息中是否存在所有相关细节。
-
相似性和相关性 — 这些指标评估输出和实况数据之间的语义、结构和上下文相似性(相似性),以及输出与地面真相数据的内容、上下文和意图(相关性)一致和解决的程度。
-
调整后的召回率或捕获率 — 这些速率根据经验决定了模型正确识别了地面实况数据中有多少当前值。该费率应包括对模型提取的所有错误值的惩罚。
-
精度分数 — 精度分数可帮助您确定预测中存在多少误报,与真阳性相比有多少误报。例如,您可以使用精度指标来衡量提取的技能熟练度的正确性。
使用多个检索器评估 RAG 解决方案
要评估系统检索相关信息的效果以及它如何有效地使用这些信息生成准确且符合上下文的响应,您可以使用以下指标:
-
响应相关性-衡量生成的响应(使用检索到的上下文)与原始查询的相关性。
-
上下文精度-在检索到的总结果中,评估检索到的与查询相关的文档或片段的比例。上下文精度越高,表明检索机制在选择相关信息方面是有效的。
-
忠诚度-评估生成的响应在检索到的上下文中反映信息的准确程度。换句话说,衡量回复是否符合来源信息。
使用 LLM 评估解决方案
您可以使用一种名为 LLM- 的技术as-a-judge来评估生成式 AI 解决方案中的文本响应。它涉及使用 LLMs 来评估和评估模型输出的性能。该技术利用 Amazon Bedrock 的功能来判断各种属性,例如响应质量、连贯性、依从性、准确性以及对人类偏好或实况数据的完整性。您可以使用 chain-of-thought (CoT)
-
成对比 ——向法学硕士评估人员提供一个医学问题以及由你创建的不同迭代版本的 RAG 系统生成的多个答案。提示法学硕士评估人员根据回答质量、连贯性和对原始问题的遵守程度来确定最佳答案。
-
单答分级 — 此技术非常适合需要评估分类准确性的用例,例如患者预后分类、患者行为分类、患者重新入院可能性和风险分类。使用法学硕士评估器单独分析个人分类或分类,并根据事实数据评估其提供的推理。
-
参考文献指导评分 — 为法学硕士评估人员提供一系列需要描述性答案的医学问题。为这些问题创建示例答案,例如参考答案或理想答案。提示法学硕士评估员将法学硕士生成的响应与参考答案或理想答案进行比较,并提示法学硕士评估员根据准确性、完整性、相似性、相关性或其他属性对生成的响应进行评分。此技术可帮助您评估生成的响应是否与定义明确的标准答案或示例性答案一致。