本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
評估醫療保健的生成式 AI 解決方案
評估您建置的醫療保健 AI 解決方案對於確保其在實際醫療環境中有效、可靠且可擴展至關重要。使用系統性方法來評估解決方案每個元件的效能。以下是您可以用來評估解決方案的方法和指標摘要。
評估資訊的擷取
評估資訊擷取解決方案的效能,例如智慧型繼續剖析器和自訂實體擷取器。您可以使用測試資料集來測量這些解決方案回應的一致性。如果您沒有涵蓋多樣化醫療保健人才設定檔和患者醫療記錄的資料集,您可以使用 LLM 的推理功能來建立自訂測試資料集。例如,您可以使用模型等大型參數模型Anthropic Claude來產生測試資料集。
以下是可用於評估資訊擷取模型的三個關鍵指標:
-
準確性和完整性 – 這些指標會評估輸出擷取 Ground Truth 資料中正確和完整資訊的程度。這包括檢查擷取資訊的正確性,以及擷取資訊中是否存在所有相關詳細資訊。
-
相似性與相關性 – 這些指標會評估輸出與基本事實資料 (相似性) 之間的語意、結構和內容相似性,以及輸出符合並處理基本事實資料的內容、內容和意圖 (相關性) 的程度。
-
調整的召回或擷取速率 – 這些速率會以經驗判斷模型正確識別地面真實資料中的目前值數量。速率應包含對模型擷取之所有 false 值的懲罰。
-
精確度分數 – 精確度分數可協助您判斷與真陽性相比,預測中存在多少誤報。例如,您可以使用精確度指標來測量擷取技能熟練度的正確性。
使用多個擷取器評估 RAG 解決方案
若要評估系統擷取相關資訊的程度,以及如何使用該資訊產生準確且情境適當的回應,您可以使用下列指標:
-
回應相關性 – 測量使用擷取內容產生的回應與原始查詢的相關性。
-
內容精確度 – 在總擷取結果中,評估與查詢相關的擷取文件或程式碼片段的比例。更高的內容精確度表示擷取機制可有效選取相關資訊。
-
誠實 – 評估產生的回應在擷取內容中反映資訊的準確度。換句話說,請測量回應對來源資訊是否仍為 true。
使用 LLM 評估解決方案
您可以使用稱為 LLM-as-a-judge 的技術來評估生成式 AI 解決方案的文字回應。它涉及使用 LLMs來評估和評估模型輸出的效能。此技術使用 Amazon Bedrock 的功能來提供對各種屬性的判斷,例如回應品質、一致性、遵循性、準確性和對人類偏好或基本事實資料的完整性。您可以使用chain-of-thought(CoT)
-
配對比較 – 為 LLM 評估者提供一個醫療問題,以及由您建立之 RAG 系統的不同反覆版本所產生的多個回應。提示 LLM 評估者根據回應品質、一致性和對原始問題的遵守來判斷最佳回應。
-
單一答案分級 – 此技術非常適合您需要評估分類準確性的使用案例,例如患者結果分類、患者行為分類、患者重新入院可能性和風險分類。使用 LLM 評估器來單獨分析個別分類或分類,並評估它針對基本事實資料提供的原因。
-
參考引導分級 – 為 LLM 評估者提供一系列需要描述性回答的醫療問題。建立這些問題的範例回應,例如參考答案或理想的回應。提示 LLM 評估器將 LLM 產生的回應與參考答案或理想的回應進行比較,並提示 LLM 評估器對產生的回應進行準確度、完整性、相似性、相關性或其他屬性的分級。此技術可協助您評估產生的回應是否符合明確定義的標準或示例性答案。