本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
評估醫療和生命科學應用程式的 LLMs
本節提供在醫療保健和生命科學使用案例中評估大型語言模型 (LLMs) 的需求和考量的完整概觀。
請務必使用基本事實資料和 SME 意見回饋,以減輕偏差並驗證 LLM 產生的回應的準確性。本節說明收集和策劃訓練和測試資料的最佳實務。它還可協助您實作護欄並測量資料偏差和公平性。它還討論了常見的醫療自然語言處理 (NLP) 任務,例如文字分類、具名實體辨識和文字產生,及其相關聯的評估指標。
它也提供在訓練實驗階段和後製階段執行 LLM 評估的工作流程。模型監控和 LLM 操作是此評估程序的重要元素。
醫療 NLP 任務的訓練和測試資料
醫療 NLP 任務通常會使用醫療體庫 (例如 PubMed) 或患者資訊 (例如門診患者就診備註) 來分類、摘要和產生洞見。醫療專業人員、這類醫生、醫療保健管理員或技術人員在專業知識和觀點方面各有不同。由於這些醫務人員之間的主觀性,較小的訓練和測試資料集會產生偏差的風險。為了降低此風險,我們建議採用下列最佳實務:
-
使用預先訓練的 LLM 解決方案時,請確定您有足夠數量的測試資料。測試資料應該完全相符,或是與實際醫療資料非常相似。視任務而定,範圍可以從 20 到超過 100 筆記錄。
-
微調 LLM 時,請從目標醫療網域的各種中SMEs收集足夠數量的已標記 (地面真相) 記錄。一般起點至少為 100 個高品質記錄,我們建議每個 SME 的記錄不得超過 20 個。不過,由於任務的複雜性和您的準確性接受條件,可能需要更多記錄。
-
如果醫療使用案例需要,請實作護欄並測量資料偏差和公平性。例如,請確定 LLM 可防止因病患種族描述檔而導致的誤診。如需詳細資訊,請參閱本指南中的安全與護欄一節。
許多 AI 研究和開發公司,例如 Anthropic,已在其基礎模型中實作護欄,以避免毒性。您可以使用毒性偵測來檢查輸入提示和來自 LLMs輸出回應。如需詳細資訊,請參閱 Amazon Comprehend 文件中的毒性偵測。
在任何生成式 AI 任務中,都有幻覺的風險。您可以透過執行分類等 NLP 任務來降低此風險。您也可以使用更進階的技術,例如文字相似性指標。BertScore
醫療 NLP 任務的指標
您可以在建立基本事實資料和 SME 提供的訓練和測試標籤之後,建立可量化的指標。透過壓力測試和檢閱 LLM 結果等定性程序檢查品質,有助於快速開發。不過,指標可做為支援未來 LLM 操作的量化基準,並做為每個生產版本的效能基準。
了解醫療任務至關重要。指標通常對應至下列其中一個一般 NLP 任務:
-
文字分類 – LLM 會根據輸入提示和提供的內容,將文字分類為一或多個預先定義的類別。範例是使用疼痛量表來分類疼痛類別。文字分類指標的範例包括:
-
具名實體辨識 (NER) – 也稱為文字擷取,具名實體辨識是將非結構化文字中提及的具名實體定位和分類為預先定義類別的程序。範例是從病患記錄擷取藥物的名稱。NER 指標的範例包括:
-
產生 – LLM 會透過處理提示和提供的內容來產生新的文字。產生包括摘要任務或問答任務。產生指標的範例包括:
-
研究下雙語評估 (BLEU)
(適用於翻譯) -
字串距離
,也稱為餘弦相似性