翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ヘルスケアおよびライフサイエンスアプリケーション向けの LLMs の評価
このセクションでは、ヘルスケアとライフサイエンスのユースケースで大規模言語モデル (LLMs) を評価するための要件と考慮事項の包括的な概要を示します。
グランドトゥルースデータと SME フィードバックを使用してバイアスを軽減し、LLM が生成するレスポンスの精度を検証することが重要です。このセクションでは、トレーニングおよびテストデータを収集およびキュレートするためのベストプラクティスについて説明します。また、ガードレールを実装し、データのバイアスと公平性を測定するのにも役立ちます。また、テキスト分類、名前付きエンティティ認識、テキスト生成などの一般的な医療自然言語処理 (NLP) タスク、および関連する評価メトリクスについても説明します。
また、トレーニング実験フェーズとポストプロダクションフェーズ中に LLM 評価を実行するワークフローも示します。モデルモニタリングと LLM オペレーションは、この評価プロセスの重要な要素です。
医療 NLP タスクのトレーニングとテストデータ
医療 NLP タスクでは、通常、医療法人 (PubMed など) または患者情報 (患者の診察ノートなど) を使用して、インサイトを分類、要約、生成します。医療担当者、例えば、医師、医療管理者、技術者は、専門知識や視点が異なります。これらの医療担当者間の主観性により、トレーニングデータセットとテストデータセットが小さいほどバイアスのリスクがあります。このリスクを軽減するには、次のベストプラクティスをお勧めします。
-
事前トレーニング済みの LLM ソリューションを使用する場合は、十分な量のテストデータがあることを確認してください。テストデータは完全に一致するか、実際の医療データによく似ている必要があります。タスクに応じて、20~100 レコードの範囲になります。
-
LLM をファインチューニングする場合は、対象となる医療ドメインのさまざまな SMEs から十分な数のラベル付き (グラウンドトゥルース) レコードを収集します。一般的な開始点は、少なくとも 100 件の高品質レコードです。各 SME のレコードは 20 件以下にすることをお勧めします。ただし、タスクの複雑さと精度の許容基準を考慮すると、より多くのレコードが必要になる場合があります。
-
医療ユースケースで必要な場合は、ガードレールを実装し、データのバイアスと公平性を測定します。例えば、LLM が患者の人種プロファイルによる誤診断を防止していることを確認してください。詳細については、このガイドのセキュリティとガードレール「」セクションを参照してください。
Anthropic などの多くの AI 研究および開発企業は、毒性を避けるために基盤モデルにガードレールを既に実装しています。毒性検出を使用して、LLMs からの入力プロンプトと出力レスポンスを確認できます。詳細については、Amazon Comprehend ドキュメントの「有害性検出」を参照してください。
生成 AI タスクでは、幻覚のリスクがあります。このリスクを軽減するには、分類などの NLP タスクを実行します。テキスト類似度メトリクスなど、より高度な手法を使用することもできます。BertScore
医療 NLP タスクのメトリクス
グラウンドトゥルースデータと SME が提供するトレーニングとテスト用のラベルを確立した後、定量化可能なメトリクスを作成できます。ストレステストや LLM 結果の確認などの定性的なプロセスによる品質の確認は、迅速な開発に役立ちます。ただし、メトリクスは将来の LLM オペレーションをサポートする量的ベンチマークとして機能し、各本番リリースのパフォーマンスベンチマークとして機能します。
医療タスクを理解することが重要です。メトリクスは通常、次のいずれかの一般的な NLP タスクにマッピングされます。
-
テキスト分類 – LLM は、入力プロンプトと提供されたコンテキストに基づいて、テキストを 1 つ以上の定義済みカテゴリに分類します。たとえば、ペインスケールを使用してペインカテゴリを分類します。テキスト分類メトリクスの例は次のとおりです。
-
名前付きエンティティ認識 (NER) – テキスト抽出とも呼ばれる名前付きエンティティ認識は、非構造化テキストで記述されている名前付きエンティティを検索して事前定義されたカテゴリに分類するプロセスです。たとえば、患者レコードから薬剤名を抽出します。NER メトリクスの例は次のとおりです。
-
生成 – LLM は、プロンプトと提供されたコンテキストを処理することで新しいテキストを生成します。生成には、要約タスクまたは質疑応答タスクが含まれます。生成メトリクスの例は次のとおりです。
-
研究中のバイリンガル評価 (BLEU)
(翻訳用) -
文字列距離
。コサイン類似度とも呼ばれます。