ヘルスケア向けの生成 AI ソリューションの評価 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ヘルスケア向けの生成 AI ソリューションの評価

構築する医療 AI ソリューションを評価することは、実際の医療環境で効果的、信頼性、拡張性を確保するために不可欠です。体系的なアプローチを使用して、ソリューションの各コンポーネントのパフォーマンスを評価します。以下は、ソリューションの評価に使用できる方法論とメトリクスの概要です。

情報の抽出の評価

インテリジェントな再開パーサーカスタムエンティティエクストラクタなどの情報抽出ソリューションのパフォーマンスを評価します。テストデータセットを使用して、これらのソリューションのレスポンスのアライメントを測定できます。汎用的な医療人材プロファイルと患者の医療記録をカバーするデータセットがない場合は、LLM の推論機能を使用してカスタムテストデータセットを作成できます。たとえば、モデルなどの大規模なパラメータAnthropic Claudeモデルを使用して、テストデータセットを生成できます。

以下は、情報抽出モデルの評価に使用できる 3 つの主要なメトリクスです。

  • 正確性と完全性 – これらのメトリクスは、グラウンドトゥルースデータに存在する正確で完全な情報を出力がキャプチャした範囲を評価します。これには、抽出された情報の正確性と、抽出された情報に関連するすべての詳細の存在の両方を確認することが含まれます。

  • 類似度と関連性 – これらのメトリクスは、出力とグラウンドトゥルースデータの間の意味的、構造的、およびコンテキスト的な類似度 (類似度) と、出力がグラウンドトゥルースデータの内容、コンテキスト、インテントとどの程度一致しているか (関連性) を評価します。

  • 調整された再現率またはキャプチャ率 – これらの率は、グラウンドトゥルースデータ内の現在の値のうち、モデルによって正しく識別された値の数を経験的に決定します。レートには、モデルが抽出するすべての false 値に対するペナルティを含める必要があります。

  • 精度スコア – 精度スコアは、真陽性と比較して、予測に存在する誤検出の数を決定するのに役立ちます。たとえば、精度メトリクスを使用して、抽出されたスキルの習熟度の精度を測定できます。

複数のリトリーバーによる RAG ソリューションの評価

システムが関連情報をどの程度効果的に取得し、その情報を使用して正確でコンテキストに応じた適切なレスポンスを生成するかを評価するには、次のメトリクスを使用できます。

  • レスポンスの関連性 – 取得したコンテキストを使用する生成されたレスポンスが元のクエリにどの程度関連しているかを測定します。

  • コンテキストの精度 – 取得された結果の合計のうち、クエリに関連する取得されたドキュメントまたはスニペットの割合を評価します。コンテキストの精度が高いほど、取得メカニズムが関連情報の選択に有効であることを示します。

  • 忠実度 – 生成されたレスポンスが、取得したコンテキスト内の情報を反映する精度を評価します。つまり、レスポンスがソース情報に当てはまるかどうかを測定します。

LLM を使用したソリューションの評価

LLM-as-a-judge と呼ばれる手法を使用して、生成 AI ソリューションからのテキストレスポンスを評価できます。これには、LLMs を使用してモデル出力のパフォーマンスを評価および評価することが含まれます。この手法では、Amazon Bedrock の機能を使用して、人間の好みやグラウンドトゥルースデータに対する応答品質、一貫性、準拠性、正確性、完全性など、さまざまな属性に関する判断を提供します。包括的な評価にはchain-of-thought (CoT) と数ショットプロンプト手法を使用します。プロンプトは、生成されたレスポンスをスコアリングルーブリックで評価するように LLM に指示し、プロンプト内の数ショットのサンプルは実際の評価プロセスを示しています。プロンプトには、LLM 評価者が従うべきガイドラインも含まれています。たとえば、LLM を使用して生成されたレスポンスを判断する、次の 1 つ以上の評価手法を使用することを検討できます。

  • ペア比較 – LLM 評価者に、作成したさまざまな反復バージョンの RAG システムによって生成された医療質問と複数の回答を提供します。LLM 評価者に、レスポンスの品質、一貫性、元の質問への準拠に基づいて最適なレスポンスを決定するよう促します。

  • 単一回答評価 – この手法は、患者の結果分類、患者の行動分類、患者の再入院の可能性、リスク分類など、分類の精度を評価する必要があるユースケースに適しています。LLM 評価者を使用して、個別の分類または分類を個別に分析し、グラウンドトゥルースデータに対して提供された推論を評価します。

  • リファレンスガイドによる評価 – LLM 評価者に、説明的な回答を必要とする一連の医療質問を提供します。リファレンス回答や理想的な回答など、これらの質問に対するサンプル回答を作成します。LLM エバリュエーターに LLM 生成レスポンスをリファレンス回答または理想的なレスポンスと比較するよう促し、LLM エバリュエーターに生成されたレスポンスの精度、完全性、類似性、関連性、またはその他の属性を評価するよう促します。この手法は、生成されたレスポンスが明確に定義された標準回答と代表的な回答のどちらと一致するかを評価するのに役立ちます。