의료용 생성형 AI 솔루션 평가 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

의료용 생성형 AI 솔루션 평가

구축한 의료 AI 솔루션을 평가하는 것은 실제 의료 환경에서 효과적이고 안정적이며 확장 가능한지 확인하는 데 매우 중요합니다. 체계적인 접근 방식을 사용하여 솔루션의 각 구성 요소의 성능을 평가합니다. 다음은 솔루션을 평가하는 데 사용할 수 있는 방법론 및 지표에 대한 요약입니다.

정보 추출 평가

지능형 재개 구문 분석기사용자 지정 개체 추출기와 같은 정보 추출 솔루션의 성능을 평가합니다. 테스트 데이터 세트를 사용하여 이러한 솔루션의 응답 정렬을 측정할 수 있습니다. 다양한 의료 인재 프로필 및 환자 의료 기록을 다루는 데이터 세트가 없는 경우 LLM의 추론 기능을 사용하여 사용자 지정 테스트 데이터 세트를 생성할 수 있습니다. 예를 들어 모델과 같은 대규모 파라미터 Anthropic Claude 모델을 사용하여 테스트 데이터 세트를 생성할 수 있습니다.

다음은 정보 추출 모델을 평가하는 데 사용할 수 있는 세 가지 주요 지표입니다.

  • 정확성 및 완전성 - 이러한 지표는 출력이 실측 데이터에 있는 정확하고 완전한 정보를 캡처한 정도를 평가합니다. 여기에는 추출된 정보의 정확성과 추출된 정보에 모든 관련 세부 정보가 있는지 확인하는 작업이 포함됩니다.

  • 유사성 및 관련성 - 이러한 지표는 출력과 실측 데이터 간의 의미, 구조적 및 컨텍스트 유사성(유사성)과 출력이 실측 데이터의 콘텐츠, 컨텍스트 및 의도와 일치하고 이를 해결하는 정도(관련성)를 평가합니다.

  • 조정된 재현율 또는 캡처 속도 - 이러한 속도는 실제 데이터에서 모델에 의해 올바르게 식별된 현재 값의 수를 경험적으로 결정합니다. 비율에는 모델이 추출하는 모든 거짓 값에 대한 페널티가 포함되어야 합니다.

  • 정밀도 점수 - 정밀도 점수는 참 긍정과 비교하여 예측에 존재하는 거짓 긍정 수를 결정하는 데 도움이 됩니다. 예를 들어 정밀도 지표를 사용하여 추출된 스킬 숙련도의 정확성을 측정할 수 있습니다.

여러 리트리버를 사용하여 RAG 솔루션 평가

시스템이 관련 정보를 얼마나 잘 검색하고 해당 정보를 얼마나 효과적으로 사용하여 정확하고 상황에 맞는 응답을 생성하는지 평가하려면 다음 지표를 사용할 수 있습니다.

  • 응답 관련성 - 검색된 컨텍스트를 사용하는 생성된 응답이 원래 쿼리와 얼마나 관련이 있는지 측정합니다.

  • 컨텍스트 정밀도 - 검색된 총 결과 중에서 쿼리와 관련된 검색된 문서 또는 코드 조각의 비율을 평가합니다. 컨텍스트 정밀도가 높을수록 검색 메커니즘이 관련 정보를 선택하는 데 효과적임을 나타냅니다.

  • 충실도 - 생성된 응답이 검색된 컨텍스트의 정보를 얼마나 정확하게 반영하는지 평가합니다. 즉, 소스 정보에 대한 응답이 true로 유지되는지 측정합니다.

LLM을 사용하여 솔루션 평가

LLM-as-a-judge라는 기법을 사용하여 생성형 AI 솔루션의 텍스트 응답을 평가할 수 있습니다. 여기에는 LLMs 사용하여 모델 출력의 성능을 평가하고 평가하는 작업이 포함됩니다. 이 기법은 Amazon Bedrock의 기능을 사용하여 사람의 선호도 또는 실측 데이터에 대한 응답 품질, 일관성, 준수, 정확성 및 완전성과 같은 다양한 속성에 대한 판단을 제공합니다. 포괄적인 평가를 위해 사고 chain-of-thought(CoT)스크린샷이 거의 없는 프롬프트 기법을 사용합니다. 프롬프트는 LLM에 점수 마찰로 생성된 응답을 평가하도록 지시하고 프롬프트의 몇 번의 샘플은 실제 평가 프로세스를 보여줍니다. 프롬프트에는 LLM 평가자가 따라야 할 지침도 포함되어 있습니다. 예를 들어, LLM을 사용하여 생성된 응답을 판단하는 다음 평가 기법 중 하나 이상을 사용하는 것을 고려할 수 있습니다.

  • 쌍 비교 - LLM 평가자에게 생성한 RAG 시스템의 다양한 반복 버전에서 생성된 의료 질문과 여러 응답을 제공합니다. LLM 평가자에게 응답 품질, 일관성 및 원래 질문 준수를 기반으로 최상의 응답을 결정하도록 유도합니다.

  • 단일 답변 그레이딩 -이 기법은 환자 결과 분류, 환자 행동 분류, 환자 재입원 가능성 및 위험 분류와 같은 분류의 정확도를 평가해야 하는 사용 사례에 적합합니다. LLM 평가자를 사용하여 개별 분류 또는 분류를 개별적으로 분석하고 실제 데이터와 비교하여 제공한 추론을 평가합니다.

  • 참조 기반 등급 지정 - LLM 평가자에게 설명 답변이 필요한 일련의 의료 질문을 제공합니다. 참조 답변 또는 이상적인 응답과 같이 이러한 질문에 대한 샘플 응답을 생성합니다. LLM 평가자에게 LLM 생성 응답을 참조 답변 또는 이상적인 응답과 비교하도록 유도하고, LLM 평가자에게 정확성, 완전성, 유사성, 관련성 또는 기타 속성에 대해 생성된 응답의 등급을 매기도록 유도합니다. 이 기법은 생성된 응답이 잘 정의된 표준 또는 예시적 답변과 일치하는지 평가하는 데 도움이 됩니다.