의료 및 생명과학 애플리케이션을 위한 LLMs 평가 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

의료 및 생명과학 애플리케이션을 위한 LLMs 평가

이 섹션에서는 의료 및 생명과학 사용 사례에서 대규모 언어 모델(LLMs)을 평가하기 위한 요구 사항 및 고려 사항에 대한 포괄적인 개요를 제공합니다.

편향을 완화하고 LLM 생성 응답의 정확성을 검증하려면 실측 데이터와 SME 피드백을 사용하는 것이 중요합니다. 이 섹션에서는 훈련 및 테스트 데이터를 수집하고 큐레이션하는 모범 사례를 설명합니다. 또한 가드레일을 구현하고 데이터 편향과 공정성을 측정하는 데 도움이 됩니다. 또한 텍스트 분류, 명명된 엔터티 인식, 텍스트 생성과 같은 일반적인 의료 자연어 처리(NLP) 작업과 관련 평가 지표에 대해서도 설명합니다.

또한 훈련 실험 단계 및 프로덕션 후 단계에서 LLM 평가를 수행하기 위한 워크플로를 제공합니다. 모델 모니터링 및 LLM 작업은이 평가 프로세스의 중요한 요소입니다.

의료 NLP 작업을 위한 훈련 및 테스트 데이터

Medical NLP 태스크는 일반적으로 Medical corpora(예: PubMed) 또는 환자 정보(예: 병원 환자 방문 노트)를 사용하여 인사이트를 분류, 요약 및 생성합니다. 의사, 의료 관리자 또는 기술자와 같은 의료진은 전문 지식과 관점이 다양합니다. 이러한 의료진 간의 주관성으로 인해 훈련 및 테스트 데이터 세트가 작을수록 편향의 위험이 있습니다. 이러한 위험을 완화하려면 다음 모범 사례를 따르는 것이 좋습니다.

  • 사전 훈련된 LLM 솔루션을 사용하는 경우 적절한 양의 테스트 데이터가 있는지 확인합니다. 테스트 데이터는 실제 의료 데이터와 정확히 일치하거나 비슷해야 합니다. 작업에 따라 레코드의 범위는 20~100개입니다.

  • LLM을 미세 조정할 때 대상 의료 도메인의 다양한 SMEs에서 충분한 수의 레이블이 지정된(실측 정보) 레코드를 수집합니다. 일반적인 시작점은 100개 이상의 고품질 레코드이며 각 SME에서 20개 이하의 레코드를 사용하는 것이 좋습니다. 그러나 작업의 복잡성과 정확도 수락 기준을 고려할 때 더 많은 레코드가 필요할 수 있습니다.

  • 의료 사용 사례에 필요한 경우 가드레일을 구현하고 데이터 편향과 공정성을 측정합니다. 예를 들어 LLM이 환자의 인종 프로필로 인한 오진을 방지하는지 확인합니다. 자세한 내용은이 가이드의 보안 및 가드레일 섹션을 참조하세요.

Anthropic과 같은 많은 AI 연구 개발 회사는 이미 파운데이션 모델에 가드레일을 구현하여 유해성을 방지했습니다. 유해성 감지를 사용하여 입력 프롬프트와 LLMs. 자세한 내용은 Amazon Comprehend 설명서의 유해성 감지를 참조하세요.

생성형 AI 작업에는 환각 위험이 있습니다. 분류와 같은 NLP 작업을 수행하여이 위험을 완화할 수 있습니다. 텍스트 유사성 지표와 같은 고급 기술을 사용할 수도 있습니다.BertScore는 일반적으로 채택되는 텍스트 유사성 지표입니다. 환각을 완화하는 데 사용할 수 있는 기법에 대한 자세한 내용은 대규모 언어 모델의 환각 완화 기법에 대한 포괄적인 설문 조사를 참조하세요.

의료 NLP 작업에 대한 지표

훈련 및 테스트를 위해 실측 데이터 및 SME 제공 레이블을 설정한 후 정량화 가능한 지표를 생성할 수 있습니다. 스트레스 테스트 및 LLM 결과 검토와 같은 정성적 프로세스를 통해 품질을 확인하는 것은 빠른 개발에 유용합니다. 그러나 지표는 향후 LLM 운영을 지원하는 정량적 벤치마크 역할을 하며 각 프로덕션 릴리스의 성능 벤치마크 역할을 합니다.

의료 작업을 이해하는 것이 중요합니다. 지표는 일반적으로 다음 일반 NLP 작업 중 하나에 매핑됩니다.