의료 및 생명과학 사용 사례에 대규모 언어 모델 사용

여기에서는 의료 및 생명과학 애플리케이션에 대규모 언어 모델(LLMs)을 사용하는 방법을 설명합니다. 일부 사용 사례에서는 생성형 AI 기능을 위해 대규모 언어 모델을 사용해야 합니다. state-of-the-art LLMs에도 장점과 제한 사항이 있으며,이 섹션의 권장 사항은 목표 결과를 달성하는 데 도움이 되도록 설계되었습니다.

결정 경로를 사용하여 도메인 지식 및 사용 가능한 훈련 데이터와 같은 요소를 고려하여 사용 사례에 적합한 LLM 솔루션을 결정할 수 있습니다. 또한이 섹션에서는 널리 사용되는 사전 훈련된 의료 LLMs과 선택 및 사용에 대한 모범 사례를 설명합니다. 또한 복잡한 고성능 솔루션과 더 간단하고 저렴한 접근 방식 간의 장단점에 대해서도 설명합니다.

LLM 사용 사례

Amazon Comprehend Medical은 특정 NLP 작업을 수행할 수 있습니다. 자세한 내용은 Amazon Comprehend Medical 사용 사례 단원을 참조하십시오.

LLM의 논리적 및 생성형 AI 기능은 다음과 같은 고급 의료 및 생명과학 사용 사례에 필요할 수 있습니다.

사용자 지정 의료 엔터티 또는 텍스트 범주 분류
임상 질문에 답변
의료 보고서 요약
의료 정보에서 인사이트 생성 및 탐지

사용자 지정 접근 방식

LLMs 구현되는 방식을 이해하는 것이 중요합니다. LLMs은 일반적으로 여러 도메인의 훈련 데이터를 포함하여 수십억 개의 파라미터로 훈련됩니다. 이 훈련을 통해 LLM은 대부분의 일반화된 작업을 처리할 수 있습니다. 그러나 도메인별 지식이 필요한 경우 문제가 발생하는 경우가 많습니다. 의료 및 생명과학에 대한 도메인 지식의 예로는 정확한 답변을 생성하는 데 필요한 진료소 코드, 의료 용어 및 건강 정보가 있습니다. 따라서 이러한 사용 사례에 대해 LLM을 있는 그대로 사용하면(도메인 지식을 보완하지 않고 제로샷 프롬프트) 부정확한 결과가 나올 수 있습니다. 이 문제를 극복하는 데 사용할 수 있는 두 가지 접근 방식은 검색 증강 생성과 미세 조정입니다.

검색 증강 생성

Retrieval Augmented Generation(RAG)은 응답을 생성하기 전에 LLM이 훈련 데이터 소스 외부에 있는 신뢰할 수 있는 데이터 소스를 참조하는 생성형 AI 기술입니다. RAG 시스템은 지식 소스에서 의료 온톨로지 정보(예: 질병 국제 분류, 국가 약물 파일, 의료 주제 제목)를 검색할 수 있습니다. 이를 통해 LLM에 추가 컨텍스트를 제공하여 의료 NLP 작업을 지원합니다.

Amazon Comprehend Medical과 대규모 언어 모델 결합 단원에서 설명한 대로 RAG 접근 방식을 사용하여 Amazon Comprehend Medical에서 컨텍스트를 검색할 수 있습니다. 다른 일반적인 지식 소스에는 Amazon OpenSearch Service, Amazon Kendra 또는 Amazon Aurora와 같은 데이터베이스 서비스에 저장된 의료 도메인 데이터가 포함됩니다. 이러한 지식 소스에서 정보를 추출하면 검색 성능, 특히 벡터 데이터베이스를 사용하는 의미 체계 쿼리에 영향을 미칠 수 있습니다.

도메인별 지식을 저장하고 검색하는 또 다른 옵션은 RAG 워크플로에서 Amazon Q Business를 사용하는 것입니다. Amazon Q Business는 내부 문서 리포지토리 또는 공개 웹 사이트(예: ICD-10 데이터의 경우 CMS.gov)를 인덱싱할 수 있습니다. 그런 다음 Amazon Q Business는 쿼리를 LLM에 전달하기 전에 이러한 소스에서 관련 정보를 추출할 수 있습니다.

사용자 지정 RAG 워크플로를 구축하는 방법에는 여러 가지가 있습니다. 예를 들어 지식 소스에서 데이터를 검색하는 방법에는 여러 가지가 있습니다. 간소화를 위해 Amazon OpenSearch Service와 같은 벡터 데이터베이스를 사용하여 지식을 임베딩으로 저장하는 일반적인 검색 접근 방식을 사용하는 것이 좋습니다. 이를 위해서는 문장 변환기와 같은 임베딩 모델을 사용하여 쿼리 및 벡터 데이터베이스에 저장된 지식에 대한 임베딩을 생성해야 합니다.

완전 관리형 및 사용자 지정 RAG 접근 방식에 대한 자세한 내용은 의 증강 생성 옵션 및 아키텍처 검색을 참조하세요 AWS.

미세 조정

기존 모델을 미세 조정하려면 Amazon Titan, Mistral 또는 Llama 모델과 같은 LLM을 가져온 다음 모델을 사용자 지정 데이터에 맞게 조정해야 합니다. 미세 조정에는 다양한 기법이 있으며, 대부분 모델의 모든 파라미터를 수정하는 대신 몇 개의 파라미터만 수정하는 것이 포함됩니다. 이를 파라미터 효율적인 미세 조정(PEFT)이라고 합니다. 자세한 내용은 GitHub의 Hugging Face PEFT를 참조하세요.

다음은 의료 NLP 작업에 대해 LLM을 미세 조정하도록 선택할 수 있는 두 가지 일반적인 사용 사례입니다.

생성 작업 - 디코더 기반 모델은 생성 AI 작업을 수행합니다. AI/ML 실무자는 실측 데이터를 사용하여 기존 LLM을 미세 조정합니다. 예를 들어 퍼블릭 의료 질문 응답 데이터 세트인 MedQuAD를 사용하여 LLM을 훈련할 수 있습니다. 미세 조정된 LLM에 쿼리를 호출할 때 LLM에 추가 컨텍스트를 제공하는 RAG 접근 방식이 필요하지 않습니다.
임베딩 - 인코더 기반 모델은 텍스트를 숫자 벡터로 변환하여 임베딩을 생성합니다. 이러한 인코더 기반 모델을 일반적으로 임베딩 모델이라고 합니다. 문장 변환 모델은 문장에 최적화된 특정 유형의 임베딩 모델입니다. 목표는 입력 텍스트에서 임베딩을 생성하는 것입니다. 그런 다음 임베딩은 의미 분석 또는 검색 작업에 사용됩니다. 임베딩 모델을 미세 조정하려면 훈련 데이터로 사용할 수 있는 문서와 같은 의료 지식이 있어야 합니다. 이는 문장 변환기 모델을 미세 조정하기 위해 유사성 또는 감정을 기반으로 한 텍스트 쌍으로 수행됩니다. 자세한 내용은 Hugging Face의 문장 변환기 v3를 사용하여 임베딩 모델 훈련 및 미세 조정을 참조하세요.

Amazon SageMaker Ground Truth를 사용하여 레이블이 지정된 고품질 훈련 데이터 세트를 구축할 수 있습니다. Ground Truth의 레이블이 지정된 데이터세트 결과를 사용하여 자체 모델을 훈련할 수 있습니다. 출력을 Amazon SageMaker AI 모델의 훈련 데이터 세트로 사용할 수도 있습니다. 명명된 엔터티 인식, 단일 레이블 텍스트 분류 및 다중 레이블 텍스트 분류에 대한 자세한 내용은 Amazon SageMaker AI 설명서의 Ground Truth를 사용한 텍스트 레이블 지정을 참조하세요.

LLM 선택

Amazon Bedrock은 고성능 LLMs. 자세한 내용은 Amazon Bedrock에서 지원되는 파운데이션 모델을 참조하세요. Amazon Bedrock에서 모델 평가 작업을 사용하여 여러 출력의 출력을 비교한 다음 사용 사례에 가장 적합한 모델을 선택할 수 있습니다. 자세한 내용은 Amazon Bedrock 설명서의 Amazon Bedrock 평가를 사용하여 최상의 성능 모델 선택을 참조하세요.

일부 LLMs이 제한적입니다. 사용 사례에서 Amazon Bedrock이 지원하지 않는 LLM 또는 LLM을 미세 조정해야 하는 경우 Amazon SageMaker AI를 사용하는 것이 좋습니다. SageMaker AI에서는 미세 조정된 LLM을 사용하거나 의료 도메인 데이터에 대해 훈련된 사용자 지정 LLM을 선택할 수 있습니다.

다음 표에는 의료 도메인 데이터에 대해 훈련된 널리 사용되는 LLMs 나열되어 있습니다.

LLM	업무	지식	아키텍처
BioBERT	정보 검색, 텍스트 분류 및 명명된 엔터티 인식	PubMed의 요약, PubMedCentral의 전체 텍스트 문서 및 일반 도메인 지식	인코더
ClinicalBERT	정보 검색, 텍스트 분류 및 명명된 엔터티 인식	전자 건강 기록(EHR) 시스템의 3,000,000개 이상의 환자 기록과 함께 대규모 다중 센터 데이터 세트	인코더
ClinicalGPT	요약, 질문 응답 및 텍스트 생성	의료 기록, 도메인별 지식, 다원 대화 상담을 포함한 광범위하고 다양한 의료 데이터 세트	데코더
GatorTron-OG	요약, 질문-응답, 텍스트 생성 및 정보 검색	임상 기록 및 생체의학 문헌	인코더
메드-버트	정보 검색, 텍스트 분류 및 명명된 엔터티 인식	의료 텍스트, 임상 기록, 연구 논문 및 의료 관련 문서의 대규모 데이터 세트	인코더
메드-PaLM	의료 목적의 질문-응답	의료 및 생체의학 텍스트의 데이터 세트	데코더
medAlpaca	질문-응답 및 의료 대화 작업	의료 플래시카드, 위키 및 대화 데이터 세트와 같은 리소스를 포함하는 다양한 의료 텍스트	데코더
BiomedBERT	정보 검색, 텍스트 분류 및 명명된 엔터티 인식	PubMedCentral의 PubMedCentral 및 전체 텍스트 문서의 독점 추상화	인코더
BioMedLM	요약, 질문 응답 및 텍스트 생성	PubMed 지식 소스의 생체의학 문헌	데코더

다음은 사전 훈련된 의료 LLMs.

훈련 데이터와 의료 NLP 작업과의 관련성을 이해합니다.
LLM 아키텍처와 그 목적을 식별합니다. 인코더는 임베딩 및 NLP 작업에 적합합니다. 디코더는 생성 작업을 위한 것입니다.
사전 훈련된 의료 LLM을 호스팅하기 위한 인프라, 성능 및 비용 요구 사항을 평가합니다.
미세 조정이 필요한 경우 훈련 데이터에 대한 정확한 실측 정보 또는 지식을 확인하십시오. 개인 식별 정보(PII) 또는 보호 대상 건강 정보(PHI)를 마스킹하거나 수정해야 합니다.

실제 의료 NLP 작업은 지식 또는 의도된 사용 사례 측면에서 사전 훈련된 LLMs 다를 수 있습니다. 도메인별 LLM이 평가 벤치마크를 충족하지 않는 경우 자체 데이터 세트로 LLM을 미세 조정하거나 새 파운데이션 모델을 훈련할 수 있습니다. 새로운 파운데이션 모델을 훈련하는 것은 야심 차고 비용이 많이 드는 작업입니다. 대부분의 사용 사례에서는 기존 모델을 미세 조정하는 것이 좋습니다.

사전 훈련된 의료 LLM을 사용하거나 미세 조정할 때는 인프라, 보안 및 가드레일을 해결하는 것이 중요합니다.

인프라

온디맨드 또는 배치 추론에 Amazon Bedrock을 사용하는 것과 비교하여 사전 훈련된 의료 LLMs(일반적으로 Hugging Face에서)을 호스팅하려면 상당한 리소스가 필요합니다. 사전 훈련된 의료 LLMs 호스팅하려면 가속 컴퓨팅을 위한 ml.g5 인스턴스 또는 용 ml.inf2 인스턴스와 같은 하나 이상의 GPU가 있는 Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스에서 실행되는 Amazon SageMaker AI 이미지를 사용하는 것이 일반적입니다 AWS Inferentia. GPUs 이는 LLMs 많은 양의 메모리와 디스크 공간을 소비하기 때문입니다.

보안 및 가드레일

비즈니스 규정 준수 요구 사항에 따라 Amazon Comprehend 및 Amazon Comprehend Medical을 사용하여 훈련 데이터에서 개인 식별 정보(PII) 및 보호 대상 건강 정보(PHI)를 마스킹하거나 수정하는 것이 좋습니다. 이렇게 하면 응답을 생성할 때 LLM이 기밀 데이터를 사용하는 것을 방지할 수 있습니다.

생성형 AI 애플리케이션에서 편향, 공정성 및 할루시네이션을 고려하고 평가하는 것이 좋습니다. 기존 LLM을 사용하든 미세 조정하든 간에 가드레일을 구현하여 유해한 응답을 방지합니다. 가드레일은 생성형 AI 애플리케이션 요구 사항 및 책임 있는 AI 정책에 맞게 사용자 지정하는 보호 장치입니다. 예를 들어 Amazon Bedrock Guardrails를 사용할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Amazon Comprehend Medical과 LLMs

접근 방식 선택