최신 상태 데이터 전략의 구현 예제 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

최신 상태 데이터 전략의 구현 예제

AWS 는 의료 조직이 데이터에 대한 애자일 접근 방식을 지원하는 데이터 플랫폼을 이해하고 구축하는 데 사용할 수 있는 참조 아키텍처를 제공합니다. 다음 참조 아키텍처는 의료용 데이터 메시 아키텍처를 보여줍니다. 이 아키텍처에서 데이터 관리 책임은 비즈니스 기능 또는 기술 도메인을 중심으로 구성됩니다. 사용자는 조직 경계를 넘어 대규모로 데이터를 검색, 공유 및 검색할 수 있습니다. 도메인 팀은 비즈니스 기능과 관련되거나 비즈니스 기능에 의해 생성된 데이터를 수집, 변환 및 제공할 책임이 있습니다.

다이어그램 다음에 설명이 있는 아키텍처 다이어그램입니다.

아키텍처 다이어그램에는 다음 구성 요소가 포함되어 있습니다.

  1. 데이터는 외부 및 내부 데이터 소스에서 수집됩니다. 이러한 소스에는 EHR(Electronic Health Record) 시스템, 랩, 시퀀싱 시설 및 이미징 센터가 포함되지만 이에 국한되지 않습니다. AWS 는 AWS Data Exchange, Amazon Kinesis, , AWS Transfer Family, AWS DataSync, AWS Migration HubAWS HealthLake, AWS Glue (ETL)과 같은 서비스 제품군을 제공합니다. 이러한 서비스를 사용하여 내부 데이터 세트를 마이그레이션하고 내부 및 외부 데이터 세트를 모두 구독할 수 있습니다.

  2. 데이터 도메인 1은 임상, omics 및 imaging 데이터를 포함한 멀티모달 환자 지향 데이터를 처리하기 위한 포괄적인 워크플로로 구성됩니다. EHR 임상 데이터는 임상 데이터를 위해 특별히 구축된 관리형 서비스인 HealthLake 데이터 스토어에 수집 및 저장됩니다. AWS HealthOmics는 오믹스 데이터를 위해 특별히 구축된 서비스이며 시퀀스 및 변형 스토어와 워크플로를 처리합니다. 이미징 데이터는 수집되어에 저장됩니다AWS HealthImaging. 그런 다음이 데이터는 사용 가능한 제품으로 변환되고 광범위한 접근성과 사용을 위해 엔터프라이즈 데이터 마켓플레이스에 게시됩니다.

  3. 데이터 도메인 2에서 Amazon Kinesis AWS Glue는 AWS Data Exchange 원시 데이터를 데이터 파이프라인으로 수집합니다. 데이터 소스에는 퍼블릭 레지스트리, 원격 환자 모니터링 및 Enterprise Resource Planning(ERP) 프로그램이 포함될 수 있습니다. 파이프라인은 원시 데이터를 Amazon Simple Storage Service(Amazon S3) 버킷에 로드합니다. 이 데이터는 데이터 제품으로 게시하기 위해 정리, 큐레이션, 변환 및 저장됩니다. Amazon Athena는 데이터 생산자가 SQL을 사용하여 데이터를 변환하는 데 사용할 수 있는 대화형 쿼리 엔진을 제공합니다. AWS Glue DataBrew는 시각적 데이터 변환, 정규화 및 프로파일링 기능을 제공합니다.

  4. Amazon DataZone은 메타데이터, 협업 데이터 프로젝트 및 데이터 제품 라이브러리를 중앙 비즈니스 카탈로그에 게시하는 작업을 처리합니다.

  5. 통합 데이터 분석 포털을 사용하면 페더레이션 거버넌스를 통해 데이터 제품에 대한 보기를 제공하여 데이터를 중심으로 협업할 수 있습니다. Amazon DataZone은 사용자가 공유 AWS Lake Formation, 검색, 데이터 검색 및 사용 권한 요청을 할 수 있도록 AWS Glue Data Catalog 에서 지원하는 셀프 서비스 워크플로를 활성화합니다.

  6. 데이터 소비자는 데이터에 액세스하고, 다운스트림 뷰를 생성하고, Amazon Athena, Amazon Amazon QuickSight Redshift, Amazon SageMaker AI, Amazon Bedrock과 같은 특별히 구축된 도구를 사용하여 다음을 수행할 수 있습니다.

    • 운영 분석

    • 임상 정보학

    • 연구

    • 환자 및 임상 참여

    또한 데이터 소비자는 생성형 AI를 사용하여 혁신적인 애플리케이션을 개발할 수 있으며 데이터 제품을 비즈니스 카탈로그에 게시할 수 있습니다.

데이터 메시 아키텍처에 대한 자세한 내용은 Data Mesh란 무엇입니까?를 참조하세요.

생성형 AI

의료 기관은 의료 이미지 해석 자동화부터 이미지 및 텍스트 데이터를 기반으로 진단 권장 사항 및 치료 계획 생성에 이르기까지 다양한 애플리케이션에 생성형 AI를 사용하고 있습니다. 생성형 AI의 채택은 혁신을 가속화하고 의료 연속성 전반에 걸쳐 효율성을 높이고 있습니다. 생성형 AI에 대한 새로운 포커스로 인해 의료 부문은 더 많은 형태의 비정형 데이터를 포함하도록 데이터 포커스를 확장하여 AI에 적용할 수 있는 사용 사례의 수와 다양성을 확장했습니다. 일반적으로 조직이 생성형 AI 솔루션을 구현하기 위해 사용 사례에 따라 선택할 수 있는 네 가지 패턴이 있습니다.

  • 프롬프트 엔지니어링 - 프롬프트 엔지니어링에서 사용자는 관련 데이터를 컨텍스트로 제공하여 생성형 AI 모델이 원하는 콘텐츠를 생성하도록 안내합니다. 최신 상태 데이터 전략을 사용하는 조직은 관련 데이터를 쉽게 검색, 공유 및 사용할 수 있도록 할 수 있습니다.

  • 검색 증강 생성(RAG) - RAG 패턴은 프롬프트 엔지니어링을 기반으로 합니다. 프로그램은 사용자가 관련 데이터를 제공하는 대신 사용자의 질문이나 입력을 가로챌 수 있습니다. 프로그램은 데이터 리포지토리를 검색하여 질문 또는 입력과 관련된 콘텐츠를 검색합니다. 프로그램은 찾은 데이터를 생성형 AI 모델에 공급하여 콘텐츠를 생성합니다. 최신 의료 데이터 전략을 사용하면 엔터프라이즈 데이터를 큐레이션하고 인덱싱할 수 있습니다. 그런 다음 데이터를 검색하여 프롬프트 또는 질문의 컨텍스트로 사용하여 대규모 언어 모델(LLM)이 응답을 생성하는 데 도움이 될 수 있습니다.

조직은 다음 두 가지 패턴을 사용하여 생성형 AI 모델 출력을 데이터의 컨텍스트에 적합한 콘텐츠 생성에 집중할 수 있습니다.

  • 미세 조정 -이 패턴을 사용하면 조직이 생성형 AI 모델을 사용자 지정하여 한 단계 더 나아가는 데 도움이 될 수 있습니다. 여기에는 조직과 관련된 작은 데이터 샘플에서 모델을 미세 조정하는 작업이 포함됩니다. 샘플 크기가 작기 때문에이 패턴은 비용과 사용자 지정의 균형을 제공합니다. 모델 출력의 편향을 방지하려면 조직의 데이터 패턴을 최대한 다양하고 대표하는 작은 샘플 데이터 세트를 사용하세요. 최신 상태 데이터 전략은 샘플 데이터 세트를 준비하기 위해 다양한 데이터에 효율적으로 액세스할 수 있도록 지원합니다.

  • 자체 모델 구축 - 조직에서 고도로 전문화된 대량의 데이터에서 콘텐츠를 생성해야 하는데 이전 세 가지 패턴이 적합하지 않은 경우 자체 모델을 구축할 수 있습니다.

최신 데이터 전략은 데이터가 다음과 같은 특성을 갖도록 하여 생성형 AI 솔루션에서 중요한 역할을 합니다.

  • 정확도를 지원하는 고품질 데이터

  • 모델 출력이 관련성이 있는지 확인하는 데 도움이 되는 실시간 또는 실시간에 가까운 데이터

  • 다양한 데이터 소스에 걸친 여러 데이터 양식으로 모델이 콘텐츠를 생성하기 위해 강화된 데이터 세트에 액세스할 수 있도록 제공

다음 다이어그램은 데이터 메시 아키텍처를 사용하여 생성형 AI 솔루션을 지원하는 최신 상태 데이터 전략의 구현을 보여줍니다.

다이어그램 다음에 설명이 있는 프로세스 다이어그램.
  1. 데이터는 임상 정보학, 임상 연구 및 수익 관리 도메인의 다양한 데이터 소스에서 수집되며 의료 조직에서 사용할 수 있습니다.

  2. 페더레이션 데이터 거버넌스는 데이터 공유 및 통합 액세스를 위한 엄격한 액세스 제어를 보장하는 데 도움이 됩니다.

  3. 데이터 소비자에는 다음이 포함됩니다.

    • 생성형 AI 애플리케이션, 특히 데이터를 사용하여 LLMs을 훈련하고 미세 조정하는 애플리케이션. 이러한 애플리케이션은 Q&A 챗봇에 엔터프라이즈 데이터를 사용하여 운영 효율성과 환자 및 공급자 경험을 개선합니다.

    • EHR 통합 챗봇, 생산성 대시보드, 설명서 지원과 같은 도구가 탑재된 임상 애플리케이션.

    • 환자 경험을 개선하기 위한 환자 중심 애플리케이션. 이러한 애플리케이션은 챗봇 상호 작용, 임상 보고서, 효율적인 추천 및 예약 프로세스를 특징으로 합니다.

    • 코호트 분석 및 규제 보고를 위해 설계된 연구 프로젝트 리포지토리 및 애플리케이션을 사용한 임상 연구.

이 아키텍처를 사용하면 조직의 이해관계자가 다른 소스에서 수집한 데이터를 큐레이팅하고 관리하는 동시에 조직의 나머지 부분에서 자신의 데이터에 액세스할 수 있도록 하는 데 집중할 수 있습니다. 페더레이션 데이터 거버넌스 계층에서 사용할 수 있는 도구를 사용하여 메타데이터를 정의하고, 액세스 승인 워크플로를 관리하고, 정책을 정의 및 적용할 수 있습니다. 또한 페더레이션 데이터 거버넌스 계층은 중앙 집중식 액세스 제어를 제공합니다. 이렇게 하면 다양한 데이터 소스를 큐레이팅하고 지정된 빈도로 고품질 데이터 자산을 새로 고쳐 관련성을 유지할 수 있는 환경이 생성됩니다.는 생성형 AI 요구 사항을 해결할 수 있는 포괄적인 기능 세트를 AWS 제공합니다. Amazon Bedrock은 조직이 생성형 AI 기반 애플리케이션을 구축하고 확장할 수 있는 기본 방법입니다. AWS TrainiumAWS Inferentia 칩은 클라우드에서 모델을 훈련하고 추론을 실행하는 데 가장 저렴한 비용을 제공합니다. 자세한 내용은 의 생성형 AI를 참조하세요 AWS.