데이터 아키텍처

fit-for-purpose 데이터 및 분석 아키텍처를 설계하고 발전시킵니다.

잘 설계된 데이터 및 분석 아키텍처는 실행 가능한 인사이트를 얻는 데 필수적입니다. 조직은 fit-for-purpose 데이터 및 분석 아키텍처를 설계하고 발전시켜 복잡성, 비용 및 기술적 부채를 줄이는 동시에 지속적으로 증가하는 데이터 볼륨에서 귀중한 인사이트를 얻을 수 있습니다. AWS CAF 원칙에 따라 기업은 기존 플랫폼과 원활하게 통합되는 데이터 아키텍처를 생성할 수 있습니다. 이 조정은 조직이 최신 데이터 처리 및 분석 기술이 제공하는 이점을 활용할 수 있도록 합니다.

데이터 및 분석 아키텍처는 데이터에서 가치를 도출할 수 있는 조직의 역량 청사진입니다. 이는 조직이 새로운 비즈니스 인사이트를 얻는 데 도움이 되며 비즈니스 성장의 촉진제입니다. 비즈니스 요구 사항을 지원하기 위해 최신 데이터 아키텍처는 단기 및 장기 비즈니스 목표에 부합해야 하며 조직의 문화적 및 맥락적 요구 사항에 고유해야 합니다. 오늘날의 세계에서 데이터 및 분석 아키텍처의 성공적인 구현과 채택은 올바른 소비자에게 적시에 올바른 데이터를 활성화하는 원칙을 기반으로 합니다.

이는 조직의 데이터 자산이 물리적 또는 논리적으로 모델링되는 방식, 데이터가 보호되는 방식, 이러한 데이터 모델이 서로 상호 작용하여 비즈니스 문제를 해결하고 알려지지 않은 패턴을 도출하고 인사이트를 생성하는 방식을 계획하고 구성함으로써 달성됩니다.

시작

중요한 기능 정의

현재 비즈니스 환경에서는 최신 데이터 분석 플랫폼이 데이터에서 가치를 도출하여 조직의 다양한 도메인을 지원하는 것이 중요합니다. 단일 데이터 아키텍처 접근 방식을 채택하는 대신 최신 데이터 아키텍처에는 특정 사용 사례에 맞게 특별히 빌드되고 최적화된 도구 세트와 패턴이 포함되어야 합니다. 아키텍처는 진화할 수 있어야 하며 확장 가능한 데이터 레이크, 특별히 구축된 분석 서비스, 통합 데이터 액세스 및 통합 거버넌스와 같은 기본 구성 요소를 포함해야 합니다.

데이터 영역 구성

빠르고 쉬운 액세스를 위해 데이터를 구성하고 저장하는 방법은 데이터 아키텍처의 중요한 측면입니다. 이는 데이터 레이크 내에 사용자 지정 데이터 영역을 설정하여 달성할 수 있습니다. 데이터 영역은 다음과 같이 분류됩니다.

이기종 소스에서 수집된 원시 데이터
각 도메인의 분석 요구 사항을 지원하기 위해 선별되고 변환된 데이터
보고 요구 사항에 대한 사용 사례 또는 제품 기반 데이터 마트
보안 및 규정 준수 제어를 통해 외부에 노출된 데이터

데이터의 민첩성 및 민주화 계획

분석 플랫폼의 효율성은 데이터 프로비저닝 속도뿐만 아니라 사용을 위해 프로비저닝된 데이터를 민주화하는 속도에 따라 달라집니다. 데이터 프로비저닝 민첩성은 데이터 아키텍처가 사용 사례를 기반으로 실시간, 거의 실시간, 배치, 마이크로 배치 또는 하이브리드와 같은 다양한 방식으로 데이터를 조달하고 처리할 수 있는 기능을 통해 달성됩니다. 데이터 민주화는 데이터 관리자가 모니터링하는 데이터 공유 및 액세스 제어 워크플로를 정의하여 달성됩니다. 데이터 마켓플레이스를 구현하는 것은 데이터를 민주화하는 조력자 중 하나입니다.

보안 데이터 전송 정의

최신 데이터 아키텍처는 보안 분야의 외부 세계에 대한 요지이지만 직무에서 정의한 대로 직원 또는 데이터 사용자에게 쉽게 액세스할 수 있도록 하고 HIPAA(Health Insurance Portability and Accountability Act), PII(개인 식별 정보), GDPR(General Data Protection Regulation) 등과 같은 규정 준수 제한을 준수합니다. 이는 역할 기반 액세스 제어(RBAC) 및 태그 기반 액세스 제어(TBAC) 메서드를 통해 이루어집니다. 에서 AWS태그는 데이터에 대한 액세스를 제어하여 액세스 제어 관리를 간소화하는 데 사용됩니다. AWS CAF 보안 관점에서 설명하는 원칙에 따라이 작업을 수행합니다.

비용 효율성 계획

기존 데이터 웨어하우스는 리소스 사용률이 높은 긴밀하게 결합된 컴퓨팅 및 스토리지를 제공합니다. 최신 아키텍처는 컴퓨팅과 스토리지를 분리하며 데이터 수명 주기를 기반으로 계층형 스토리지를 구현합니다. 예를 들어에서 Amazon Simple Storage Service(Amazon S3)를 사용하여 비용을 제어하고 컴퓨팅에서 데이터 스토리지를 분리 AWS할 수 있습니다. Amazon S3 스토리지 클래스는 다양한 액세스 패턴에 가장 저렴한 스토리지를 제공하도록 특별히 설계되었습니다. 또한 AWS 컴퓨팅 도구(예: Amazon Athena, AWS Glue, Amazon Redshift, Amazon SageMaker 런타임)는 서버리스 도구이므로 인프라를 관리할 필요가 없으며 사용한 만큼만 비용을 지불하면 됩니다.

고급

비즈니스 및 운영 기능을 지원하는 표준 분석부터 예측 및 인사이트를 지원하는 보다 복잡한 기능에 이르기까지 데이터 사용량의 폭을 늘리고 더 빠른 의사 결정을 지원하는 데 도움이 되도록 최신 데이터 아키텍처를 더욱 강화할 수 있습니다. 이를 위해 아키텍처는 다음 섹션에 설명된 기능을 지원합니다.

기능 엔지니어링 이해

특성 엔지니어링은 기계 학습을 사용하며 특성 저장소 또는 특성 마트를 설정합니다. 데이터 과학 팀은 지도 학습 모델과 비지도 학습 모델 모두에 대해 새로운 기능(파생 속성)을 생성하고 이를 특성 마트에 저장하여 변환을 간소화하고 데이터 정확도를 높입니다. 엔터프라이즈는 여러 분석 모델에서 기능을 재사용할 수 있으므로 출시 속도가 향상됩니다.

데이터세트를 비정규화할 계획

정규화되지 않은 데이터 세트 또는 데이터 마트를 구성하면 필요한 데이터를 단일 위치에서 쉽게 사용할 수 있게 하고 분석 속도를 높임으로써 비즈니스 사용자의 데이터 세트를 크게 간소화할 수 있습니다. 신중하게 설계하면 하나의 레코드가 여러 사용 모델을 지원하고 전체 개발 수명 주기를 줄일 수 있습니다. 정규화되지 않은 데이터 세트의 효과적인 거버넌스도 두 가지 이유로 중요합니다. 정규화되지 않은 데이터를 구현하면 많은 수의 중복 데이터 세트가 생성될 수 있으며, 이는 대규모로 관리하기 어려울 수 있습니다. 또한 이러한 데이터 세트가 올바르게 모델링되지 않으면 용도를 바꾸기가 점점 더 어려울 수 있습니다.

설계 이식성 및 확장성

대규모 조직은 단일 데이터 플랫폼에 모든 애플리케이션과 사용자를 보유하는 경우가 거의 없습니다. 애플리케이션과 데이터 스토어는 일반적으로 레거시 온프레미스 및 클라우드 플랫폼에 분산되므로 분석 팀이 데이터를 혼합하고 병합하기가 어렵습니다. 도메인, 지리적 위치, 비즈니스 사용 사례 등과 같은 특성을 기반으로 데이터를 컨테이너화하는 것이 좋습니다. 이 컨테이너화는 다양한 플랫폼과 애플리케이션 간의 이식성을 높이고 보다 효과적인 소비를 지원합니다. 데이터를 컨테이너로 분할하고 APIs 통해 노출하면 데이터 아키텍처를 더 쉽게 확장할 수 있습니다. 하이브리드 end-to-end 데이터 흐름을 지원하고 온프레미스 및 클라우드 기반 애플리케이션이 원활하게 작동하도록 지원합니다.

Excel

조직 내에서 최신 분석 아키텍처가 발전함에 따라 재사용 가능한 개념을 도입하여 이러한 변화를 관리하는 것이 중요합니다. 이러한 개념은 비용을 확인하면서 내구성과 채택률을 높입니다. 고려해야 할 몇 가지 개념은 다음 단원에서 설명합니다.

구성 가능한 프레임워크 설계

조직은 고유한 비즈니스 요구 사항을 해결하기 위해 복잡한 모델을 여러 개 생성하는 경우가 많습니다. 이러한 모델은 여러 데이터 파이프라인과 엔지니어링된 기능을 생성해야 합니다. 시간이 지남에 따라 상당한 중복성이 발생하고 운영 비용이 증가합니다. 파라미터 기반 구성 가능한 기본 모델 세트를 통합하는 프레임워크를 생성하면 개발 시간과 운영 비용이 절감됩니다. 분석 엔진은 이러한 구성 가능한 모델을 구현하여 원하는 출력을 제공할 수 있습니다.

통합 분석 엔진 구축 계획

비즈니스 문제는 고유하며 요구 사항을 해결하기 위해 사용자 지정 기술이 필요한 경우가 많기 때문에 조직에 여러 분석 엔진이 있습니다. 여러 프로그래밍 패러다임을 지원할 수 있는 통합 AI 기반 분석 엔진 인터페이스를 설계하고 개발하면 사용량이 간소화되고 비용이 절감됩니다.

DataOps 정의

대부분의 데이터 전문가는 올바른 데이터 찾기, 변환, 모델링 등과 같은 데이터 작업을 수행하는 데 상당한 시간을 소비합니다. 애자일 데이터 운영(DataOps)을 사용하면 데이터 엔지니어, 데이터 과학자, 데이터 소유자 및 분석가의 사일로를 허물어 데이터 아키텍처를 크게 개선할 수 있습니다. DataOps를 사용하면 팀 간의 통신을 개선하고, 주기 시간을 단축하고, 높은 데이터 품질을 보장할 수 있습니다. 데이터 및 분석 아키텍처는 변화하는 비즈니스 요구 사항과 기술 발전으로 인해 시간이 지남에 따라 수많은 혁신을 거쳤습니다. 조직은 시간이 지남에 따라 진화하고 비즈니스를 지원하는 데이터 및 분석 아키텍처를 개발, 구현 및 유지 관리하기 위해 노력해야 합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

플랫폼 엔지니어링

데이터 엔지니어링