에서 성장 및 확장을 위한 데이터 레이크 설계 AWS 클라우드 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

에서 성장 및 확장을 위한 데이터 레이크 설계 AWS 클라우드

Wei Shao, Amazon Web Services(AWS)

2021년 10월(문서 기록)

조직은 데이터 현대화 전략의 일환으로 Amazon Web Services(AWS) 클라우드에서 데이터 레이크를 점점 더 설계하고 구축하고 있습니다. 데이터 레이크는 모든 규모에서 정형 및 비정형 데이터를 저장하고 광범위한 내부 및 외부 사용자가 사용할 수 있도록 하는 리포지토리일 수 있습니다.

그러나 증가하는 비즈니스 사용 사례에 도움이 되는 데이터 레이크로 데이터를 수집하는 데 상당한 시간과 노력이 필요할 수 있습니다. 비용을 절감하고 데이터에서 생성되는 가치를 극대화하기 위해 많은 조직에서는 데이터를 데이터 레이크에 한 번 수집한 다음이 데이터를 여러 번 사용할 계획입니다. 데이터 레이크가 성장할 때 비즈니스 이해관계자에게 가치를 제공하려면 데이터 생성, 공유 및 소비에 따라 확장되는 데이터 레이크 아키텍처를 설계하는 것이 중요합니다.

확장 가능한 데이터 레이크 아키텍처는 더 많은 데이터를 가져오면서 데이터 레이크에서 가치를 얻을 수 있는 견고한 기반을 조직에 제공합니다. 확장성 제약으로 인해 속도 저하 또는 중단 없이 데이터 인사이트를 지속적으로 확보하면 확장 가능한 데이터 레이크도 조직의 경쟁력을 유지하는 데 도움이 됩니다.

일반적으로 데이터 레이크에는 데이터 생산자와 데이터 소비자가 있습니다. 데이터 생산자는 데이터 도메인에서 데이터를 수집, 처리 및 저장하여 데이터 자산을 생성합니다. 이러한 집합 데이터 자산은 데이터 레이크의 콘텐츠를 형성합니다. 데이터 생산자는 데이터 자산을 데이터 레이크의 데이터 소비자와 선택적으로 공유하도록 선택할 수 있습니다.

데이터 소비자는 비즈니스 사용 사례를 이행하기 위해 데이터 생산자의 데이터가 필요하며이 데이터를 자체 데이터와 결합할 수도 있습니다. 데이터 생산자와 데이터 소비자는 일반적으로 조직의 일부이지만 항상 그런 것은 아닙니다. 중요한 것은 둘 다 동시에 데이터 생산자 또는 데이터 소비자일 수 있다는 것입니다.

확장 가능한 데이터 레이크 아키텍처는 다음과 같은 결과를 달성하는 데 도움이 됩니다.

  • 전체 데이터 공유 프로세스를 유지할 필요 없이 대규모로 데이터 생산자를 온보딩합니다. 이를 통해 데이터 생산자는 데이터를 데이터 레이크에 온보딩하고 데이터 도메인에서 데이터를 수집, 처리 및 저장하는 데 집중할 수 있습니다.

  • 데이터 소비자는 전체 비용 및 관리 오버헤드를 늘리지 않고 여러 데이터 생산자의 데이터에 액세스할 수 있습니다.

이 가이드에서는 조직이 데이터 레이크를 성장시키고, 데이터 레이크 참조 아키텍처를 제공하고, 데이터 생산자 및 데이터 소비자에게 온보딩하고 액세스 권한을 부여하는 접근 방식을 간략하게 설명할 때 발생할 수 있는 일반적인 규모 조정 문제를 설명합니다. 이 설명서의 데이터 레이크 참조 아키텍처는에서 제공하는 다양한 기능을 활용합니다AWS Lake Formation. 이 가이드는 엔터프라이즈 데이터 아키텍트 AWS 클라우드, 데이터 플랫폼 아키텍트, 디자이너 또는 데이터 도메인 리드를 포함하여에서 데이터 레이크를 설계하는 팀을 대상으로 합니다.

목표 비즈니스 성과

에서 성장하고 확장할 수 있도록 데이터 레이크를 설계한 후 다음 세 가지 결과를 기대해야 합니다. AWS 클라우드

  • 조직의 여러 비즈니스 라인에서 데이터 공유 및 데이터 소비 오버헤드를 줄입니다.

  • 조직이 외부 데이터 생산자를 포함하고 데이터 레이크에서 데이터를 공유하는 데 도움이 되는 안전하고 일관된 접근 방식입니다.

  • 확장성 제약으로 인해 속도 저하나 중단 없이 데이터 인사이트를 지속적으로 얻을 수 있습니다.