设计一个数据湖以促进增长和扩展AWS Cloud - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

设计一个数据湖以促进增长和扩展AWS Cloud

Wei Shao,Amazon Web Services (AWS)

2021 年 10 月文档历史记录

作为其数据现代化战略的一部分,各Organizations 越来越多地在 Amazon Web Services (AWS) 云上设计和构建数据湖。数据湖可以是存储任何规模的结构化和非结构化数据的存储库,可供广泛的内部和外部用户使用。

但是,将数据提取到数据湖中可能需要花费大量时间和精力,这些数据湖可以满足您不断增长的业务用例。为了帮助降低成本并最大限度地提高数据产生的价值,许多组织计划将数据一次性摄取到其数据湖中,然后多次使用这些数据。设计可随数据生产、共享和消费而扩展的数据湖架构对于在数据湖发展时为业务利益相关者创造价值至关重要。

可扩展的数据湖架构为您的组织提供了坚实的基础,可以从数据湖中获得价值,同时将更多数据带入其中。通过持续获取数据见解,而不会因可扩展性限制而放慢速度或中断,可扩展的数据湖还可以帮助您的组织保持竞争力。

通常,数据湖有数据生成器和数据使用者。数据生产者通过收集、处理和存储其数据域中的数据来创建数据资产。这些集体数据资产构成了您的数据湖的内容。数据生产者可以选择有选择地与数据湖的数据使用者共享其数据资产。

数据使用者需要来自数据生产者的数据来满足其业务用例,偶尔也可以将这些数据与自己的数据结合起来。数据生产者和数据使用者通常是组织的一部分,但并非总是如此。重要的是,他们可以同时成为数据生产者或数据使用者。

可扩展的数据湖架构可帮助您实现以下成果:

  • 大规模引入数据生产者,无需他们维护整个数据共享过程。这有助于数据生产者将其数据加载到数据湖中,并专注于从其数据域收集、处理和存储数据。

  • 使数据使用者能够访问来自多个数据生产者的数据,而不会增加总体成本和管理开销。

本指南描述了组织发展数据湖时可能出现的常见扩展挑战,提供了数据湖参考架构,并概述了引入和授予数据生产者和数据使用者访问权限的方法。本指南中的数据湖参考架构利用了提供的不同特性和功能AWS Lake Formation。该指南适用于负责设计数据湖的团队,包括企业数据架构师AWS Cloud、数据平台架构师、设计师或数据域负责人。

有针对性的业务成果

在设计了用于增长和扩展的数据湖之后,您应该预计会得到以下三个结果AWS Cloud:

  • 降低组织中多条业务线的数据共享和数据消耗开销。

  • 一种安全一致的方法,可帮助您的组织包括外部数据生成者并在数据湖中与他们共享数据。

  • 持续获取数据见解,不会因为可扩展性限制而放慢速度或中断。