设计数据湖以实现增长和扩展 AWS Cloud - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

设计数据湖以实现增长和扩展 AWS Cloud

Wei Shao,Amazon Web Services (AWS)

2021 年 10 月文档历史记录

作为其数据现代化战略的一部分,各组织越来越多地在 Amazon Web Services (AWS) 云上设计和构建数据湖。数据湖可以是存储库,用于存储任何规模的结构化和非结构化数据,并可供广泛的内部和外部用户使用。

但是,要将数据摄取到可满足您不断增长的业务用例的数据湖中,可能需要花费大量时间和精力。为了帮助降低成本并最大限度地提高数据产生的价值,许多组织计划一次性地将数据引入其数据湖,然后多次使用这些数据。设计可随数据生产、共享和消费而扩展的数据湖架构,对于在数据湖增长时为业务利益相关者创造价值至关重要。

可扩展的数据湖架构为您的组织提供了坚实的基础,让您可以从数据湖中获得价值,同时将更多数据带入其中。通过持续获得数据见解,而不会因为可扩展性限制而减慢或中断,可扩展的数据湖还可以帮助您的组织保持竞争力。

通常,数据湖有数据生产者和数据使用者。数据生产者通过收集、处理和存储其数据域中的数据来创建数据资产。这些集体数据资产构成了数据湖的内容。数据生产者可以选择有选择地与数据湖的数据使用者共享其数据资产。

数据使用者需要来自数据生产者的数据来满足其业务用例,偶尔也可以将这些数据与自己的数据结合起来。数据生产者和数据使用者通常是组织的一部分,但并非总是如此。重要的是,他们可以同时成为数据生产者或数据消费者。

可扩展的数据湖架构可帮助您实现以下成果:

  • 大规模加入数据生产者,无需他们维护整个数据共享流程。这可以帮助数据生产者将其数据载入数据湖,并专注于从其数据域收集、处理和存储数据。

  • 使数据使用者能够访问来自多个数据生产者的数据,而不会增加您的总体成本和管理开销。

本指南描述了组织在发展数据湖时可能出现的常见扩展挑战,提供了数据湖参考架构,并概述了数据生产者和数据使用者入职和授予访问权限的方法。本指南中的数据湖参考架构利用了提供的AWS Lake Formation不同特性和功能。该指南适用于负责在上设计数据湖的团队 AWS Cloud,包括企业数据架构师、数据平台架构师、设计师或数据领域负责人。

目标业务成果

在设计用于增长和扩展的数据湖之后,您应该期望获得以下三个结果 AWS Cloud:

  • 降低组织中多条业务线的数据共享和数据消耗开销。

  • 一种安全、一致的方法,可帮助您的组织包括外部数据生成者并在您的数据湖中与他们共享数据。

  • 持续获取数据见解,而不会因为可扩展性限制而减慢或中断。