AWS 数据网格产品 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS 数据网格产品

利用分析功能 AWS,为您的组织构建基于数据网格的数据解决方案。 AWS 资源分析建议使用几种方法 AWS 服务 ,以便在不影响性能的情况下以低成本构建数据网格。客户已采用以下选项来构建基于数据网格的解决方案:

  • 使用 Amazon 实现数据网格 DataZone

  • 通过在 data.all AWS 等上使用开源框架实现数据网格

  • 使用实现数据网格 AWS Lake Formation

这三个选项使用以下内容 AWS 服务:

亚马逊 DataZone 选项也使用亚马逊 EventBridge

data.all 和 AWS Lake Formation 选项还使用以下内容 AWS 服务 和资源:

根据 AWS 服务 您所在组织的要求,您在实施中使用的可能有所不同。

Amazon DataZone

如果您想使用完全托管的服务, DataZone 可以考虑使用 Amazon 为您的组织实施数据网格。Amazon DataZone 是一项数据管理服务,用于编目、发现、共享和管理存储在本地和第三方来源的数据。 AWS下图显示了基于 Amazon 的数据网格参考架构 DataZone。

多个生产者和消费者账户,拥有一个中央管理账户和 Amazon DataZone。

在参考架构中,成员帐户属于数据域。他们分为数据生产者和数据使用者。架构图包含以下组件:

  1. 数据生成者在 Amazon 数据门户提供的业务目录中发布 DataZone 数据产品。数据门户托管在中央治理账户中。

  2. 数据使用者(用户)使用其 AWS 凭据或单点登录凭据登录数据门户。他们可以浏览目录并使用关键字搜索自己感兴趣的数据产品。他们可以筛选搜索结果。

  3. 属于消费者团队的数据用户找到他们感兴趣的数据产品后,他们可以请求访问数据。Amazon DataZone 有一个内置的访问管理工作流程,数据所有者可以使用该工作流程来审查和批准请求。

  4. 数据使用者团队可以使用数据来增强其人工智能和机器学习 (AI/ML)、分析和报告能力,以及提取、转换和加载 (ETL) 用例。

data.all

如果您了解开源并想要构建和管理自己的解决方案,请考虑使用诸如 data.all 之类的开源框架。Data.all 是一个现代数据市场,支持不同用户之间的协作。Data.all 简化了数据发现、共享和精细的数据访问管理,而构建者则使用数据和 AWS 分析服务组合。下图显示了基于 data.all 的数据网格参考架构。

多个生产者和消费者账户,其中包含一个中央治理账户和 data.all。

架构图包含以下组件:

  1. 数据生产者在 data.all 前端提供的目录中发布数据产品。data.all 的前端和后端托管在中央治理账户中。

  2. 数据使用者(用户)使用其单点登录或 Amazon Cognito 凭证登录 data.all 前端。他们可以浏览目录并搜索自己感兴趣的数据产品。他们可以筛选搜索结果。

  3. 属于消费者团队的数据用户找到他们感兴趣的数据产品后,他们可以请求访问数据。Data.all 有一个内置的访问管理工作流程,数据所有者可以使用该工作流程来审查和批准访问请求。

  4. 消费者团队可以利用这些数据来增强他们的 AI/ML、分析和报告以及ETL用例。

AWS Lake Formation

如果您想从头开始构建自定义数据网格解决方案并对其进行管理,请考虑使用 AWS Lake Formation。Lake Formation 可帮助您集中管理、保护和全球共享用于分析和机器学习的数据。下图显示了基于 Lake Formation 的数据网格参考架构。

多个生产者和消费者账户,拥有一个中央治理账户和 Lake Formation

架构图包含以下组件:

  1. 数据生产者在中央治理账户中 AWS Glue Data Catalog 发布数据产品。 AWS Lake Formation 管理对中央数据目录中实体的访问。

  2. 授予访问权限后,消费者团队可以使用这些数据来增强他们的 AI/ML、分析和报告以及用例。ETL