本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
构建数据空间
正如AWS 博客
数据空间为传统的集中式数据管理系统(例如数据湖和数据湖房)提供了分布式替代方案,后者通常依赖单一信任点。这使得数据空间比传统系统更具弹性和稳定性。它还鼓励协作和分担责任,从而在利益相关者之间建立信任,因为他们遵循开放标准和兼容的数据交换规则。控制与合作之间的平衡可确保敏感数据的安全,并鼓励创新。
数据空间中的核心角色
构建数据空间涉及以下三个核心角色:
-
数据空间管理局 — 根据国际数据空间协会
的定义,数据空间管理局管理一个或多个数据空间,其中包括参与者注册,可能需要强制性的业务或技术要求。例如,数据空间管理局可能会要求参与者获得某种形式的商业认证。数据空间管理机构还可能施加技术要求,例如为特定使用政策的技术执行提供支持。 -
数据提供者-提供者管理要共享的数据资产。提供商帮助确保数据资产质量并确定使用政策。
-
数据使用者-消费者通常与提供者交互以获取所需的数据。消费者可能会将这些数据用于分析、决策、研究或其他应用。
提供者以结构化和可访问的方式提供数据,而消费者则根据约定的合同访问和使用数据。随着数据空间的发展和成熟,可以引入额外的角色和职责。例如,以下角色很常见:
-
应用程序提供商 — 负责开发和提供使用数据空间内数据的软件应用程序的实体。
-
定位合作伙伴 — 促进将新数据源、数据生成者或数据使用者整合到数据空间中的实体。它们在扩大和丰富数据空间生态系统方面发挥着至关重要的作用。
-
值得信赖的技术合作伙伴 — 在与数据空间内数据共享和协作相关的技术问题上充当中介机构或促进者的实体。它们涵盖了广泛的职责,包括:
-
数据治理
-
数据质量
-
安全性
-
促进数据集成和兼容性
-
技术支持和故障排除
-
监控数据空间运行状况
-
遵守法规
-
数据空间通常是如何构造和管理的
参与者之间的关系及其数据准备情况都定义了数据空间中治理和信任的基本规则。为了在参与者之间建立信任,数据空间管理机构可以采用三种典型模式之一:
-
集中式数据空间管理机构-数据空间管理机构制定参与规则并管理数据空间参与者的注册表。核心数据空间服务通过这个中央实体进行管理和访问,这促进了数据共享并有助于确保一致的治理。这种方法提供了简单性和统一性,但可能会引起人们对数据控制以及潜在的单点故障或信任的担忧。
-
联邦数据空间管理机构 — 在联合(或分布式)模型中,数据空间管理机构保留了一定程度的集中控制,但改进了技术和安全挑战。多个实体共同负责提供核心服务,而不仅仅是一个实体。Federation 促进了自主性、可扩展性和灵活性,同时有助于确保对数据的控制并解决隐私问题。
-
去中心化的数据空间管理机构 — 完全分散的机构消除了对中心信任点的需求,并且治理在参与组织之间分配。去中心化促进自主权、隐私和弹性,但它可能会带来与协调、共识和治理相关的挑战。
建立数据空间的关键步骤
数据空间管理局通过拥有或委托涵盖业务、法律、运营、功能和技术考虑因素的几个关键步骤来领导和推动数据空间的建设。
Data Space Support Center (DSSC) 提供了一个入门套件
-
定义数据空间的范围和用途 — 确定数据空间中将包含哪些类型的数据、谁将使用数据以及数据空间将满足哪些业务需求。随着数据空间采用率的提高,数据类型和用例可能会随着时间的推移而发生变化。
-
确定初始参与者、源系统和数据集 — 确定相关利益相关者的初始要求和期望。确定将在数据空间中交换的第一组数据源,并确定哪些数据集与预期用例最相关。
-
制定治理原则和流程 — 定义数据管理和使用的角色和责任。制定数据标准、数据交换策略和安全协议。为协作环境提供激励措施。
-
测试和验证数据空间用例 — 测试数据空间以确保其满足预期用例的要求,并验证是否实现了关键绩效指标 (KPI) 目标。
-
部署和运营数据空间技术基础架构 — 在生产环境中部署数据空间,并监控其服务的性能和使用情况,以确定需要改进的领域。有关更多信息,请参阅技术模式。
-
持续改善数据空间 — 通过更新政策并改善开发者和参与者的生态系统,根据用户和利益相关者的反馈随着时间的推移完善生态系统。
-
向@@ 上扩展 — 通过更多参与者、更多、更高质量的数据、集成的数据分析和其他服务来扩展数据空间。要成功扩大规模,必须确保 IT 与业务部门之间的密切合作。
财务状况良好的商业模式对于确保数据空间的成功和增长至关重要。但是,收入优化和商业模式设计不属于本文档的范围。该策略侧重于为基于并由 AWS 服务其提供支持的具有成本效益的架构提供蓝图。