使用 Starburst 将数据迁移到 Amazon Web Services Cloud - AWS Prescriptive Guidance

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Starburst 将数据迁移到 Amazon Web Services Cloud

创建者:Antony Prasad Thevaraj (AWS)、Shaun Van Staden (Starburst) 和 Suresh Veeragoni (AWS)

环境:生产

技术:分析;数据湖;数据库

工作负载:所有其他工作负载

Amazon Web Services:Amazon EKS

总结

Starburst 通过提供企业查询引擎,将现有数据来源整合到一个接入点中,从而帮助您加快向 Amazon Web Services (AWS) 的数据迁移之旅。在最终确定任何迁移计划之前,您可对多个数据来源进行分析,以获得有价值的见解。在不中断 business-as-usual 分析的情况下,您可以使用 Starburst 引擎或专用的提取、转换和加载 (ETL) 应用程序迁移数据。

先决条件和限制

先决条件

  • 一个有效的 Amazon Web Services account

  • 虚拟私有云(VPC)

  • Amazon Elastic Kubernetes Service (Amazon EKS) 集群

  • Amazon Elastic Compute Cloud (Amazon EC2) 自动扩缩组

  • 需要迁移的当前系统工作负载列表

  • 从 AWS 到本地环境的网络连接

架构

参考架构

以下高级架构图显示了 Starburst Enterprise 在 Amazon Web Services Cloud 中的典型部署:

  1. Starburst Enterprise 集群在您的 Amazon Web Services account 中运行。

  2. 用户使用轻量级目录访问协议 (LDAP) 或开放授权 (OAuth) 进行身份验证,并直接与 Starburst 集群交互。

  3. Starburst 可以连接到多个 AWS 数据来源,例如 AWS Glue、Amazon Simple Storage Service (Amazon S3)、Amazon Relational Database Service (Amazon RDS) 和 Amazon Redshift。Starburst 提供对 AWS Cloud、本地或其他云环境中的数据来源的联合查询功能。

  4. 您可使用 Helm 图表在 Amazon EKS 集群中启动 Starburst Enterprise。

  5. Starburst Enterprise 使用 Amazon EC2 自动扩缩组和 Amazon EC2 竞价型实例来优化基础设施。

  6. Starburst Enterprise 直接连接到至您现有的本地数据来源以实时读取数据。此外,如果您在此环境中部署了 Starburst Enterprise,则可以直接将 Amazon Web Services Cloud 中的新 Starburst 集群连接到该现有集群。

在 Amazon Web Services Cloud 中部署 Starburst Enterprise 的高级架构图

请注意以下几点:

  • Starburst 不是数据虚拟化平台。它是基于 SQL 的大规模并行处理 (MPP) 查询引擎,构成了整体数据网格分析策略的基础。

  • 在迁移过程中部署 Starburst 时,它可以直接连接至现有的本地基础设施。

  • Starburst 提供了多种内置的企业和开源连接器,便于连接到各种遗留系统。有关连接器及其功能的完整列表,请参阅 Starburst Enterprise 用户指南中的连接器

  • Starburst 可从本地数据来源实时查询数据。这样可防止在迁移数据时中断常规业务运营。

  • 如果您要从现有的本地 Starburst Enterprise 部署迁移,则可以使用特殊连接器 Starburst Stargate,将 AWS 中的 Starburst Enterprise 集群直接连接到本地集群。当业务用户和数据分析师将查询从 Amazon Web Services Cloud 联合到您的本地环境时,这会带来额外的性能优势。

高级流程概述

您可使用 Starburst 加速数据迁移项目,因为 Starburst 可以在迁移数据之前对所有数据进行深入分析。下图显示了使用 Starburst 迁移数据的典型进程。

使用 Starburst 将数据迁移到 Amazon Web Services Cloud 的流程流程

角色

使用 Starburst 完成迁移通常需要使用以下角色:

  • 云管理员 – 负责提供云资源以运行 Starburst Enterprise 应用程序

  • Starburst 管理员 – 负责安装、配置、管理和支持 Starburst 应用程序

  • 数据工程师 – 负责:

    • 将遗留数据迁移到云

    • 构建语义视图以支持分析

  • 解决方案或系统所有者 – 负责整体解决方案的实施

工具

Amazon Web Services

  • Amazon EC2 – Amazon Elastic Compute Cloud (Amazon EC2) 在 Amazon Web Services Cloud 中提供可扩展的计算容量。

  • Amazon EKS – Amazon Elastic Kubernetes Service (Amazon EKS) 是一项托管服务,可用来在 AWS 上运行 Kubernetes,而无需支持或维护您自己的 Kubernetes 控制面板。Kubernetes 是一个用于实现容器化应用程序的部署、扩缩和管理自动化的开源系统。

其他工具

  • Helm – Helm 是 Kubernetes 的软件包管理器,可帮助您在 Kubernetes 集群上安装和管理应用程序。

  • Starburst Enterprise – Starburst Enterprise 是一款基于 SQL 的大规模并行处理 (MPP) 查询引擎,构成了总体数据网格分析策略的基础。

  • Starburst Stargate – Starburst Stargate 将一个 Starburst Enterprise 环境(例如本地数据中心中的集群)中的目录和数据来源链接到另一个 Starburst Enterprise 环境(例如 Amazon Web Services Cloud 中的集群)中的目录和数据来源。

操作说明

任务描述所需技能
识别您的数据并确定优先级。

确定您要移动的数据。大型本地遗留系统可能包含您想要迁移的核心数据,以及您不想移动或由于合规性原因而无法移动的数据。从数据清单开始,帮助您优先考虑应首先定位的数据。有关更多信息,请参阅自动产品组合发现入门

数据工程师、数据库管理员
浏览、清点和备份数据。

验证数据与您的用例的质量、数量和相关性。根据需要备份或创建数据快照,并最终确定数据的目标环境。

数据工程师、数据库管理员
任务描述所需技能
在 Amazon Web Services Cloud 内配置 Starburst Enterprise。

在对数据进行编目时,在托管 Amazon EKS 集群中设置 Starburst Enterprise。有关更多信息,请参阅 Starburst Enterprise 参考文档中的使用 Kubernetes 部署。这允许在数据迁移过程中进行 business-as-usual 分析。

AWS 管理员、应用程序开发人员
将 Starburst 连接至数据来源。

识别数据并设置 Starburst Enterprise 后,将 Starburst 连接到数据来源。Starburst 以 SQL 查询的形式直接从数据来源读取数据。有关更多信息,请参阅 Starburst Enprise 参考文档

AWS 管理员、应用程序开发人员
任务描述所需技能
构建并运行 ETL 管线。

开始数据迁移进程。此活动可以与 business-as-usual 分析同时发生。要进行迁移,您可使用第三方产品或 Starburst。Starburst 能跨不同来源读取和写入数据。有关更多信息,请参阅 Starburst Enprise 参考文档

数据工程师
验证数据。

迁移数据后,验证数据以,确保所有必需的数据均已移动且完好无损。

数据工程师、 DevOps 工程师
任务描述所需技能
割接数据。

数据迁移和验证完成后,您可割接数据。这涉及更改 Starburst 中的数据链接。与其指向本地资源,不如指向新云源并更新语义视图。有关更多信息,请参阅 Starburst Enterprise 参考文档中的连接器

数据工程师,割接负责人
向用户推出。

数据使用者开始处理迁移数据来源。此过程对于分析最终用户来说是不可见的。

割接负责人,数据工程师

相关资源

Amazon Web Services Marketplace

Starburst 文档

其他 AWS 文档