确定迁移方法 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

确定迁移方法

要决定迁移方法,您可以使用在前一阶段对现有模式进行的分析。贵组织未来的数据和分析需求也是同样重要的考虑因素。传统的本地 ETL 工具处理关系数据模型和结构化数据。如果您需要处理半结构化和非结构化数据,则可以使用或 AWS Glue Amazon EMR 等 AWS 服务进行迁移。可能影响迁移方法的其他因素包括:

  • 无论你是想使用图形界面(例如 AWS Glue Studio)还是自定义框架(例如 Spark/Python 库)

  • 您是否可以安全访问本地源和 AWS 目标

  • 团队所需的技能和培训

  • 审计和合规要求

您可以从三种迁移方法中进行选择:大爆炸、分阶段迁移和移动。下表对这三种方法进行了比较。

方法 描述 使用案例 优点和缺点
大爆炸 在特定时间段内迁移所有 SSIS 软件包。
  • 复杂性、范围和目标架构都很清楚。

  • 团队具备所需的技能,或者学习曲线较浅。

  • 高风险。

  • 比分阶段方法花费的时间更少。

  • 您可以使用 AWS Glue Amazon EMR 或自定义框架。

分阶段 为每种不同的模式和复杂性确定一个 SSIS 软件包。将软件包迁移到 AWS现有架构,对其进行测试,并将结果与现有架构进行比较。
  • 时间不是限制。

  • 您需要针对不同的 ETL 模式进行不同的设计。

  • 风险比宇宙大爆炸方法小,但需要更多的时间和精力。

  • 您可以使用 AWS Glue Amazon EMR 或自定义框架。

抬起并移动 将当前架构按原样迁移到 AWS。
  • 您的本地硬件不再受支持。

  • 您没有足够的资源立即规划迁移。

  • 所需的迁移工作量和时间最少。

  • 现有解决方案的问题仍然存在 AWS。

  • SSIS 软件包按原样运行。不需要其他 ETL 工具或框架。

比较源系统和目标系统上的数据是成功迁移的基础。由于现有的生产系统会定期从源系统获取更新,因此这种比较可能会变得混乱。因此,在确定迁移方法时,我们建议您同时决定数据验证策略。

  • 在特定的日期和时间备份源系统上的生产环境中所有适用的数据库和文件。

  • 在所有作业都成功地从备份的源数据加载数据后,从目标系统的生产环境中备份所有数据库。

  • 在测试环境中恢复源数据,然后运行新作业。

  • 商定源数据库和目标(新旧)数据库之间有效差异的百分比。例如,您可能会认为小于 1% 的差异是可以接受的。

  • 列出要涵盖的所有验证规则。

  • 尽可能自动进行比较,并涵盖所有规则。