本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
如何选择合适的工具将数据批量上传或迁移到 Amazon Keyspaces
在本节中,您可以查看可用于将数据批量上传或迁移到 Amazon Keyspaces 的各种工具,并了解如何根据需要选择合适的工具。此外,本节还概述了演示如何将数据导入 Amazon Keyspaces 的可用 step-by-step教程和使用案例。
要查看将工作负载从 Apache Cassandra 迁移到 Amazon Keyspaces 的可用策略,请参阅创建从 Apache Cassandra 迁移到 Amazon Keyspaces 的迁移计划。
-
迁移工具
借助 Github 上提供的亚马逊密钥空间(适用于 Apache Cassandra)的定价计算器
,您可以根据现有的 Apache Cassandra 工作负载估算亚马逊密钥空间的每月费用。输入您的 Cassandra 节点工具状态输出和 Amazon Keyspaces 的预期无服务器配置中的指标,以比较两种解决方案之间的直接成本。请注意,此计算器仅关注与您的现有 Cassandra 部署相比 Amazon Keyspaces 的运营成本。它不包括总拥有成本 (TCO) 因素,例如基础架构维护、运营开销或Cassandra的支持成本。 用于亚马逊密钥空间迁移的 ZDM 双写代理 — Github 上
提供的 ZDM 双写代理支持从 Apache Cassandra 到亚马逊密钥空间的零停机迁移。 CQLReplicator— CQLReplicator 是 Github
上提供的开源实用程序,可帮助您近乎实时地将数据从 Apache Cassandra 迁移到 Amazon Keyspaces。 有关更多信息,请参阅 使用迁移数据 CQLReplicator。
要详细了解如何使用 Amazon Managed Streaming for Apache Kafka 实现在线迁移过程及双重写入,请参阅 Guidance for continuous data migration from Apache Cassandra to Amazon Keyspaces
。 对于大型迁移,请考虑使用提取、转换、加载(ETL)工具。您可以使用 AWS Glue 来快速有效地执行数据转换迁移。有关更多信息,请参阅 离线迁移过程:Apache Cassandra 到 Amazon Keyspaces。
要了解如何使用 Apache Cassandra Spark 连接器向 Amazon Keyspaces 写入数据,请参阅 教程:与 Apache Spark 集成以导入或导出数据。
使用 cqlsh
COPY FROM
命令快速开始将数据加载到 Amazon Keyspaces。cqlsh 包含在 Apache Cassandra 中,最适用于加载小型数据集或测试数据。有关 step-by-step说明,请参阅教程:使用 cqlsh 将数据加载到 Amazon Keyspaces。您也可以使用适用于 Apache Cassandra 的 DataStax 批量加载器使用命令将数据加载到 Amazon Keyspaces 中。
dsbulk
DSBulk提供了比 cqlsh 更强大的导入功能,并且可从存储库中获取。GitHub有关 step-by-step说明,请参阅教程:使用将数据加载到 Amazon Keyspaces DSBulk。
将数据上传到 Amazon Keyspaces 的一般注意事项
-
将数据上传分解为较小的组成部分。
考虑以下迁移单位及其在原始数据大小方面的潜在占用空间。在一个或多个阶段上传少量数据可能有助于简化迁移。
按集群:一次性迁移所有 Cassandra 数据。这种方法可能适用于较小的集群。
-
按键空间或表:将迁移分解为键空间或表组。此方法可以帮助您根据每个工作负载的要求分阶段迁移数据。
按数据:考虑迁移特定用户组或产品的数据,进一步减少数据大小。
-
根据简便性,首选确定要上传的数据的优先顺序。
考虑一下您是否有可以首先且更轻松地迁移的数据,例如,在特定时间段内不会更改的数据、来自夜间批处理作业的数据、离线期间未使用的数据或来自内部应用程序的数据。