教程:使用 DSBulk 将数据加载到 Amazon Keyspaces - Amazon Keyspaces(Apache Cassandra 兼容)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程:使用 DSBulk 将数据加载到 Amazon Keyspaces

本 step-by-step 教程将指导您使用上提供的 DataStax 批量加载器 (DSBulk) 将数据从 Apache Cassandra 迁移到亚马逊密钥空间。GitHub使用 DSBulk 将数据集上传到 Amazon Keyspaces 用于学术或考试目的非常有用。有关如何迁移生产工作负载的更多信息,请参阅离线迁移流程:Apache Cassandra 到 Amazon Keyspaces。在本教程中,您将完成以下步骤。

先决条件-使用凭据设置 AWS 帐户,为证书创建 JKS 信任存储文件,配置cqlsh、下载和安装 DSBulk,以及配置文件。application.conf

  1. 创建源 CSV 和目标表 — 准备一个 CSV 文件作为源数据,然后在 Amazon Keyspaces 中创建目标密钥空间和表。

  2. 准备数据-随机化 CSV 文件中的数据并对其进行分析以确定平均行大小和最大行大小。

  3. 设置吞吐容量-根据数据大小和所需的加载时间计算所需的写入容量单位 (WCU),并配置表的预配置容量。

  4. 配置 DSBulk 设置-使用身份验证、SSL/TLS、一致性级别和连接池大小等设置创建 DSBulk 配置文件。

  5. 运行 DSBulk 加载命令 — 运行 DSBulk 加载命令将数据从 CSV 文件上传到 Amazon Keyspaces 表,并监控进度。