本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
如何選取正確的工具,將資料大量上傳或遷移至 Amazon Keyspaces
在本節中,您可以檢閱可用來大量上傳資料或將資料遷移至 Amazon Keyspaces 的不同工具,並了解如何根據您的需求選取正確的工具。此外,本節提供可用step-by-step教學課程的概觀和使用案例,示範如何將資料匯入 Amazon Keyspaces。
若要檢閱將工作負載從 Apache Cassandra 遷移至 Amazon Keyspaces 的可用策略,請參閱 建立遷移計畫,以從 Apache Cassandra 遷移至 Amazon Keyspaces。
-
遷移工具
透過 Github 上提供的 Amazon Keyspaces (適用於 Apache Cassandra) 定價計算器
,您可以根據現有的 Apache Cassandra 工作負載預估 Amazon Keyspaces 的每月成本。輸入來自 Cassandra 節點工具狀態輸出的指標和 Amazon Keyspaces 的預期無伺服器組態,以比較兩個解決方案之間的直接成本。請注意,相較於現有的 Cassandra 部署,此計算器僅著重於 Amazon Keyspaces 的操作成本。它不包括基礎設施維護、營運開銷或 Cassandra 支援成本等總體擁有成本 (TCO) 因素。 ZDM Dual Write Proxy for Amazon Keyspaces Migration – Github
上提供的 ZDM Dual Write Proxy 支援從 Apache Cassandra 到 Amazon Keyspaces 的零停機時間遷移。 CQLReplicator – CQLReplicator 是 Github
上提供的開放原始碼公用程式,可協助您近乎即時地將資料從 Apache Cassandra 遷移至 Amazon Keyspaces。 如需詳細資訊,請參閱使用 CQLReplicator 遷移資料。
若要進一步了解如何使用 Amazon Managed Streaming for Apache Kafka 透過雙寫入實作線上遷移程序,請參閱從 Apache Cassandra 到 Amazon Keyspaces 的持續資料遷移指南
。 對於大型遷移,請考慮使用擷取、轉換和載入 (ETL) 工具。您可以使用 AWS Glue 快速且有效地執行資料轉換遷移。如需詳細資訊,請參閱離線遷移程序:Apache Cassandra 到 Amazon Keyspaces。
若要了解如何使用 Apache Cassandra Spark 連接器將資料寫入 Amazon Keyspaces,請參閱 教學課程:與 Apache Spark 整合以匯入或匯出資料。
使用 cqlsh
COPY FROM
命令快速開始將資料載入 Amazon Keyspaces。cqlsh 隨附於 Apache Cassandra,最適合載入小型資料集或測試資料。如需逐步說明,請參閱 教學課程:使用 cqlsh 將資料載入 Amazon Keyspaces。您也可以使用 DataStax Bulk Loader for Apache Cassandra,使用
dsbulk
命令將資料載入 Amazon Keyspaces。DSBulk 提供比 cqlsh 更強大的匯入功能,可從 GitHub 儲存庫取得。如需逐步說明,請參閱 教學課程:使用 DSBulk 將資料載入 Amazon Keyspaces。
資料上傳至 Amazon Keyspaces 的一般考量事項
-
將資料上傳細分為較小的元件。
請考慮以下遷移單位及其在原始資料大小方面的潛在足跡。在一或多個階段上傳較少量的資料,可能有助於簡化遷移。
依叢集:一次遷移所有 Cassandra 資料。此方法對於較小的叢集可能沒問題。
-
依金鑰空間或資料表 – 將您的遷移分成金鑰空間或資料表群組。此方法可協助您根據每個工作負載的需求分階段遷移資料。
依資料 – 考慮遷移特定使用者或產品群組的資料,以進一步縮減資料大小。
-
根據簡單性優先上傳哪些資料。
考慮您是否有可先更輕鬆地遷移的資料,例如,在特定時間不會變更的資料、夜間批次工作的資料、離線時間未使用的資料,或內部應用程式的資料。