本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在此步驟中,您會使用範例資料和 Amazon Keyspaces 資料表建立來源檔案。
-
建立來源檔案。您可以選擇以下其中一個選項:
-
在本教學課程中,您會使用逗號分隔值 (CSV) 檔案,其名稱
keyspaces_sample_table.csv
為資料遷移的來源檔案。提供的範例檔案包含名稱為 之資料表的幾列資料book_awards
。-
下載包含於下列封存檔案 samplemigration.zip 的範例 CSV 檔案 (
keyspaces_sample_table.csv
)。解壓縮封存,並記下 的路徑keyspaces_sample_table.csv
。
-
-
如果您想要遵循自己的 CSV 檔案,將資料寫入 Amazon Keyspaces,請確定資料已隨機分組。直接從資料庫讀取或匯出至一般檔案的資料,通常由分割區和主索引鍵排序。將排序資料匯入 Amazon Keyspaces 可能會導致它寫入 Amazon Keyspaces 分割區的較小區段,這會導致流量分佈不均勻。這可能會導致效能較慢和錯誤率較高。
相反地,隨機化資料有助於透過更平均地跨分割區分配流量,來利用 Amazon Keyspaces 的內建負載平衡功能。您可以使用各種工具來隨機分配資料。如需使用開放原始碼工具 Shuf
的範例,請參閱 資料遷移教學步驟 2:使用 DSBulk 準備要上傳的資料中的 。以下是示範如何將資料隨機切換為 的範例 DataFrame
。import org.apache.spark.sql.functions.randval shuffledDF = dataframe.orderBy(rand())
-
-
在 Amazon Keyspaces 中建立目標金鑰空間和資料表。
-
使用 連線至 Amazon Keyspaces
cqlsh
,並將下列範例中的服務端點、使用者名稱和密碼取代為您自己的值。cqlsh
cassandra.us-east-2.amazonaws.com
9142 -u"111122223333"
-p"wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY"
--ssl -
使用 名稱建立新的金鑰空間
catalog
,如下列範例所示。CREATE KEYSPACE
catalog
WITH REPLICATION = {'class': 'SingleRegionStrategy'}; -
在新的 keyspace 狀態為可用之後,請使用下列程式碼來建立目標資料表
book_awards
。若要進一步了解非同步資源建立以及如何檢查資源是否可用,請參閱檢查 Amazon Keyspaces 中的金鑰空間建立狀態。CREATE TABLE
catalog.book_awards
( year int, award text, rank int, category text, book_title text, author text, publisher text, PRIMARY KEY ((year, award), category, rank) );
-