選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

步驟 4:準備 Amazon Keyspaces 中的來源資料和目標資料表

焦點模式
步驟 4:準備 Amazon Keyspaces 中的來源資料和目標資料表 - Amazon Keyspaces (適用於 Apache Cassandra)

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在此步驟中,您會使用範例資料和 Amazon Keyspaces 資料表建立來源檔案。

  1. 建立來源檔案。您可以選擇以下其中一個選項:

    • 在本教學課程中,您會使用逗號分隔值 (CSV) 檔案,其名稱keyspaces_sample_table.csv為資料遷移的來源檔案。提供的範例檔案包含名稱為 之資料表的幾列資料book_awards

      1. 下載包含於下列封存檔案 samplemigration.zip 的範例 CSV 檔案 (keyspaces_sample_table.csv)。解壓縮封存,並記下 的路徑keyspaces_sample_table.csv

    • 如果您想要遵循自己的 CSV 檔案,將資料寫入 Amazon Keyspaces,請確定資料已隨機分組。直接從資料庫讀取或匯出至一般檔案的資料,通常由分割區和主索引鍵排序。將排序資料匯入 Amazon Keyspaces 可能會導致它寫入 Amazon Keyspaces 分割區的較小區段,這會導致流量分佈不均勻。這可能會導致效能較慢和錯誤率較高。

      相反地,隨機化資料有助於透過更平均地跨分割區分配流量,來利用 Amazon Keyspaces 的內建負載平衡功能。您可以使用各種工具來隨機分配資料。如需使用開放原始碼工具 Shuf 的範例,請參閱 資料遷移教學步驟 2:使用 DSBulk 準備要上傳的資料中的 。以下是示範如何將資料隨機切換為 的範例DataFrame

      import org.apache.spark.sql.functions.randval shuffledDF = dataframe.orderBy(rand())
  2. 在 Amazon Keyspaces 中建立目標金鑰空間和資料表。

    1. 使用 連線至 Amazon Keyspacescqlsh,並將下列範例中的服務端點、使用者名稱和密碼取代為您自己的值。

      cqlsh cassandra.us-east-2.amazonaws.com 9142 -u "111122223333" -p "wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY" --ssl
    2. 使用 名稱建立新的金鑰空間catalog,如下列範例所示。

      CREATE KEYSPACE catalog WITH REPLICATION = {'class': 'SingleRegionStrategy'};
    3. 在新的 keyspace 狀態為可用之後,請使用下列程式碼來建立目標資料表 book_awards。若要進一步了解非同步資源建立以及如何檢查資源是否可用,請參閱檢查 Amazon Keyspaces 中的金鑰空間建立狀態

      CREATE TABLE catalog.book_awards ( year int, award text, rank int, category text, book_title text, author text, publisher text, PRIMARY KEY ((year, award), category, rank) );
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。