Langkah 4: Siapkan data sumber dan tabel target di Amazon Keyspaces - Amazon Keyspaces (untuk Apache Cassandra)

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Langkah 4: Siapkan data sumber dan tabel target di Amazon Keyspaces

Pada langkah ini, Anda membuat file sumber dengan data sampel dan tabel Amazon Keyspaces.

  1. Buat file sumber. Anda dapat memilih salah satu dari opsi berikut:

    • Untuk tutorial ini, Anda menggunakan file nilai dipisahkan koma (CSV) dengan namakeyspaces_sample_table.csvsebagai file sumber untuk migrasi data. File sampel yang disediakan berisi beberapa baris data untuk tabel dengan namabook_awards.

      1. Unduh contoh file CSV (keyspaces_sample_table.csv) yang terkandung dalam file arsip berikutsamplemigration.zip. Buka zip arsip dan catat jalur kekeyspaces_sample_table.csv.

    • Jika Anda ingin mengikuti file CSV Anda sendiri untuk menulis data ke Amazon Keyspaces, pastikan data tersebut diacak. Data yang dibaca langsung dari database atau diekspor ke file datar biasanya diurutkan oleh partisi dan kunci primer. Mengimpor data yang dipesan ke Amazon Keyspaces dapat menyebabkannya ditulis ke segmen partisi Amazon Keyspaces yang lebih kecil, yang menghasilkan distribusi lalu lintas yang tidak merata. Hal ini dapat menyebabkan kinerja yang lebih lambat dan tingkat kesalahan yang lebih tinggi.

      Sebaliknya, pengacakan data membantu memanfaatkan kemampuan load balancing bawaan Amazon Keyspaces dengan mendistribusikan lalu lintas ke seluruh partisi secara lebih merata. Ada berbagai alat yang dapat Anda gunakan untuk mengacak data. Sebagai contoh yang menggunakan alat open-sourceShuf, lihatLangkah 2: Siapkan datadalam tutorial migrasi data. Berikut ini adalah contoh yang menunjukkan bagaimana untuk mengacak data sebagaiDataFrame.

      import org.apache.spark.sql.functions.randval shuffledDF = dataframe.orderBy(rand())
  2. Buat keyspace target dan tabel di Amazon Keyspaces.

    1. Sambungkan ke Amazon Keyspaces menggunakancqlsh, dan ganti endpoint layanan, nama pengguna, dan kata sandi dalam contoh berikut dengan nilai Anda sendiri.

      cqlsh cassandra.us-east-2.amazonaws.com 9142 -u "111122223333" -p "wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY" --ssl
    2. Buat keyspace baru dengan namacatalogseperti yang ditunjukkan pada contoh berikut.

      CREATE KEYSPACE catalog WITH REPLICATION = {'class': 'SingleRegionStrategy'};
    3. Setelah keyspace baru memiliki status yang tersedia, gunakan kode berikut untuk membuat tabel targetbook_awards. Untuk mempelajari lebih lanjut tentang pembuatan sumber daya asinkron dan cara memeriksa apakah sumber daya tersedia, lihatMembuat ruang kunci di Amazon Keyspaces.

      CREATE TABLE catalog.book_awards ( year int, award text, rank int, category text, book_title text, author text, publisher text, PRIMARY KEY ((year, award), category, rank) );