Fase 4: Preparare i dati di origine e la tabella di destinazione in Amazon Keyspaces - Amazon Keyspaces (per Apache Cassandra)

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Fase 4: Preparare i dati di origine e la tabella di destinazione in Amazon Keyspaces

In questo passaggio, crei un file sorgente con dati di esempio e una tabella Amazon Keyspaces.

  1. Crea il file sorgente. Puoi scegliere una delle seguenti opzioni:

    • Per questo tutorial, usi un file con valori separati da virgole (CSV) con il nomekeyspaces_sample_table.csvcome file di origine per la migrazione dei dati. Il file di esempio fornito contiene alcune righe di dati per una tabella con il nomebook_awards.

      1. Scarica il file CSV di esempio (keyspaces_sample_table.csv) che è contenuto nel seguente file di archiviosamplemigration.zip. Decomprimi l'archivio e prendi nota del percorsokeyspaces_sample_table.csv.

    • Se desideri utilizzare il tuo file CSV per scrivere dati su Amazon Keyspaces, assicurati che i dati siano randomizzati. I dati letti direttamente da un database o esportati in file flat vengono in genere ordinati in base alla partizione e alla chiave primaria. L'importazione di dati ordinati su Amazon Keyspaces può causare la scrittura su segmenti più piccoli delle partizioni Amazon Keyspaces, con conseguente distribuzione non uniforme del traffico. Ciò può comportare prestazioni più lente e tassi di errore più elevati.

      Al contrario, la randomizzazione dei dati aiuta a sfruttare le funzionalità di bilanciamento del carico integrate di Amazon Keyspaces distribuendo il traffico tra le partizioni in modo più uniforme. Esistono vari strumenti che è possibile utilizzare per la randomizzazione dei dati. Ad esempio che utilizza lo strumento open sourceShuf, vediFase 2: Preparare i datinel tutorial sulla migrazione dei dati. Di seguito è riportato un esempio che mostra come rimescolare i dati comeDataFrame.

      import org.apache.spark.sql.functions.randval shuffledDF = dataframe.orderBy(rand())
  2. Crea lo spazio chiave e la tabella di destinazione in Amazon Keyspaces.

    1. Connettiti ad Amazon Keyspaces utilizzandocqlshe sostituisci l'endpoint del servizio, il nome utente e la password nell'esempio seguente con i tuoi valori.

      cqlsh cassandra.us-east-2.amazonaws.com 9142 -u "111122223333" -p "wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY" --ssl
    2. Crea un nuovo keyspace con il nomecatalogcome illustrato nell'esempio seguente.

      CREATE KEYSPACE catalog WITH REPLICATION = {'class': 'SingleRegionStrategy'};
    3. Dopo che il nuovo keyspace ha lo stato di disponibile, usa il seguente codice per creare la tabella di destinazionebook_awards. Per ulteriori informazioni sulla creazione asincrona di risorse e su come verificare se una risorsa è disponibile, consultaCreazione di spazi chiave in Amazon Keyspaces.

      CREATE TABLE catalog.book_awards ( year int, award text, rank int, category text, book_title text, author text, publisher text, PRIMARY KEY ((year, award), category, rank) );