Fase 4: Preparare i dati di origine e la tabella di destinazione in Amazon Keyspaces - Amazon Keyspaces (per Apache Cassandra)

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Fase 4: Preparare i dati di origine e la tabella di destinazione in Amazon Keyspaces

In questo passaggio, crei un file sorgente con dati di esempio e una tabella Amazon Keyspaces.

  1. Crea il file sorgente. Puoi scegliere una delle seguenti opzioni:

    • Per questo tutorial, si utilizza un file di valori separati da virgole (CSV) con il nome keyspaces_sample_table.csv come file di origine per la migrazione dei dati. Il file di esempio fornito contiene alcune righe di dati per una tabella con il nome. book_awards

      1. Scaricate il CSV file di esempio (keyspaces_sample_table.csv) contenuto nel seguente file di archivio samplemigration.zip. Decomprimi l'archivio e prendi nota del percorso versokeyspaces_sample_table.csv.

    • Se desideri scrivere dati in Amazon Keyspaces con il tuo CSV file, assicurati che i dati siano randomizzati. I dati letti direttamente da un database o esportati in file flat vengono in genere ordinati in base alla partizione e alla chiave primaria. L'importazione di dati ordinati in Amazon Keyspaces può causare la scrittura in segmenti più piccoli di partizioni Amazon Keyspaces, con conseguente distribuzione del traffico non uniforme. Ciò può comportare un rallentamento delle prestazioni e tassi di errore più elevati.

      Al contrario, la randomizzazione dei dati aiuta a sfruttare le funzionalità di bilanciamento del carico integrate di Amazon Keyspaces distribuendo il traffico tra le partizioni in modo più uniforme. Esistono vari strumenti che puoi utilizzare per la randomizzazione dei dati. Per un esempio che utilizza lo strumento open source Shuf, vedi Passaggio 2: prepara i dati da caricare utilizzando DSBulk il tutorial sulla migrazione dei dati. Di seguito è riportato un esempio che mostra come mescolare i dati in un file. DataFrame

      import org.apache.spark.sql.functions.randval shuffledDF = dataframe.orderBy(rand())
  2. Crea lo spazio chiave e la tabella di destinazione in Amazon Keyspaces.

    1. Connettiti ad Amazon Keyspaces utilizzando cqlsh e sostituisci l'endpoint del servizio, il nome utente e la password nell'esempio seguente con i tuoi valori.

      cqlsh cassandra.us-east-2.amazonaws.com 9142 -u "111122223333" -p "wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY" --ssl
    2. Crea un nuovo keyspace con il nome mostrato nell'catalogesempio seguente.

      CREATE KEYSPACE catalog WITH REPLICATION = {'class': 'SingleRegionStrategy'};
    3. Dopo che il nuovo keyspace ha lo stato di disponibile, utilizzate il codice seguente per creare la tabella di destinazione. book_awards Per ulteriori informazioni sulla creazione asincrona di risorse e su come verificare se una risorsa è disponibile, consulta. Verifica lo stato di creazione del keyspace in Amazon Keyspaces

      CREATE TABLE catalog.book_awards ( year int, award text, rank int, category text, book_title text, author text, publisher text, PRIMARY KEY ((year, award), category, rank) );