Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Fase 4: Preparare i dati di origine e la tabella di destinazione in Amazon Keyspaces
In questo passaggio, crei un file sorgente con dati di esempio e una tabella Amazon Keyspaces.
-
Crea il file sorgente. Puoi scegliere una delle seguenti opzioni:
-
Per questo tutorial, usi un file con valori separati da virgole (CSV) con il nome
keyspaces_sample_table.csv
come file di origine per la migrazione dei dati. Il file di esempio fornito contiene alcune righe di dati per una tabella con il nomebook_awards
.-
Scarica il file CSV di esempio (
keyspaces_sample_table.csv
) che è contenuto nel seguente file di archiviosamplemigration.zip. Decomprimi l'archivio e prendi nota del percorsokeyspaces_sample_table.csv
.
-
-
Se desideri utilizzare il tuo file CSV per scrivere dati su Amazon Keyspaces, assicurati che i dati siano randomizzati. I dati letti direttamente da un database o esportati in file flat vengono in genere ordinati in base alla partizione e alla chiave primaria. L'importazione di dati ordinati su Amazon Keyspaces può causare la scrittura su segmenti più piccoli delle partizioni Amazon Keyspaces, con conseguente distribuzione non uniforme del traffico. Ciò può comportare prestazioni più lente e tassi di errore più elevati.
Al contrario, la randomizzazione dei dati aiuta a sfruttare le funzionalità di bilanciamento del carico integrate di Amazon Keyspaces distribuendo il traffico tra le partizioni in modo più uniforme. Esistono vari strumenti che è possibile utilizzare per la randomizzazione dei dati. Ad esempio che utilizza lo strumento open sourceShuf
, vediFase 2: Preparare i datinel tutorial sulla migrazione dei dati. Di seguito è riportato un esempio che mostra come rimescolare i dati come DataFrame
.import org.apache.spark.sql.functions.randval shuffledDF = dataframe.orderBy(rand())
-
-
Crea lo spazio chiave e la tabella di destinazione in Amazon Keyspaces.
-
Connettiti ad Amazon Keyspaces utilizzando
cqlsh
e sostituisci l'endpoint del servizio, il nome utente e la password nell'esempio seguente con i tuoi valori.cqlsh
cassandra.us-east-2.amazonaws.com
9142 -u"111122223333"
-p"wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY"
--ssl -
Crea un nuovo keyspace con il nome
catalog
come illustrato nell'esempio seguente.CREATE KEYSPACE
catalog
WITH REPLICATION = {'class': 'SingleRegionStrategy'}; -
Dopo che il nuovo keyspace ha lo stato di disponibile, usa il seguente codice per creare la tabella di destinazione
book_awards
. Per ulteriori informazioni sulla creazione asincrona di risorse e su come verificare se una risorsa è disponibile, consultaCreazione di spazi chiave in Amazon Keyspaces.CREATE TABLE
catalog.book_awards
( year int, award text, rank int, category text, book_title text, author text, publisher text, PRIMARY KEY ((year, award), category, rank) );
-