Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Caricamento di dati da host remoti
È possibile utilizzare il comando COPY per caricare dati in parallelo da uno o più host remoti, quali istanze Amazon EC2 o altri computer. COPY si connette agli host remoti utilizzando SSH ed esegue comandi sugli host remoti per generare output di testo.
L'host remoto può essere un'istanza Linux di Amazon EC2 o un altro computer Unix o Linux configurato per accettare connessioni SSH. Questa guida presuppone che l'host remoto si trovi in un'istanza Amazon EC2. Se la procedura è diversa per un altro computer, la guida indicherà la differenza.
Amazon Redshift può connettersi a più host e può aprire più connessioni SSH per ogni host. Amazon Redshift invia un comando univoco attraverso ogni connessione per generare output di testo per l'output standard dell'host, che legge quindi come un file di testo.
Prima di iniziare
Prima di iniziare, devi disporre dei seguenti requisiti:
-
Una o più macchine host, come le istanze Amazon EC2, a cui è possibile effettuare la connessione utilizzando SSH.
-
Origini dati negli host.
Saranno forniti i comandi che il cluster Amazon Redshift eseguirà sugli host per generare l'output di testo. Una volta che il cluster si connette a un host, il comando COPY esegue i comandi, legge il testo dall'output standard degli host e carica i dati in parallelo in una tabella Amazon Redshift. L'output di testo deve essere in un formato importabile dal comando COPY. Per ulteriori informazioni, consulta Preparazione dei dati di input
-
Accesso agli host dal computer.
Per un'istanza Amazon EC2, per accedere all'host verrà utilizzata una connessione SSH. Devi accedere all'host per aggiungere la chiave pubblica del cluster Amazon Redshift al file di chiavi autorizzate dell'host.
-
Un cluster Amazon Redshift in esecuzione.
Per informazioni su come avviare un cluster, consultare Guida alle operazioni di base di Amazon Redshift.
Processo di caricamento dei dati
Questa sezione illustra il processo di caricamento dei dati da host remoti. Le sezioni seguenti forniscono le informazioni dettagliate necessarie per completare ogni fase.
-
Fase 1: recupero degli indirizzi IP dei nodi del cluster e della chiave pubblica del cluster
La chiave pubblica consente ai nodi del cluster Amazon Redshift di stabilire connessioni SSH agli host remoti. Sarà utilizzato l'indirizzo IP per ciascun nodo del cluster per configurare i gruppi di sicurezza dell'host o del firewall in modo da consentire l'accesso dal cluster Amazon Redshift utilizzando questi indirizzi IP.
-
Aggiungere la chiave pubblica del cluster Amazon Redshift al file di chiavi autorizzate dell'host in modo che l'host riconosca il cluster Amazon Redshift e accetti la connessione SSH.
-
Fase 3: Configurazione dell'host affinché accetti tutti gli indirizzi IP del cluster Amazon Redshift
Per Amazon EC2, modifica i gruppi di sicurezza dell'istanza per aggiungere regole di input per accettare gli indirizzi IP di Amazon Redshift. Per gli altri host, modificare il firewall in modo che i nodi Amazon Redshift possano stabilire connessioni SSH all'host remoto.
-
Fase 4: ottenere una chiave pubblica per l'host
È possibile specificare che Amazon Redshift deve utilizzare la chiave pubblica per identificare l'host. Devi individuare la chiave pubblica e copiare il testo nel file manifesto.
-
Fase 5: creazione di un file manifest
Il manifest è un file di testo in formato JSON con i dettagli necessari ad Amazon Redshift per effettuare la connessione agli host e recuperare i dati.
-
Fase 6: Caricamento del file manifest in un bucket Amazon S3
Amazon Redshift legge il manifest e utilizza tali informazioni per effettuare la connessione all'host remoto. Se il bucket Amazon S3 non si trova nella stessa regione del cluster Amazon Redshift, è necessario utilizzare l'opzione REGION per specificare la regione in cui si trovano i dati.
-
Fase 7: esecuzione del comando COPY per il caricamento di dati
Da un database Amazon Redshift, eseguire il comando COPY per caricare i dati in una tabella Amazon Redshift.