Passaggio 4: caricare i dati da Amazon S3 ad Amazon Redshift - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Passaggio 4: caricare i dati da Amazon S3 ad Amazon Redshift

Dopo aver creato il cluster, puoi caricare dati da Amazon S3 nelle tabelle del database. Esistono diversi modi per caricare dati da Amazon S3.

  • È possibile utilizzare un client SQL per eseguire il comando SQL CREATE TABLE per creare una tabella nel database e quindi utilizzare il comando SQL COPY per caricare dati da Amazon S3. L'editor di query Amazon Redshift v2 è un client SQL.

  • Puoi utilizzare la procedura guidata di caricamento dell'editor di query di Amazon Redshift v2.

Questo tutorial dimostra innanzitutto come utilizzare l'editor di query Amazon Redshift v2 per eseguire comandi SQL per CREARE tabelle e COPIARE dati. Avvia Query editor v2 dal pannello di navigazione della console Amazon Redshift. All'interno di Query Editor v2, crea una connessione al examplecluster cluster e al database denominata dev con il nome dell'utente amministratore. awsuser Per questo tutorial scegli Credenziali temporanee che utilizzano un nome utente del database quando crei la connessione. Per informazioni dettagliate sull'uso dell'editor di query di Amazon Redshift v2, consulta Connessione a un database Amazon Redshift nella Amazon Redshift Management Guide.

Caricamento di dati da Amazon S3 tramite comandi SQL

Nel riquadro dell'editor di query v2, conferma di essere connesso al examplecluster cluster e dev al database. Quindi, crea tabelle nel database e carica i dati nelle tabelle. In questo tutorial, i dati che carichi sono disponibili in un bucket Amazon S3 accessibile da molti. Regioni AWS

La procedura seguente crea tabelle e carica dati da un bucket Amazon S3 pubblico.

Usa l'editor di query di Amazon Redshift v2 per copiare ed eseguire la seguente istruzione create table per creare una tabella nello public schema del database. dev Per ulteriori informazioni sulla sintassi, consultare CREATE TABLE nella Guida per gli sviluppatori di database di Amazon Redshift.

Per creare e caricare dati utilizzando un client SQL come Query Editor v2
  1. Esegui il seguente comando SQL per CREARE la sales tabella.

    drop table if exists sales; create table sales( salesid integer not null, listid integer not null distkey, sellerid integer not null, buyerid integer not null, eventid integer not null, dateid smallint not null sortkey, qtysold smallint not null, pricepaid decimal(8,2), commission decimal(8,2), saletime timestamp);
  2. Esegui il seguente comando SQL per CREARE la date tabella.

    drop table if exists date; create table date( dateid smallint not null distkey sortkey, caldate date not null, day character(3) not null, week smallint not null, month character(5) not null, qtr character(5) not null, year smallint not null, holiday boolean default('N'));
  3. Carica la sales tabella da Amazon S3 utilizzando il comando COPY.

    Nota

    Consigliamo di utilizzare il comando COPY per caricare set di dati di grandi dimensioni in Amazon Redshift da Amazon S3. Per ulteriori informazioni sulla sintassi di COPY, consultare COPY nella Guida per gli sviluppatori di database di Amazon Redshift.

    Per caricare i dati di esempio, è necessario fornire al cluster l'autenticazione per accedere ad Amazon S3 per tuo conto. Fornisci l'autenticazione facendo riferimento al ruolo IAM che hai creato e impostato come cluster quando hai scelto Crea ruolo IAM come predefinito quando hai creato il cluster. default

    Carica la sales tabella utilizzando il seguente comando SQL. Facoltativamente, puoi scaricare e visualizzare da Amazon S3 i dati di origine per sales la tabella. .

    COPY sales FROM 's3://redshift-downloads/tickit/sales_tab.txt' DELIMITER '\t' TIMEFORMAT 'MM/DD/YYYY HH:MI:SS' REGION 'us-east-1' IAM_ROLE default;
  4. Caricate la date tabella utilizzando il seguente comando SQL. Facoltativamente, puoi scaricare e visualizzare da Amazon S3 i dati di origine per date la tabella. .

    COPY date FROM 's3://redshift-downloads/tickit/date2008_pipe.txt' DELIMITER '|' REGION 'us-east-1' IAM_ROLE default;

Caricamento di dati da Amazon S3 utilizzando l'editor di query v2

L'editor di query v2 semplifica il caricamento dei dati quando si utilizza la procedura guidata Load data. Il comando COPY generato e utilizzato nell'editor di query v2 Load data wizard supporta molti dei parametri disponibili nella sintassi del comando COPY per caricare dati da Amazon S3. Per informazioni sul comando COPY e sulle opzioni utilizzate per copiare il caricamento da Amazon S3, consultare COPIA da Amazon Simple Storage Service nella Guida per sviluppatori di database Amazon Redshift.

Per caricare i tuoi dati da Amazon S3 ad Amazon Redshift, Amazon Redshift richiede un ruolo IAM con i privilegi necessari per caricare i dati dal bucket Amazon S3 specificato.

Per questo tutorial, apri prima l'editor di query Amazon Redshift v2 e connettiti a un database. Quindi, crea la tabella che conterrà i dati caricati. Caricare quindi i tuoi dati da Amazon S3 ad Amazon Redshift. Per ulteriori informazioni su come lavorare con l'editor di query v2, consulta Caricamento dei dati in un database nella Amazon Redshift Management Guide.

Crea dati TICKIT nel tuo cluster

Puoi creare il set completo di tabelle TICKIT e caricare i dati nel tuo cluster nei seguenti modi:

  • Quando crei un cluster nella console Amazon Redshift, hai la possibilità di caricare contemporaneamente dati TICKIT di esempio. Sulla console Amazon Redshift, scegli Clusters, Create cluster. Nella sezione Dati di esempio, seleziona Carica dati di esempio Amazon Redshift carica automaticamente il set di dati di esempio nel dev database del cluster Amazon Redshift durante la creazione del cluster.

  • Con Amazon Redshift Query Editor v2, puoi caricare i dati TICKIT in un database di esempio denominato sample_data_dev. Passa al database sample_data_dev, quindi a tickit e dal menu contestuale scegli Apri taccuini di esempio. Amazon Redshift Query Editor v2 crea il database di esempio insieme a un notebook di esempio denominato. tickit-sample-notebook Puoi eseguire questo notebook per interrogare i dati nel database di esempio.

Per visualizzare i dettagli sui dati TICKIT, consulta il database di esempio nella Amazon Redshift Database Developer Guide.