Passaggio 4: caricare i dati da Amazon S3 ad Amazon Redshift - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Passaggio 4: caricare i dati da Amazon S3 ad Amazon Redshift

Dopo aver creato il cluster, puoi caricare dati da Amazon S3 nelle tabelle del database. Esistono diversi modi per caricare dati da Amazon S3.

  • È possibile utilizzare un SQL client per eseguire il SQL CREATE TABLE comando per creare una tabella nel database e quindi utilizzare il SQL COPY comando per caricare dati da Amazon S3. L'editor di query Amazon Redshift v2 è un client. SQL

  • Puoi utilizzare la procedura guidata di caricamento dell'editor di query di Amazon Redshift v2.

Questo tutorial dimostra innanzitutto come utilizzare l'editor di query Amazon Redshift v2 per SQL CREATE eseguire comandi su tabelle e dati. COPY Avvia Query editor v2 dal pannello di navigazione della console Amazon Redshift. All'interno di Query Editor v2, crea una connessione al examplecluster cluster e al database denominata dev con il nome dell'utente amministratore. awsuser Per questo tutorial scegli Credenziali temporanee che utilizzano un nome utente del database quando crei la connessione. Per informazioni dettagliate sull'uso dell'editor di query di Amazon Redshift v2, consulta Connessione a un database Amazon Redshift nella Amazon Redshift Management Guide.

Caricamento di dati da Amazon S3 tramite comandi SQL

Nel riquadro dell'editor di query v2, conferma di essere connesso al examplecluster cluster e dev al database. Quindi, crea tabelle nel database e carica i dati nelle tabelle. In questo tutorial, i dati che carichi sono disponibili in un bucket Amazon S3 accessibile da molti. Regioni AWS

La procedura seguente crea tabelle e carica dati da un bucket Amazon S3 pubblico.

Usa l'editor di query di Amazon Redshift v2 per copiare ed eseguire la seguente istruzione create table per creare una tabella nello public schema del database. dev Per ulteriori informazioni sulla sintassi, consulta CREATETABLEla Amazon Redshift Database Developer Guide.

Per creare e caricare dati utilizzando un SQL client come Query Editor v2
  1. Esegui il seguente SQL comando CREATE sulla sales tabella.

    drop table if exists sales; create table sales( salesid integer not null, listid integer not null distkey, sellerid integer not null, buyerid integer not null, eventid integer not null, dateid smallint not null sortkey, qtysold smallint not null, pricepaid decimal(8,2), commission decimal(8,2), saletime timestamp);
  2. Esegui il SQL comando seguente CREATE sulla date tabella.

    drop table if exists date; create table date( dateid smallint not null distkey sortkey, caldate date not null, day character(3) not null, week smallint not null, month character(5) not null, qtr character(5) not null, year smallint not null, holiday boolean default('N'));
  3. Carica la sales tabella da Amazon S3 utilizzando il COPY comando.

    Nota

    Consigliamo di utilizzare il COPY comando per caricare set di dati di grandi dimensioni in Amazon Redshift da Amazon S3. Per ulteriori informazioni sulla COPY sintassi, consulta COPYla Amazon Redshift Database Developer Guide.

    Per caricare i dati di esempio, è necessario fornire al cluster l'autenticazione per accedere ad Amazon S3 per tuo conto. Fornisci l'autenticazione facendo riferimento al IAM ruolo che hai creato e impostato come predefinito default per il cluster quando hai scelto Crea IAM ruolo come predefinito quando hai creato il cluster.

    Caricate la sales tabella utilizzando il SQL comando seguente. Facoltativamente, puoi scaricare e visualizzare da Amazon S3 i dati di origine per sales la tabella. .

    COPY sales FROM 's3://redshift-downloads/tickit/sales_tab.txt' DELIMITER '\t' TIMEFORMAT 'MM/DD/YYYY HH:MI:SS' REGION 'us-east-1' IAM_ROLE default;
  4. Caricate la date tabella utilizzando il SQL comando seguente. Facoltativamente, puoi scaricare e visualizzare da Amazon S3 i dati di origine per date la tabella. .

    COPY date FROM 's3://redshift-downloads/tickit/date2008_pipe.txt' DELIMITER '|' REGION 'us-east-1' IAM_ROLE default;

Caricamento di dati da Amazon S3 utilizzando l'editor di query v2

L'editor di query v2 semplifica il caricamento dei dati quando si utilizza la procedura guidata Load data. Il COPY comando generato e utilizzato nell'editor di query v2 Load data wizard supporta molti dei parametri disponibili nella sintassi del COPY comando per caricare dati da Amazon S3. Per informazioni sul COPY comando e sulle relative opzioni utilizzate per copiare il carico da Amazon S3, consulta Amazon Simple Storage Service nella COPY Amazon Redshift Database Developer Guide.

Per caricare i tuoi dati da Amazon S3 ad Amazon Redshift, Amazon Redshift richiede IAM un ruolo con i privilegi necessari per caricare i dati dal bucket Amazon S3 specificato.

Per questo tutorial, apri prima l'editor di query Amazon Redshift v2 e connettiti a un database. Quindi, crea la tabella che conterrà i dati caricati. Caricare quindi i tuoi dati da Amazon S3 ad Amazon Redshift. Per ulteriori informazioni su come lavorare con l'editor di query v2, consulta Caricamento dei dati in un database nella Amazon Redshift Management Guide.

Crea TICKIT dati nel tuo cluster

Puoi creare il set completo di TICKIT tabelle e caricare dati nel cluster nei seguenti modi:

  • Quando crei un cluster nella console Amazon Redshift, hai la possibilità di caricare TICKIT dati di esempio contemporaneamente. Sulla console Amazon Redshift, scegli Clusters, Crea cluster. Nella sezione Dati di esempio, seleziona Carica dati di esempio Amazon Redshift carica automaticamente il set di dati di esempio nel dev database del cluster Amazon Redshift durante la creazione del cluster.

  • Con Amazon Redshift Query Editor v2, puoi caricare TICKIT i dati in un database di esempio denominato sample_data_dev. Passa al database sample_data_dev, quindi a tickit e dal menu contestuale scegli Apri taccuini di esempio. Amazon Redshift Query Editor v2 crea il database di esempio insieme a un notebook di esempio denominato. tickit-sample-notebook Puoi eseguire questo notebook per interrogare i dati nel database di esempio.

Per visualizzare i dettagli sui TICKIT dati, consulta Database di esempio nella Amazon Redshift Database Developer Guide.