Caricamento dei dati in un database - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Caricamento dei dati in un database

Puoi utilizzare l'editor di query v2 per caricare i dati in un database in un cluster o un gruppo di lavoro di Amazon Redshift.

Caricamento di dati di esempio

L'editor di query v2 viene fornito con dati e notebook di esempio che possono essere caricati in un database di esempio e nello schema corrispondente.

Per caricare i dati di esempio, scegliere l'icona External associata ai dati di esempio che si desidera caricare. L'editor di query v2 carica quindi i dati in uno schema nel database sample_data_dev e crea una cartella di notebook salvati nella cartella Notebook.

Sono disponibili i seguenti set di dati di esempio.

tickit

Nella maggior parte degli esempi della documentazione di Amazon Redshift viene utilizzato un set di dati di esempio denominato tickit. Questi dati sono composti da sette tabelle: due tabelle di fatti e cinque di dimensioni. Quando si caricano questi dati, lo schema tickit viene aggiornato con i dati di esempio. Per informazioni sui dati tickit, consultare Database di esempio nella Guida per gli sviluppatori di database di Amazon Redshift.

tpch

Questi dati vengono utilizzati per un benchmark di supporto decisionale. Quando si caricano questi dati, lo schema tpch viene aggiornato con i dati di esempio. Per ulteriori informazioni sui dati tpch, consulta TPC-H.

tpcds

Questi dati vengono utilizzati per un benchmark di supporto decisionale. Quando si caricano questi dati, lo schema tpcds viene aggiornato con i dati di esempio. Per ulteriori informazioni sui dati tpcds, consulta TPC-DS.

Caricamento di dati da Amazon S3

È possibile caricare dati Amazon S3 in una tabella esistente o in una nuova tabella.

Per caricare i dati in una tabella esistente

Il comando COPIA viene utilizzato dall'editor di query v2 per caricare i dati da Amazon S3. Il comando COPY generato e utilizzato nell'editor di query v2 della procedura guidata Carica dati supporta molti dei parametri disponibili per la sintassi del comando COPY per caricare i dati da Amazon S3. Per informazioni sul comando COPIA e sulle opzioni utilizzate per copiare il caricamento da Amazon S3, consultare COPIA da Amazon Simple Storage Service nella Guida per sviluppatori di database Amazon Redshift.

  1. Confermare che la tabella sia già stata creata nel database in cui si desidera caricare i dati.

  2. Prima di continuare, verifica la connessione al database di destinazione nel pannello della visualizzazione ad albero dell'editor di query v2. È possibile creare una connessione utilizzando il menu contestuale (clic con il pulsante destro del mouse) al cluster o al gruppo di lavoro in cui verranno caricati i dati.

    Scegliere LoadCarica dati.

  3. Per Origine dati, scegli Carica dal bucket S3.

  4. In URI S3, scegliere Cerca S3 per cercare il bucket Amazon S3 che contiene i dati da caricare.

  5. Se il bucket Amazon S3 specificato non si trova nella Regione AWS stessa tabella di destinazione, scegli la posizione del file S3 Regione AWS in cui si trovano i dati.

  6. Scegliere Questo file è un file manifesto se il file Amazon S3 è in realtà un manifesto contenente più URI bucket Amazon S3.

  7. Scegliere il Formato del file per il file da caricare. I formati dati supportati sono CSV, JSON, DELIMITER, FIXEDWIDTH, SHAPEFILE, AVRO, PARQUET e ORC. A seconda del formato di file specificato, è possibile scegliere le rispettive Opzioni file. È possibile anche selezionare I dati sono crittografati se i dati sono crittografati e inserire l'Amazon Resource Name (ARN) della chiave KMS utilizzata per crittografare i dati.

    Se si sceglie CSV o DELIMITER, è anche possibile scegliere il Carattere delimitatore ed eventualmente l'opzione Ignora righe di intestazione se il numero di righe specificato rappresenta effettivamente nomi di colonna e non dati da caricare.

  8. Scegliere un metodo di compressione per comprimere il file. L'impostazione predefinita è nessuna compressione.

  9. (Facoltativo) Le Impostazioni avanzate supportano vari Parametri di conversione dei dati e Operazioni di caricamento. Inserisci queste informazioni secondo necessità per il tuo file.

    Per ulteriori informazioni sulla conversione dei dati e sui parametri di caricamento dei dati, consultare Parametri di conversione dei dati e Operazioni di caricamento dati nella Guida per gli sviluppatori di database di Amazon Redshift

  10. Seleziona Successivo.

  11. Scegli Carica tabella esistente.

  12. Conferma o scegli la posizione Target table (Tabella di destinazione) inclusi Cluster or workgroup (Cluster o gruppo di lavoro), Database, Schema e nome Table (Tabella) in cui vengono caricati i dati.

  13. Scegliere un ruolo IAM che dispone delle autorizzazioni necessarie per caricare i dati da Amazon S3.

  14. (Facoltativo) Scegli i nomi delle colonne per inserirli in Column mapping (Mappatura colonne) per mappare le colonne nell'ordine del file dei dati di input.

  15. Scegliere Caricare dati per avviare il caricamento dei dati.

    Al termine del caricamento, l'editor di query viene visualizzato con il comando COPIA generato e utilizzato per caricare i dati. Viene mostrato il Risultato di COPIA. In caso di esito positivo, è ora possibile utilizzare SQL per selezionare i dati dalla tabella caricata. Quando si verifica un errore, eseguire una query sulla visualizzazione di sistema STL_LOAD_ERRORS per ottenere ulteriori dettagli. Per informazioni sugli errori del comando COPIA, consultare STL_LOAD_ERRORS nella Guida per gli sviluppatori di database di Amazon Redshift.

Quando si caricano i dati in una nuova tabella, l'editor di query v2 crea prima la tabella nel database, quindi carica i dati come operazioni separate nello stesso flusso di lavoro.

Caricamento di dati in una nuova tabella

Il comando COPIA viene utilizzato dall'editor di query v2 per caricare i dati da Amazon S3. Il comando COPY generato e utilizzato nell'editor di query v2 della procedura guidata Carica dati supporta molti dei parametri disponibili per la sintassi del comando COPY per caricare i dati da Amazon S3. Per informazioni sul comando COPIA e sulle opzioni utilizzate per copiare il caricamento da Amazon S3, consultare COPIA da Amazon Simple Storage Service nella Guida per sviluppatori di database Amazon Redshift.

  1. Prima di continuare, verifica la connessione al database di destinazione nel pannello della visualizzazione ad albero dell'editor di query v2. È possibile creare una connessione utilizzando il menu contestuale (clic con il pulsante destro del mouse) al cluster o al gruppo di lavoro in cui verranno caricati i dati.

    Scegliere LoadCarica dati.

  2. Per Origine dati, scegli Carica dal bucket S3.

  3. In URI S3, scegliere Cerca S3 per cercare il bucket Amazon S3 che contiene i dati da caricare.

  4. Se il bucket Amazon S3 specificato non si trova nella Regione AWS stessa tabella di destinazione, scegli la posizione del file S3 Regione AWS in cui si trovano i dati.

  5. Scegliere Questo file è un file manifesto se il file Amazon S3 è in realtà un manifesto contenente più URI bucket Amazon S3.

  6. Scegliere il Formato del file per il file da caricare. I formati dati supportati sono CSV, JSON, DELIMITER, FIXEDWIDTH, SHAPEFILE, AVRO, PARQUET e ORC. A seconda del formato di file specificato, è possibile scegliere le rispettive Opzioni file. È possibile anche selezionare I dati sono crittografati se i dati sono crittografati e inserire l'Amazon Resource Name (ARN) della chiave KMS utilizzata per crittografare i dati.

    Se si sceglie CSV o DELIMITER, è anche possibile scegliere il Carattere delimitatore ed eventualmente l'opzione Ignora righe di intestazione se il numero di righe specificato rappresenta effettivamente nomi di colonna e non dati da caricare.

  7. Scegliere un metodo di compressione per comprimere il file. L'impostazione predefinita è nessuna compressione.

  8. (Facoltativo) Le Impostazioni avanzate supportano vari Parametri di conversione dei dati e Operazioni di caricamento. Inserisci queste informazioni secondo necessità per il tuo file.

    Per ulteriori informazioni sulla conversione dei dati e sui parametri di caricamento dei dati, consultare Parametri di conversione dei dati e Operazioni di caricamento dati nella Guida per gli sviluppatori di database di Amazon Redshift

  9. Seleziona Successivo.

  10. Scegli Carica nuova tabella.

    Le colonne della tabella sono dedotte dai dati di input. È possibile modificare la definizione dello schema della tabella aggiungendo colonne e dettagli della tabella. Per tornare allo schema della tabella dedotta dall'editor di query v2, scegli Ripristina i valori predefiniti.

  11. Conferma o scegli la posizione della Tabella di destinazione inclusi Cluster o gruppo di lavoro, Database e Schema in cui vengono caricati i dati. Inserisci un nome per la tabella da creare.

  12. Scegliere un ruolo IAM che dispone delle autorizzazioni necessarie per caricare i dati da Amazon S3.

  13. Scegli Crea tabella per creare la tabella utilizzando la definizione mostrata.

    Viene visualizzato un riepilogo della definizione della tabella. La tabella viene creata nel database. Per eliminare la tabella in un secondo momento, esegui un comando SQL DROP TABLE. Per ulteriori informazioni, consulta DROP TABLE nella Guida per gli sviluppatori di database di Amazon Redshift.

  14. Scegliere Caricare dati per avviare il caricamento dei dati.

    Al termine del caricamento, l'editor di query viene visualizzato con il comando COPIA generato e utilizzato per caricare i dati. Viene mostrato il Risultato di COPIA. In caso di esito positivo, è ora possibile utilizzare SQL per selezionare i dati dalla tabella caricata. Quando si verifica un errore, eseguire una query sulla visualizzazione di sistema STL_LOAD_ERRORS per ottenere ulteriori dettagli. Per informazioni sugli errori del comando COPIA, consultare STL_LOAD_ERRORS nella Guida per gli sviluppatori di database di Amazon Redshift.

Caricamento di dati da una configurazione di file e da un flusso di lavoro locali

È possibile caricare dati da un file locale in una tabella nuova o esistente.

Configurazione dell'amministratore per caricare dati da un file locale

L'amministratore dell'editor di query v2 deve specificare il bucket Amazon S3 comune nella finestra Account settings (Impostazioni account). Gli utenti dell'account devono essere configurati con le autorizzazioni appropriate.

  • Autorizzazioni IAM richieste: gli utenti che caricano dal file locale devono disporre delle autorizzazioni s3:ListBucket, s3:GetBucketLocation, s3:putObject, s3:getObject e s3:deleteObject. È possibile specificare optional-prefix per limitare l'uso correlato dell'editor di query v2 di questo bucket agli oggetti con questo prefisso. Puoi utilizzare questa opzione quando utilizzi lo stesso bucket Amazon S3 per usi diversi dall'editor di query v2. Per ulteriori informazioni su bucket e prefissi, consulta Gestione dell'accesso utente a cartelle specifiche nella Guida per l'utente di Amazon Simple Storage Service. Per garantire che l'accesso ai dati tra utenti non sia consentito, consigliamo all'amministratore dell'editor di query v2 di utilizzare una policy dei bucket Amazon S3 per limitare l'accesso agli oggetti in base all'aws:userid. L'esempio seguente consente autorizzazioni di Amazon S3 a un <staging-bucket-name> con accesso in lettura/scrittura solo agli oggetti Amazon S3 con aws:userid come prefisso.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetBucketLocation" ], "Resource": [ "arn:aws:s3:::<staging-bucket-name>" ] }, { "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::<staging-bucket-name>[/<optional-prefix>]/${aws:userid}/*" ] } ] }
  • Separazione dei dati: consigliamo agli utenti di non avere accesso ai dati degli altri utenti (anche solo per breve tempo). Il caricamento da un file locale utilizza il bucket temporaneo di Amazon S3 configurato dall'amministratore dell'editor di query v2. Configura la policy dei bucket per il bucket temporaneo per fornire la separazione dei dati tra gli utenti. L'esempio seguente mostra una policy del bucket che separa i dati tra gli utenti di <staging-bucket-name>.

    { "Version": "2012-10-17", "Statement": [ {"Sid": "userIdPolicy", "Effect": "Deny", "Principal": "*", "Action": ["s3:PutObject", "s3:GetObject", "s3:DeleteObject"], "NotResource": [ "arn:aws:s3:::<staging-bucket-name>[/<optional-prefix>]/${aws:userid}/*" ] } ] }

Caricamento di dati da un file locale

Caricamento di dati di un file locale in una tabella esistente

L'amministratore dell'editor di query v2 deve specificare il bucket Amazon S3 comune nella finestra Impostazioni account. L'editor di query v2 carica automaticamente il file locale in un bucket Amazon S3 comune utilizzato dall'account dell'utente, quindi utilizza il comando COPY per caricare i dati. Il comando COPY generato ed eseguito dalla finestra di caricamento del file locale dell'editor di query v2 supporta molti dei parametri disponibili per la sintassi del comando COPY da copiare da Amazon S3. Per informazioni sul comando COPY e sulle opzioni utilizzate per caricare i dati da Amazon S3, consulta COPY da Amazon S3 nella Guida per sviluppatori di database Amazon Redshift.

  1. Confermare che la tabella sia già stata creata nel database in cui si desidera caricare i dati.

  2. Verifica che si attiva la connessione al database di destinazione nel pannello della visualizzazione ad albero dell'editor di query v2. È possibile creare una connessione utilizzando il menu contestuale (clic con il pulsante destro del mouse) al cluster o al gruppo di lavoro in cui verranno caricati i dati.

  3. Scegliere LoadCarica dati.

  4. Per Data source (Origine dati), scegli Load from local file (Carica da file locale).

  5. Scegli Sfoglia per trovare il file che contiene i dati per Carica file. Per impostazione predefinita vengono visualizzati i file con estensione .csv, .avro .parquet e .orc, ma è possibile scegliere altri tipi di file. Il file può avere una dimensione massima di 100 MB.

  6. Scegliere il Formato del file per il file da caricare. I formati dati supportati sono CSV, JSON, DELIMITER, FIXEDWIDTH, SHAPEFILE, AVRO, PARQUET e ORC. A seconda del formato di file specificato, è possibile scegliere le rispettive Opzioni file. È possibile anche selezionare I dati sono crittografati se i dati sono crittografati e inserire l'Amazon Resource Name (ARN) della chiave KMS utilizzata per crittografare i dati.

    Se si sceglie CSV o DELIMITER, è anche possibile scegliere il Carattere delimitatore ed eventualmente l'opzione Ignora righe di intestazione se il numero di righe specificato rappresenta effettivamente nomi di colonna e non dati da caricare.

  7. (Facoltativo) Le Impostazioni avanzate supportano vari Parametri di conversione dei dati e Operazioni di caricamento. Inserisci queste informazioni secondo necessità per il tuo file.

    Per ulteriori informazioni sulla conversione dei dati e sui parametri di caricamento dei dati, consultare Parametri di conversione dei dati e Operazioni di caricamento dati nella Guida per gli sviluppatori di database di Amazon Redshift

  8. Seleziona Successivo.

  9. Scegli Carica tabella esistente.

  10. Conferma o scegli la posizione Target table (Tabella di destinazione) inclusi Cluster or workgroup (Cluster o gruppo di lavoro), Database, Schema e nome Table (Tabella) in cui vengono caricati i dati.

  11. (Facoltativo) Puoi scegliere i nomi delle colonne per inserirli in Column mapping (Mappatura colonne) per mappare le colonne nell'ordine del file dei dati di input.

  12. Scegliere Caricare dati per avviare il caricamento dei dati.

    Al termine del caricamento, viene visualizzato un messaggio che indica se il caricamento è andato a buon fine o meno. In caso di esito positivo, è ora possibile utilizzare SQL per selezionare i dati dalla tabella caricata. Quando si verifica un errore, eseguire una query sulla visualizzazione di sistema STL_LOAD_ERRORS per ottenere ulteriori dettagli. Per informazioni sugli errori del comando COPIA, consultare STL_LOAD_ERRORS nella Guida per gli sviluppatori di database di Amazon Redshift.

    Il modello del comando COPY utilizzato per caricare i dati viene visualizzato in Query history (Cronologia query). Questo modello di comando COPY mostra alcuni dei parametri utilizzati, ma non può essere eseguito direttamente in una scheda dell'editor. Per ulteriori informazioni sulla cronologia delle query, consulta Visualizzazione della cronologia delle query e delle schede.

Quando si caricano i dati in una nuova tabella, l'editor di query v2 crea prima la tabella nel database, quindi carica i dati come operazioni separate nello stesso flusso di lavoro.

Caricamento di dati di un file locale in una nuova tabella

L'amministratore dell'editor di query v2 deve specificare il bucket Amazon S3 comune nella finestra Account settings (Impostazioni account). Il file locale viene caricato automaticamente in un bucket Amazon S3 comune utilizzato dal tuo account, quindi l'editor di query v2 utilizza il comando COPY per caricare i dati. Il comando COPY generato ed eseguito dalla finestra di caricamento del file locale dell'editor di query v2 supporta molti dei parametri disponibili per la sintassi del comando COPY da copiare da Amazon S3. Per informazioni sul comando COPY e sulle opzioni utilizzate per caricare i dati da Amazon S3, consulta COPY da Amazon S3 nella Guida per sviluppatori di database Amazon Redshift.

  1. Verifica che si attiva la connessione al database di destinazione nel pannello della visualizzazione ad albero dell'editor di query v2. È possibile creare una connessione utilizzando il menu contestuale (clic con il pulsante destro del mouse) al cluster o al gruppo di lavoro in cui verranno caricati i dati.

  2. Scegliere LoadCarica dati.

  3. Per Data source (Origine dati), scegli Load from local file (Carica da file locale).

  4. Scegli Sfoglia per trovare il file che contiene i dati per Carica file. Per impostazione predefinita vengono visualizzati i file con estensione .csv, .avro .parquet e .orc, ma è possibile scegliere altri tipi di file. Il file può avere una dimensione massima di 100 MB.

  5. Scegliere il Formato del file per il file da caricare. I formati dati supportati sono CSV, JSON, DELIMITER, FIXEDWIDTH, SHAPEFILE, AVRO, PARQUET e ORC. A seconda del formato di file specificato, è possibile scegliere le rispettive Opzioni file. È possibile anche selezionare I dati sono crittografati se i dati sono crittografati e inserire l'Amazon Resource Name (ARN) della chiave KMS utilizzata per crittografare i dati.

    Se si sceglie CSV o DELIMITER, è anche possibile scegliere il Carattere delimitatore ed eventualmente l'opzione Ignora righe di intestazione se il numero di righe specificato rappresenta effettivamente nomi di colonna e non dati da caricare.

  6. (Facoltativo) Le Impostazioni avanzate supportano vari Parametri di conversione dei dati e Operazioni di caricamento. Inserisci queste informazioni secondo necessità per il tuo file.

    Per ulteriori informazioni sulla conversione dei dati e sui parametri di caricamento dei dati, consultare Parametri di conversione dei dati e Operazioni di caricamento dati nella Guida per gli sviluppatori di database di Amazon Redshift

  7. Seleziona Successivo.

  8. Scegli Carica nuova tabella.

  9. Conferma o scegli la posizione della Tabella di destinazione inclusi Cluster o gruppo di lavoro, Database e Schema in cui vengono caricati i dati. Inserisci un nome per la tabella da creare.

  10. Scegli Crea tabella per creare la tabella utilizzando la definizione mostrata.

    Viene visualizzato un riepilogo della definizione della tabella. La tabella viene creata nel database. Per eliminare la tabella in un secondo momento, esegui un comando SQL DROP TABLE. Per ulteriori informazioni, consulta DROP TABLE nella Guida per gli sviluppatori di database di Amazon Redshift.

  11. Scegliere Caricare dati per avviare il caricamento dei dati.

    Al termine del caricamento, viene visualizzato un messaggio che indica se il caricamento è andato a buon fine o meno. In caso di esito positivo, è ora possibile utilizzare SQL per selezionare i dati dalla tabella caricata. Quando si verifica un errore, eseguire una query sulla visualizzazione di sistema STL_LOAD_ERRORS per ottenere ulteriori dettagli. Per informazioni sugli errori del comando COPIA, consultare STL_LOAD_ERRORS nella Guida per gli sviluppatori di database di Amazon Redshift.

    Il modello del comando COPY utilizzato per caricare i dati viene visualizzato in Query history (Cronologia query). Questo modello di comando COPY mostra alcuni dei parametri utilizzati, ma non può essere eseguito direttamente in una scheda dell'editor. Per ulteriori informazioni sulla cronologia delle query, consulta Visualizzazione della cronologia delle query e delle schede.