Caricamento di file di dati - Amazon Redshift

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Caricamento di file di dati

I file di dati di origine sono disponibili in diversi formati e utilizzano diversi algoritmi di compressione. Quando si caricano i dati con il comando COPY, Amazon Redshift carica tutti i file a cui fa riferimento il prefisso del bucket Amazon S3. Un prefisso è una stringa di caratteri all'inizio del nome della chiave dell'oggetto. Se il prefisso si riferisce a più file o file che possono essere divisi, Amazon Redshift carica i dati in parallelo, sfruttando l'architettura MPP di Amazon Redshift. Questo consente di suddividere il carico di lavoro tra i nodi del cluster. Quando tutti i dati vengono caricati da un singolo file che non è possibile dividere, Amazon Redshift viene forzato a eseguire un caricamento serializzato, che è molto più lento. Le sezioni seguenti descrivono il modo consigliato per caricare diversi tipi di file in Amazon Redshift, a seconda del formato e della compressione.

Caricamento di dati da file che possono essere divisi

I seguenti file possono essere divisi automaticamente quando i dati vengono caricati:

  • un file CSV non compresso

  • un file CSV compresso con BZIP

  • un file a colonne (Parquet/ORC)

Amazon Redshift divide automaticamente i file di almeno 128 MB o più grandi in blocchi. I file a colonne, in particolare Parquet e ORC, non vengono suddivisi se hanno dimensioni inferiori a 128 MB. Redshift utilizza le sezioni che lavorano in parallelo per caricare i dati. Ciò fornisce prestazioni di carico rapide.

Caricamento di dati da file che non possono essere divisi

I tipi di file come JSON o CSV, se compressi con altri algoritmi di compressione, come GZIP, non vengono divisi automaticamente. Per questi si consiglia di dividere manualmente i dati in più file più piccoli di dimensioni simili, da 1 MB a 1 GB dopo la compressione. Fare in modo, inoltre, che il numero di file sia un multiplo del numero di sezioni nel cluster. Per ulteriori informazioni su come suddividere i dati in più file e per esempi di caricamento dei dati con COPY, consulta Caricamento di dati da Amazon S3.