Memuat data dari beberapa file terkompresi Memuat data dari file yang tidak terkompresi dan dibatasi

Memuat data dari file terkompresi dan tidak terkompresi

Saat Anda memuat data terkompresi, sebaiknya Anda membagi data untuk setiap tabel menjadi beberapa file. Saat Anda memuat data yang tidak terkompresi dan dibatasi, perintah COPY menggunakan pemrosesan paralel masif (MPP) dan rentang pemindaian untuk memuat data dari file besar di bucket Amazon S3.

Memuat data dari beberapa file terkompresi

Dalam kasus di mana Anda memiliki data terkompresi, kami sarankan Anda membagi data untuk setiap tabel menjadi beberapa file. Perintah COPY dapat memuat data dari beberapa file secara paralel. Anda dapat memuat beberapa file dengan menentukan awalan umum, atau kunci awalan, untuk set, atau dengan secara eksplisit mencantumkan file dalam file manifes.

Pisahkan data Anda menjadi file sehingga jumlah file adalah kelipatan dari jumlah irisan di cluster Anda. Dengan begitu, Amazon Redshift dapat membagi data secara merata di antara irisan. Jumlah irisan per node tergantung pada ukuran node cluster. Misalnya, setiap node komputasi dc2.large memiliki dua irisan, dan setiap node komputasi dc2.8xlarge memiliki 16 irisan. Untuk informasi selengkapnya tentang jumlah irisan yang dimiliki setiap ukuran node, lihat Tentang cluster dan node di Panduan Manajemen Pergeseran Merah Amazon.

Semua node berpartisipasi dalam menjalankan query paralel, bekerja pada data yang didistribusikan secara merata di seluruh irisan. Jika Anda memiliki cluster dengan dua node dc2.large, Anda dapat membagi data Anda menjadi empat file atau beberapa kelipatan empat. Amazon Redshift tidak memperhitungkan ukuran file saat membagi beban kerja. Dengan demikian, Anda perlu memastikan bahwa file berukuran kira-kira sama, dari 1 MB hingga 1 GB setelah kompresi.

Untuk menggunakan awalan objek untuk mengidentifikasi file beban, beri nama setiap file dengan awalan umum. Misalnya, Anda mungkin membagi venue.txt file mungkin dibagi menjadi empat file, sebagai berikut.


venue.txt.1
venue.txt.2
venue.txt.3
venue.txt.4

Jika Anda meletakkan beberapa file dalam folder di bucket Anda dan menentukan nama folder sebagai awalan, COPY memuat semua file dalam folder. Jika Anda secara eksplisit mencantumkan file yang akan dimuat menggunakan file manifes, file dapat berada di bucket atau folder yang berbeda.

Untuk informasi selengkapnya tentang file manifes, lihatExample: COPY from Amazon S3 using a manifest.

Memuat data dari file yang tidak terkompresi dan dibatasi

Saat Anda memuat data yang tidak terkompresi dan dibatasi, perintah COPY menggunakan arsitektur massively parallel processing (MPP) di Amazon Redshift. Amazon Redshift secara otomatis menggunakan irisan yang bekerja secara paralel untuk memuat rentang data dari file besar di bucket Amazon S3. File harus dibatasi agar pemuatan paralel terjadi. Misalnya, pipa dibatasi. Pemuatan data paralel otomatis dengan perintah COPY juga tersedia untuk file CSV. Anda juga dapat memanfaatkan pemrosesan paralel dengan mengatur kunci distribusi pada tabel Anda. Untuk informasi selengkapnya tentang kunci distribusi, lihatDistribusi data untuk optimasi kueri.

Pemuatan data paralel otomatis tidak didukung ketika kueri COPY menyertakan salah satu kata kunci berikut: ESCAPE, REMOVEQUOTES, dan FIXEDWIDTH.

Data dari file atau file dimuat ke dalam tabel target, satu baris per baris. Bidang dalam file data dicocokkan dengan kolom tabel secara berurutan, kiri ke kanan. Bidang dalam file data dapat dengan lebar tetap atau dibatasi karakter; pembatas default adalah pipa (|). Secara default, semua kolom tabel dimuat, tetapi Anda dapat secara opsional menentukan daftar kolom yang dipisahkan koma. Jika kolom tabel tidak disertakan dalam daftar kolom yang ditentukan dalam perintah COPY, kolom tersebut dimuat dengan nilai default. Untuk informasi selengkapnya, lihat Memuat nilai kolom default.

Ikuti proses umum ini untuk memuat data dari Amazon S3, saat data Anda tidak dikompresi dan dibatasi:

Unggah file Anda ke Amazon S3.
Jalankan perintah COPY untuk memuat tabel.
Verifikasi bahwa data dimuat dengan benar.

Untuk contoh perintah COPY, lihatContoh COPY. Untuk informasi tentang data yang dimuat ke Amazon Redshift, periksa tabel STL_LOAD_COMMIT dan STL_LOAD_ERRORS sistem.

Untuk informasi selengkapnya tentang node dan irisan yang terdapat di masing-masing node, lihat Tentang cluster dan node di Panduan Manajemen Pergeseran Merah Amazon.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Memuat data dari Amazon S3

Mengunggah file