Operasi pemuatan data - Amazon Redshift

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Operasi pemuatan data

Kelola perilaku default operasi pemuatan untuk pemecahan masalah atau untuk mengurangi waktu muat dengan menentukan parameter berikut.

Parameter
COMPROWS numrows

Menentukan jumlah baris yang akan digunakan sebagai ukuran sampel untuk analisis kompresi. Analisis dijalankan pada baris dari setiap irisan data. Misalnya, jika Anda menentukan COMPROWS 1000000 (1.000.000) dan sistem berisi empat irisan total, tidak lebih dari 250.000 baris untuk setiap irisan dibaca dan dianalisis.

Jika COMPROWS tidak ditentukan, ukuran sampel default menjadi 100.000 untuk setiap irisan. Nilai COMPROWS lebih rendah dari default 100.000 baris untuk setiap irisan secara otomatis ditingkatkan ke nilai default. Namun, kompresi otomatis tidak akan terjadi jika jumlah data yang dimuat tidak cukup untuk menghasilkan sampel yang berarti.

Jika jumlah COMPROWS lebih besar dari jumlah baris dalam file input, perintah COPY masih melanjutkan dan menjalankan analisis kompresi pada semua baris yang tersedia. Rentang yang diterima untuk argumen ini adalah angka antara 1000 dan 2147483647 (2.147.483.647).

COMPUPDATE [PRESET | {ON | TRUE} | {OFF | FALSE}]

Mengontrol apakah pengkodean kompresi diterapkan secara otomatis selama COPY.

Ketika COMPUPDATE PRESET, perintah COPY memilih pengkodean kompresi untuk setiap kolom jika tabel target kosong; bahkan jika kolom sudah memiliki pengkodean selain RAW. Saat ini pengkodean kolom yang ditentukan dapat diganti. Pengkodean untuk setiap kolom didasarkan pada tipe data kolom. Tidak ada data yang diambil sampelnya. Amazon Redshift secara otomatis menetapkan pengkodean kompresi sebagai berikut:

  • Kolom yang didefinisikan sebagai kunci pengurutan diberi kompresi RAW.

  • Kolom yang didefinisikan sebagai tipe data BOOLEAN, REAL, atau DOUBLE PRECISION diberi kompresi RAW.

  • Kolom yang didefinisikan sebagai SMALLINT, INTEGER, BIGINT, DECIMAL, DATE, TIMESTAMP, atau TIMESTAMPTZ diberi kompresi AZ64.

  • Kolom yang didefinisikan sebagai CHAR atau VARCHAR diberi kompresi LZO.

Ketika COMPUPDATE dihilangkan, perintah COPY memilih pengkodean kompresi untuk setiap kolom hanya jika tabel target kosong dan Anda belum menentukan pengkodean (selain RAW) untuk salah satu kolom. Pengkodean untuk setiap kolom ditentukan oleh Amazon Redshift. Tidak ada data yang diambil sampelnya.

Ketika COMPUPDATE AKTIF (atau TRUE), atau COMPUPDATE ditentukan tanpa opsi, perintah COPY menerapkan kompresi otomatis jika tabel kosong; bahkan jika kolom tabel sudah memiliki pengkodean selain RAW. Saat ini pengkodean kolom yang ditentukan dapat diganti. Pengkodean untuk setiap kolom didasarkan pada analisis data sampel. Untuk informasi selengkapnya, lihat Memuat tabel dengan kompresi otomatis.

Ketika COMPUPDATE OFF (atau FALSE), kompresi otomatis dinonaktifkan. Pengkodean kolom tidak diubah.

Untuk informasi tentang tabel sistem untuk menganalisis kompresi, lihatSTL_ANALYZE_COMPRESSION.

IGNOREALLERRORS

Anda dapat menentukan opsi ini untuk mengabaikan semua kesalahan yang terjadi selama operasi pemuatan.

Anda tidak dapat menentukan opsi IGNOREALLERRORS jika Anda menentukan opsi MAXERROR. Anda tidak dapat menentukan opsi IGNOREALLERRORS untuk format kolumnar termasuk ORC dan Parket.

MAXERROR [AS] error_count

Jika beban mengembalikan jumlah kesalahan error_count atau lebih besar, beban gagal. Jika beban mengembalikan lebih sedikit kesalahan, itu berlanjut dan mengembalikan pesan INFO yang menyatakan jumlah baris yang tidak dapat dimuat. Gunakan parameter ini untuk memungkinkan pemuatan berlanjut ketika baris tertentu gagal dimuat ke dalam tabel karena kesalahan pemformatan atau ketidakkonsistenan lainnya dalam data.

Tetapkan nilai ini ke 0 atau 1 jika Anda ingin beban gagal segera setelah kesalahan pertama terjadi. Kata kunci AS adalah opsional. Nilai default MAXERROR adalah 0 dan batasnya adalah100000.

Jumlah aktual kesalahan yang dilaporkan mungkin lebih besar daripada MAXERROR yang ditentukan karena sifat paralel Amazon Redshift. Jika ada node di cluster Amazon Redshift yang mendeteksi bahwa MAXERROR telah terlampaui, setiap node melaporkan semua kesalahan yang dialaminya.

NOLOAD

Memeriksa validitas file data tanpa benar-benar memuat data. Gunakan parameter NOLOAD untuk memastikan bahwa file data Anda dimuat tanpa kesalahan sebelum menjalankan pemuatan data yang sebenarnya. Menjalankan COPY dengan parameter NOLOAD jauh lebih cepat daripada memuat data karena hanya mem-parsing file.

STATUPDATE [{ON | TRUE} | {OFF | FALSE}]

Mengatur komputasi otomatis dan penyegaran statistik pengoptimal di akhir perintah COPY yang berhasil. Secara default, jika parameter STATUPDATE tidak digunakan, statistik diperbarui secara otomatis jika tabel awalnya kosong.

Setiap kali memasukkan data ke dalam tabel nonempty secara signifikan mengubah ukuran tabel, kami sarankan memperbarui statistik baik dengan menjalankan MENGANALISA perintah atau dengan menggunakan argumen STATUPDATE ON.

Dengan STATUPDATE ON (atau TRUE), statistik diperbarui secara otomatis terlepas dari apakah tabel awalnya kosong. Jika STATUPDATE digunakan, pengguna saat ini harus pemilik tabel atau superuser. Jika STATUPDATE tidak ditentukan, hanya izin INSERT yang diperlukan.

Dengan STATUPDATE OFF (atau FALSE), statistik tidak pernah diperbarui.

Untuk informasi tambahan, lihat Menganalisis tabel.