Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memuat data dari host jarak jauh
Anda dapat menggunakan perintah COPY untuk memuat data secara paralel dari satu atau lebih host jarak jauh, seperti instans Amazon EC2 atau komputer lain. COPY terhubung ke host jarak jauh menggunakan SSH dan menjalankan perintah pada host jarak jauh untuk menghasilkan output teks.
Host jarak jauh dapat berupa instans Amazon EC2 Linux atau komputer Unix atau Linux lain yang dikonfigurasi untuk menerima koneksi SSH. Panduan ini mengasumsikan host jarak jauh Anda adalah instans Amazon EC2. Di mana prosedurnya berbeda untuk komputer lain, panduan akan menunjukkan perbedaannya.
Amazon Redshift dapat terhubung ke beberapa host, dan dapat membuka beberapa koneksi SSH ke setiap host. Amazon Redshifts mengirimkan perintah unik melalui setiap koneksi untuk menghasilkan output teks ke output standar host, yang kemudian dibaca Amazon Redshift seperti halnya file teks.
Sebelum Anda mulai
Sebelum Anda mulai, Anda harus memiliki yang berikut:
-
Satu atau lebih mesin host, seperti instans Amazon EC2, yang dapat Anda sambungkan menggunakan SSH.
-
Sumber data pada host.
Anda akan memberikan perintah bahwa cluster Amazon Redshift akan berjalan pada host untuk menghasilkan output teks. Setelah cluster terhubung ke host, perintah COPY menjalankan perintah, membaca teks dari output standar host, dan memuat data secara paralel ke dalam tabel Amazon Redshift. Output teks harus dalam bentuk yang dapat dicerna oleh perintah COPY. Untuk informasi selengkapnya, lihat Mempersiapkan data masukan Anda
-
Akses ke host dari komputer Anda.
Untuk instans Amazon EC2, Anda akan menggunakan koneksi SSH untuk mengakses host. Anda harus mengakses host untuk menambahkan kunci publik klaster Amazon Redshift ke file kunci resmi host.
-
Cluster Amazon Redshift yang sedang berjalan.
Untuk informasi tentang cara meluncurkan klaster, lihat Panduan Memulai Amazon Redshift.
Memuat proses data
Bagian ini memandu Anda melalui proses memuat data dari host jarak jauh. Bagian berikut memberikan rincian yang harus Anda capai di setiap langkah.
-
Langkah 1: Ambil kunci publik cluster dan alamat IP node cluster
Kunci publik memungkinkan node cluster Amazon Redshift untuk membuat koneksi SSH ke host jarak jauh. Anda akan menggunakan alamat IP untuk setiap node cluster untuk mengonfigurasi grup keamanan host atau firewall untuk mengizinkan akses dari cluster Amazon Redshift Anda menggunakan alamat IP ini.
-
Langkah 2: Tambahkan kunci publik klaster Amazon Redshift ke file kunci resmi host
Anda menambahkan kunci publik klaster Amazon Redshift ke file kunci resmi host sehingga host akan mengenali cluster Amazon Redshift dan menerima koneksi SSH.
-
Langkah 3: Konfigurasikan host untuk menerima semua alamat IP cluster Amazon Redshift
Untuk Amazon EC2, ubah grup keamanan instans untuk menambahkan aturan input guna menerima alamat IP Amazon Redshift. Untuk host lain, modifikasi firewall sehingga node Amazon Redshift Anda dapat membuat koneksi SSH ke host jarak jauh.
-
Langkah 4: Dapatkan kunci publik untuk tuan rumah
Anda dapat secara opsional menentukan bahwa Amazon Redshift harus menggunakan kunci publik untuk mengidentifikasi host. Anda harus menemukan kunci publik dan menyalin teks ke file manifes Anda.
-
Manifes adalah file teks berformat JSON dengan detail yang dibutuhkan Amazon Redshift untuk terhubung ke host dan mengambil data.
-
Langkah 6: Unggah file manifes ke bucket Amazon S3
Amazon Redshift membaca manifes dan menggunakan informasi tersebut untuk terhubung ke host jarak jauh. Jika bucket Amazon S3 tidak berada di Wilayah yang sama dengan cluster Amazon Redshift Anda, Anda harus menggunakan REGION opsi untuk menentukan Wilayah tempat data berada.
-
Langkah 7: Jalankan perintah COPY untuk memuat data
Dari database Amazon Redshift, jalankan perintah COPY untuk memuat data ke dalam tabel Amazon Redshift.