Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Anda dapat menggunakan konektor dan koneksi untuk node sumber data dan node target data di AWS Glue Studio.
Topik
Membuat tugas yang menggunakan sebuah konektor untuk sumber data
Saat membuat sebuah tugas baru, Anda dapat memilih sebuah konektor untuk sumber data dan target data.
Untuk membuat sebuah tugas yang menggunakan konektor untuk sumber data atau target data
Masuk ke AWS Management Console dan buka AWS Glue Studio konsol di https://console.aws.amazon.com/gluestudio/
. -
Pada halaman Konektor, di daftar sumber daya Koneksi Anda, pilih koneksi yang ingin Anda gunakan dalam tugas Anda, dan kemudian pilih Buat tugas.
Atau, pada AWS Glue Studio Halaman pekerjaan, di bawah Buat pekerjaan, pilih Sumber dan target ditambahkan ke grafik. pada daftar drop-down Sumber, pilih konektor kustom yang ingin Anda gunakan dalam tugas Anda. Anda juga dapat memilih sebuah konektor untuk Target.
-
Pilih Buat untuk membuka editor tugas visual.
-
Konfigurasi simpul sumber data, seperti yang dijelaskan dalam Konfigurasi properti sumber untuk simpul yang menggunakan konektor.
-
Lanjutkan membuat tugas ETL Anda dengan menambahkan transformasi, penyimpanan data tambahan, dan target data, seperti yang dijelaskan dalam Memulai pekerjaan ETL visual di AWS Glue Studio.
-
Sesuaikan lingkungan eksekusi tugas dengan mengkonfigurasi properti tugas, seperti yang dijelaskan dalam Mengubah properti tugas.
-
Simpan dan jalankan tugas.
Konfigurasi properti sumber untuk simpul yang menggunakan konektor
Setelah Anda membuat sebuah tugas yang menggunakan sebuah konektor untuk sumber data, editor tugas visual akan menampilkan grafik tugas dengan simpul sumber data yang dikonfigurasi untuk konektor tersebut. Anda harus mengkonfigurasi properti sumber data untuk simpul tersebut.
Untuk mengkonfigurasi properti untuk simpul sumber data yang menggunakan sebuah konektor
-
Pilih simpul sumber data konektor dalam grafik tugas atau tambahkan sebuah simpul baru dan pilih konektor untuk Jenis Simpul. Kemudian, di sisi kanan, di panel detail simpul, pilih tab Properti sumber data, jika belum dipilih.
-
Di tab Properti sumber data, pilih koneksi yang ingin Anda gunakan untuk tugas ini.
Masukkan informasi tambahan yang diperlukan untuk masing-masing jenis koneksi:
-
Tipe masukan sumber data: Pilih untuk memberikan nama tabel atau kueri SQL sebagai sumber data. Tergantung pada pilihan Anda, Anda kemudian harus memberikan informasi tambahan berikut:
-
Nama tabel: Nama tabel di sumber data. Jika sumber data tidak menggunakan tabel istilah, maka berikan nama struktur data yang sesuai, seperti yang ditunjukkan oleh informasi penggunaan konektor kustom (yang tersedia di AWS Marketplace).
-
Predikat filter: Syarat klausul yang akan digunakan ketika membaca sumber data, mirip dengan klausul
WHERE
, yang digunakan untuk mengambil subset dari data. -
Kode kueri: Masukkan kueri SQL yang akan digunakan untuk mengambil set data tertentu dari sumber data. Contoh kueri SQL dasar adalah:
SELECT
column_list
FROMtable_name
WHEREwhere_clause
-
-
Skema: Karena AWS Glue Studio menggunakan informasi yang disimpan dalam koneksi untuk mengakses sumber data alih-alih mengambil informasi metadata dari tabel Katalog Data, Anda harus menyediakan metadata skema untuk sumber data. Pilih Tambahkan skema untuk membuka editor skema.
Untuk petunjuk tentang cara menggunakan editor skema, lihat Mengedit skema di simpul transformasi kustom.
-
Kolom partisi: (Opsional) Anda dapat memilih untuk melakukan partisi pada pembacaan data dengan memberikan nilai-nilai untuk Kolom partisi, Batas bawah, Batas atas, dan Jumlah partisi.
Nilai
lowerBound
danupperBound
digunakan untuk menentukan langkah partisi, bukan untuk menyaring baris dalam tabel. Semua baris dalam tabel dipartisi dan dikembalikan.catatan
Pemartisian kolom menambahkan syarat pemartisian tambahan untuk kueri yang digunakan untuk membaca data. Bila menggunakan sebuah kueri bukan nama sebuah tabel, maka Anda harus memvalidasi bahwa kueri bekerja dengan syarat pemartisian yang ditentukan. Sebagai contoh:
-
Jika format kueri Anda adalah
"SELECT col1 FROM table1"
, maka uji kueri dengan menambahkan klausulWHERE
pada akhir kueri yang menggunakan kolom partisi. -
Jika format kueri Anda adalah
"SELECT col1 FROM table1 WHERE col2=val"
, maka uji kueri dengan memperluas klausulWHERE
denganAND
dan ekspresi yang menggunakan kolom partisi.
-
-
Pengubahan jenis data: Jika sumber data menggunakan tipe data yang tidak tersedia di JDBC, gunakan bagian ini untuk menentukan bagaimana tipe data dari sumber data harus dikonversi ke dalam tipe data JDBC. Anda dapat menentukan hingga 50 konversi tipe data yang berbeda. Semua kolom dalam sumber data yang menggunakan tipe data yang sama akan dikonversi dengan cara yang sama.
Sebagai contoh, jika Anda memiliki tiga kolom di sumber data yang menggunakan tipe data
Float
, dan Anda menunjukkan bahwa tipe dataFloat
harus dikonversi ke tipe dataString
JDBC, maka semua tiga kolom yang menggunakan tipe dataFloat
itu akan dikonversi ke tipe dataString
. -
Kunci bookmark Job: Bantuan bookmark Job AWS Glue memelihara informasi negara dan mencegah pemrosesan ulang data lama. Tentukan satu lagi satu atau lebih kolom sebagai tombol bookmark. AWS Glue Studio menggunakan tombol bookmark untuk melacak data yang telah diproses selama menjalankan tugas ETL sebelumnya. Kolom apa pun yang Anda gunakan untuk kunci bookmark kustom harus secara ketat dan secara monoton meningkat atau menurun, namun kesenjangan diizinkan.
Jika Anda memasukkan beberapa kunci bookmark, maka kunci tersebut digabungkan untuk membentuk satu kunci gabungan. Kunci bookmark tugas gabungan tidak boleh berisi kolom duplikat. Jika Anda tidak menentukan tombol bookmark, AWS Glue Studio secara default menggunakan kunci primer sebagai kunci bookmark, asalkan kunci primer meningkat atau menurun secara berurutan (tanpa celah). Jika tabel tidak memiliki kunci primer, namun properti bookmark tugas diaktifkan, maka Anda harus menyediakan kunci bookmark tugas kustom. Jika tidak, pencarian kunci primer yang akan digunakan sebagai default akan gagal dan eksekusi tugas akan gagal.
Kunci bookmark tugas yang mengurutkan urutan: Pilih apakah nilai kunci secara berurutan meningkat atau menurun.
-
(Opsional) Setelah memberikan informasi yang diperlukan, Anda dapat melihat skema data yang dihasilkan untuk sumber data Anda dengan memilih tab Skema output di panel detail simpul. Skema yang ditampilkan pada tab ini digunakan oleh setiap simpul anak yang Anda tambahkan ke grafik tugas.
-
(Opsional) Setelah mengkonfigurasi properti simpul dan properti sumber data, Anda dapat melihat pratinjau set data dari sumber data Anda dengan memilih tab Pratinjau data di panel detail simpul. Pertama kali Anda memilih tab ini untuk setiap simpul dalam tugas Anda, Anda akan diminta untuk memberikan IAM role untuk mengakses data. Ada biaya yang terkait dengan penggunaan fitur ini, dan penagihan akan dimulai langsung setelah Anda memberikan IAM role.
Mengkonfigurasi properti target untuk simpul yang menggunakan konektor
Jika Anda menggunakan sebuah konektor untuk jenis target data, maka Anda harus mengkonfigurasi properti data target simpul.
Untuk mengkonfigurasi properti untuk simpul target data yang menggunakan sebuah konektor
-
Pilih simpul target data konektor dalam grafik tugas. Kemudian, di sisi kanan, di panel detail simpul, pilih tab Properti target data, jika belum dipilih.
-
Di tab Properti target data, pilih koneksi yang akan digunakan untuk menulis ke target.
Masukkan informasi tambahan yang diperlukan untuk masing-masing jenis koneksi:
-
Koneksi: Pilih koneksi yang akan digunakan dengan konektor Anda. Untuk informasi tentang cara membuat sebuah koneksi, lihat Membuat koneksi untuk konektor.
-
Nama tabel: Nama tabel di target data. Jika target data tidak menggunakan tabel istilah, maka berikan nama struktur data yang sesuai, seperti yang ditunjukkan oleh informasi penggunaan konektor kustom (yang tersedia di AWS Marketplace).
-
Ukuran Batch (Opsional): Masukkan jumlah baris atau catatan yang akan disisipkan dalam tabel target dalam satu operasi. Nilai default-nya adalah 1000 baris.
-
Setelah memberikan informasi yang diperlukan, Anda dapat melihat skema data yang dihasilkan untuk sumber data Anda dengan memilih tab Skema output di panel detail simpul.