Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Menulis tugas dengan konektor kustom

Mode fokus
Menulis tugas dengan konektor kustom - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Anda dapat menggunakan konektor dan koneksi untuk node sumber data dan node target data di AWS Glue Studio.

Membuat tugas yang menggunakan sebuah konektor untuk sumber data

Saat membuat sebuah tugas baru, Anda dapat memilih sebuah konektor untuk sumber data dan target data.

Untuk membuat sebuah tugas yang menggunakan konektor untuk sumber data atau target data
  1. Masuk ke AWS Management Console dan buka AWS Glue Studio konsol di https://console.aws.amazon.com/gluestudio/.

  2. Pada halaman Konektor, di daftar sumber daya Koneksi Anda, pilih koneksi yang ingin Anda gunakan dalam tugas Anda, dan kemudian pilih Buat tugas.

    Atau, pada AWS Glue Studio Halaman pekerjaan, di bawah Buat pekerjaan, pilih Sumber dan target ditambahkan ke grafik. pada daftar drop-down Sumber, pilih konektor kustom yang ingin Anda gunakan dalam tugas Anda. Anda juga dapat memilih sebuah konektor untuk Target.

    Gambarnya adalah tangkapan lapar dari halaman Tugas, dengan daftar drop-down Sumber yang dipilih, yang menampilkan berbagai sumber data yang dapat dipilih untuk tugas, termasuk konektor.
  3. Pilih Buat untuk membuka editor tugas visual.

  4. Konfigurasi simpul sumber data, seperti yang dijelaskan dalam Konfigurasi properti sumber untuk simpul yang menggunakan konektor.

  5. Lanjutkan membuat tugas ETL Anda dengan menambahkan transformasi, penyimpanan data tambahan, dan target data, seperti yang dijelaskan dalam Memulai pekerjaan ETL visual di AWS Glue Studio.

  6. Sesuaikan lingkungan eksekusi tugas dengan mengkonfigurasi properti tugas, seperti yang dijelaskan dalam Mengubah properti tugas.

  7. Simpan dan jalankan tugas.

Konfigurasi properti sumber untuk simpul yang menggunakan konektor

Setelah Anda membuat sebuah tugas yang menggunakan sebuah konektor untuk sumber data, editor tugas visual akan menampilkan grafik tugas dengan simpul sumber data yang dikonfigurasi untuk konektor tersebut. Anda harus mengkonfigurasi properti sumber data untuk simpul tersebut.

Untuk mengkonfigurasi properti untuk simpul sumber data yang menggunakan sebuah konektor
  1. Pilih simpul sumber data konektor dalam grafik tugas atau tambahkan sebuah simpul baru dan pilih konektor untuk Jenis Simpul. Kemudian, di sisi kanan, di panel detail simpul, pilih tab Properti sumber data, jika belum dipilih.

    Gambar adalah tangkapan layar dari AWS Glue Studio halaman editor pekerjaan visual, dengan simpul sumber data yang dipilih dalam grafik. Tab Properti sumber data di sebelah kanan sudah dipilih. Bidang-bidang yang ditampilkan untuk properti sumber data adalah tombol Koneksi (daftar drop-down koneksi yang tersedia, diikuti dengan tombol Refresh) dan tombol Tambahkan skema. Bagian pilihan Koneksi tambahan ditampilkan dalam status pilihan-pilihannya ditampilkan.
  2. Di tab Properti sumber data, pilih koneksi yang ingin Anda gunakan untuk tugas ini.

    Masukkan informasi tambahan yang diperlukan untuk masing-masing jenis koneksi:

    JDBC
    • Tipe masukan sumber data: Pilih untuk memberikan nama tabel atau kueri SQL sebagai sumber data. Tergantung pada pilihan Anda, Anda kemudian harus memberikan informasi tambahan berikut:

      • Nama tabel: Nama tabel di sumber data. Jika sumber data tidak menggunakan tabel istilah, maka berikan nama struktur data yang sesuai, seperti yang ditunjukkan oleh informasi penggunaan konektor kustom (yang tersedia di AWS Marketplace).

      • Predikat filter: Syarat klausul yang akan digunakan ketika membaca sumber data, mirip dengan klausul WHERE, yang digunakan untuk mengambil subset dari data.

      • Kode kueri: Masukkan kueri SQL yang akan digunakan untuk mengambil set data tertentu dari sumber data. Contoh kueri SQL dasar adalah:

        SELECT column_list FROM table_name WHERE where_clause
    • Skema: Karena AWS Glue Studio menggunakan informasi yang disimpan dalam koneksi untuk mengakses sumber data alih-alih mengambil informasi metadata dari tabel Katalog Data, Anda harus menyediakan metadata skema untuk sumber data. Pilih Tambahkan skema untuk membuka editor skema.

      Untuk petunjuk tentang cara menggunakan editor skema, lihat Mengedit skema di simpul transformasi kustom.

    • Kolom partisi: (Opsional) Anda dapat memilih untuk melakukan partisi pada pembacaan data dengan memberikan nilai-nilai untuk Kolom partisi, Batas bawah, Batas atas, dan Jumlah partisi.

      Nilai lowerBound dan upperBound digunakan untuk menentukan langkah partisi, bukan untuk menyaring baris dalam tabel. Semua baris dalam tabel dipartisi dan dikembalikan.

      catatan

      Pemartisian kolom menambahkan syarat pemartisian tambahan untuk kueri yang digunakan untuk membaca data. Bila menggunakan sebuah kueri bukan nama sebuah tabel, maka Anda harus memvalidasi bahwa kueri bekerja dengan syarat pemartisian yang ditentukan. Sebagai contoh:

      • Jika format kueri Anda adalah "SELECT col1 FROM table1", maka uji kueri dengan menambahkan klausul WHERE pada akhir kueri yang menggunakan kolom partisi.

      • Jika format kueri Anda adalah "SELECT col1 FROM table1 WHERE col2=val", maka uji kueri dengan memperluas klausul WHERE dengan AND dan ekspresi yang menggunakan kolom partisi.

    • Pengubahan jenis data: Jika sumber data menggunakan tipe data yang tidak tersedia di JDBC, gunakan bagian ini untuk menentukan bagaimana tipe data dari sumber data harus dikonversi ke dalam tipe data JDBC. Anda dapat menentukan hingga 50 konversi tipe data yang berbeda. Semua kolom dalam sumber data yang menggunakan tipe data yang sama akan dikonversi dengan cara yang sama.

      Sebagai contoh, jika Anda memiliki tiga kolom di sumber data yang menggunakan tipe data Float, dan Anda menunjukkan bahwa tipe data Float harus dikonversi ke tipe data String JDBC, maka semua tiga kolom yang menggunakan tipe data Float itu akan dikonversi ke tipe data String.

    • Kunci bookmark Job: Bantuan bookmark Job AWS Glue memelihara informasi negara dan mencegah pemrosesan ulang data lama. Tentukan satu lagi satu atau lebih kolom sebagai tombol bookmark. AWS Glue Studio menggunakan tombol bookmark untuk melacak data yang telah diproses selama menjalankan tugas ETL sebelumnya. Kolom apa pun yang Anda gunakan untuk kunci bookmark kustom harus secara ketat dan secara monoton meningkat atau menurun, namun kesenjangan diizinkan.

      Jika Anda memasukkan beberapa kunci bookmark, maka kunci tersebut digabungkan untuk membentuk satu kunci gabungan. Kunci bookmark tugas gabungan tidak boleh berisi kolom duplikat. Jika Anda tidak menentukan tombol bookmark, AWS Glue Studio secara default menggunakan kunci primer sebagai kunci bookmark, asalkan kunci primer meningkat atau menurun secara berurutan (tanpa celah). Jika tabel tidak memiliki kunci primer, namun properti bookmark tugas diaktifkan, maka Anda harus menyediakan kunci bookmark tugas kustom. Jika tidak, pencarian kunci primer yang akan digunakan sebagai default akan gagal dan eksekusi tugas akan gagal.

    • Kunci bookmark tugas yang mengurutkan urutan: Pilih apakah nilai kunci secara berurutan meningkat atau menurun.

    Spark
    • Skema: Karena AWS Glue Studio menggunakan informasi yang disimpan dalam koneksi untuk mengakses sumber data alih-alih mengambil informasi metadata dari tabel Katalog Data, Anda harus menyediakan metadata skema untuk sumber data. Pilih Tambahkan skema untuk membuka editor skema.

      Untuk petunjuk tentang cara menggunakan editor skema, lihat Mengedit skema di simpul transformasi kustom.

    • Opsi koneksi: Masukkan pasangan nilai-kunci tambahan yang diperlukan untuk memberikan informasi koneksi atau pilihan tambahan. Misalnya, Anda dapat memasukkan nama basis data, nama tabel, nama pengguna, dan kata sandi.

      Misalnya, untuk OpenSearch, Anda memasukkan pasangan kunci-nilai berikut, seperti yang dijelaskan dalam: Tutorial: Menggunakan AWS Glue Konektor untuk Elasticsearch

      • es.net.http.auth.user : username

      • es.net.http.auth.pass : password

      • es.nodes : https://<Elasticsearch endpoint>

      • es.port : 443

      • path: <Elasticsearch resource>

      • es.nodes.wan.only : true

    Untuk contoh opsi koneksi minimum yang akan digunakan, lihat contoh skrip pengujian MinimalSparkConnectorTest.scala aktif GitHub, yang menunjukkan opsi koneksi yang biasanya Anda berikan dalam koneksi.

    Athena
    • Nama tabel: Nama tabel di sumber data. Jika Anda menggunakan konektor untuk membaca dari Athena- CloudWatch log, Anda akan memasukkan nama tabel. all_log_streams

    • Nama skema Athena: Pilih skema di sumber data Athena Anda yang sesuai dengan basis data yang berisi tabel. Jika Anda menggunakan konektor untuk membaca dari Athena- CloudWatch log, Anda akan memasukkan nama skema yang mirip dengan. /aws/glue/name

    • Skema: Karena AWS Glue Studio menggunakan informasi yang disimpan dalam koneksi untuk mengakses sumber data alih-alih mengambil informasi metadata dari tabel Katalog Data, Anda harus menyediakan metadata skema untuk sumber data. Pilih Tambahkan skema untuk membuka editor skema.

      Untuk petunjuk tentang cara menggunakan editor skema, lihat Mengedit skema di simpul transformasi kustom.

    • Opsi koneksi tambahan: Masukkan pasangan nilai-kunci tambahan yang diperlukan untuk memberikan informasi koneksi atau pilihan tambahan.

    Sebagai contoh, lihat README.md file di https://github.com/aws-samples/aws-glue-samples/tree/master/GlueCustomConnectors/development/Athena. Dalam langkah-langkah dalam dokumen ini, kode sampel menunjukkan opsi koneksi minimal yang diperlukan, yakni tableName, schemaName, dan className. Contoh kode menentukan pilihan ini sebagai bagian dari variabel optionsMap, tetapi Anda dapat menentukan mereka untuk koneksi Anda dan kemudian menggunakan koneksi tersebut.

    • Tipe masukan sumber data: Pilih untuk memberikan nama tabel atau kueri SQL sebagai sumber data. Tergantung pada pilihan Anda, Anda kemudian harus memberikan informasi tambahan berikut:

      • Nama tabel: Nama tabel di sumber data. Jika sumber data tidak menggunakan tabel istilah, maka berikan nama struktur data yang sesuai, seperti yang ditunjukkan oleh informasi penggunaan konektor kustom (yang tersedia di AWS Marketplace).

      • Predikat filter: Syarat klausul yang akan digunakan ketika membaca sumber data, mirip dengan klausul WHERE, yang digunakan untuk mengambil subset dari data.

      • Kode kueri: Masukkan kueri SQL yang akan digunakan untuk mengambil set data tertentu dari sumber data. Contoh kueri SQL dasar adalah:

        SELECT column_list FROM table_name WHERE where_clause
    • Skema: Karena AWS Glue Studio menggunakan informasi yang disimpan dalam koneksi untuk mengakses sumber data alih-alih mengambil informasi metadata dari tabel Katalog Data, Anda harus menyediakan metadata skema untuk sumber data. Pilih Tambahkan skema untuk membuka editor skema.

      Untuk petunjuk tentang cara menggunakan editor skema, lihat Mengedit skema di simpul transformasi kustom.

    • Kolom partisi: (Opsional) Anda dapat memilih untuk melakukan partisi pada pembacaan data dengan memberikan nilai-nilai untuk Kolom partisi, Batas bawah, Batas atas, dan Jumlah partisi.

      Nilai lowerBound dan upperBound digunakan untuk menentukan langkah partisi, bukan untuk menyaring baris dalam tabel. Semua baris dalam tabel dipartisi dan dikembalikan.

      catatan

      Pemartisian kolom menambahkan syarat pemartisian tambahan untuk kueri yang digunakan untuk membaca data. Bila menggunakan sebuah kueri bukan nama sebuah tabel, maka Anda harus memvalidasi bahwa kueri bekerja dengan syarat pemartisian yang ditentukan. Sebagai contoh:

      • Jika format kueri Anda adalah "SELECT col1 FROM table1", maka uji kueri dengan menambahkan klausul WHERE pada akhir kueri yang menggunakan kolom partisi.

      • Jika format kueri Anda adalah "SELECT col1 FROM table1 WHERE col2=val", maka uji kueri dengan memperluas klausul WHERE dengan AND dan ekspresi yang menggunakan kolom partisi.

    • Pengubahan jenis data: Jika sumber data menggunakan tipe data yang tidak tersedia di JDBC, gunakan bagian ini untuk menentukan bagaimana tipe data dari sumber data harus dikonversi ke dalam tipe data JDBC. Anda dapat menentukan hingga 50 konversi tipe data yang berbeda. Semua kolom dalam sumber data yang menggunakan tipe data yang sama akan dikonversi dengan cara yang sama.

      Sebagai contoh, jika Anda memiliki tiga kolom di sumber data yang menggunakan tipe data Float, dan Anda menunjukkan bahwa tipe data Float harus dikonversi ke tipe data String JDBC, maka semua tiga kolom yang menggunakan tipe data Float itu akan dikonversi ke tipe data String.

    • Kunci bookmark Job: Bantuan bookmark Job AWS Glue memelihara informasi negara dan mencegah pemrosesan ulang data lama. Tentukan satu lagi satu atau lebih kolom sebagai tombol bookmark. AWS Glue Studio menggunakan tombol bookmark untuk melacak data yang telah diproses selama menjalankan tugas ETL sebelumnya. Kolom apa pun yang Anda gunakan untuk kunci bookmark kustom harus secara ketat dan secara monoton meningkat atau menurun, namun kesenjangan diizinkan.

      Jika Anda memasukkan beberapa kunci bookmark, maka kunci tersebut digabungkan untuk membentuk satu kunci gabungan. Kunci bookmark tugas gabungan tidak boleh berisi kolom duplikat. Jika Anda tidak menentukan tombol bookmark, AWS Glue Studio secara default menggunakan kunci primer sebagai kunci bookmark, asalkan kunci primer meningkat atau menurun secara berurutan (tanpa celah). Jika tabel tidak memiliki kunci primer, namun properti bookmark tugas diaktifkan, maka Anda harus menyediakan kunci bookmark tugas kustom. Jika tidak, pencarian kunci primer yang akan digunakan sebagai default akan gagal dan eksekusi tugas akan gagal.

    • Kunci bookmark tugas yang mengurutkan urutan: Pilih apakah nilai kunci secara berurutan meningkat atau menurun.

  3. (Opsional) Setelah memberikan informasi yang diperlukan, Anda dapat melihat skema data yang dihasilkan untuk sumber data Anda dengan memilih tab Skema output di panel detail simpul. Skema yang ditampilkan pada tab ini digunakan oleh setiap simpul anak yang Anda tambahkan ke grafik tugas.

  4. (Opsional) Setelah mengkonfigurasi properti simpul dan properti sumber data, Anda dapat melihat pratinjau set data dari sumber data Anda dengan memilih tab Pratinjau data di panel detail simpul. Pertama kali Anda memilih tab ini untuk setiap simpul dalam tugas Anda, Anda akan diminta untuk memberikan IAM role untuk mengakses data. Ada biaya yang terkait dengan penggunaan fitur ini, dan penagihan akan dimulai langsung setelah Anda memberikan IAM role.

Mengkonfigurasi properti target untuk simpul yang menggunakan konektor

Jika Anda menggunakan sebuah konektor untuk jenis target data, maka Anda harus mengkonfigurasi properti data target simpul.

Untuk mengkonfigurasi properti untuk simpul target data yang menggunakan sebuah konektor
  1. Pilih simpul target data konektor dalam grafik tugas. Kemudian, di sisi kanan, di panel detail simpul, pilih tab Properti target data, jika belum dipilih.

  2. Di tab Properti target data, pilih koneksi yang akan digunakan untuk menulis ke target.

    Masukkan informasi tambahan yang diperlukan untuk masing-masing jenis koneksi:

    JDBC
    • Koneksi: Pilih koneksi yang akan digunakan dengan konektor Anda. Untuk informasi tentang cara membuat sebuah koneksi, lihat Membuat koneksi untuk konektor.

    • Nama tabel: Nama tabel di target data. Jika target data tidak menggunakan tabel istilah, maka berikan nama struktur data yang sesuai, seperti yang ditunjukkan oleh informasi penggunaan konektor kustom (yang tersedia di AWS Marketplace).

    • Ukuran Batch (Opsional): Masukkan jumlah baris atau catatan yang akan disisipkan dalam tabel target dalam satu operasi. Nilai default-nya adalah 1000 baris.

    Spark
    • Koneksi: Pilih koneksi yang akan digunakan dengan konektor Anda. Jika Anda tidak membuat sebuah koneksi sebelumnya, pilih Buat koneksi untuk membuatnya. Untuk informasi tentang cara membuat sebuah koneksi, lihat Membuat koneksi untuk konektor.

    • Opsi koneksi: Masukkan pasangan nilai-kunci tambahan yang diperlukan untuk memberikan informasi koneksi atau pilihan tambahan. Anda dapat memasukkan sebuah nama basis data, nama tabel, nama pengguna, dan kata sandi.

      Misalnya, untuk OpenSearch, Anda memasukkan pasangan kunci-nilai berikut, seperti yang dijelaskan dalam: Tutorial: Menggunakan AWS Glue Konektor untuk Elasticsearch

      • es.net.http.auth.user : username

      • es.net.http.auth.pass : password

      • es.nodes : https://<Elasticsearch endpoint>

      • es.port : 443

      • path: <Elasticsearch resource>

      • es.nodes.wan.only : true

    Untuk contoh opsi koneksi minimum yang akan digunakan, lihat contoh skrip pengujian MinimalSparkConnectorTest.scala aktif GitHub, yang menunjukkan opsi koneksi yang biasanya Anda berikan dalam koneksi.

    • Koneksi: Pilih koneksi yang akan digunakan dengan konektor Anda. Untuk informasi tentang cara membuat sebuah koneksi, lihat Membuat koneksi untuk konektor.

    • Nama tabel: Nama tabel di target data. Jika target data tidak menggunakan tabel istilah, maka berikan nama struktur data yang sesuai, seperti yang ditunjukkan oleh informasi penggunaan konektor kustom (yang tersedia di AWS Marketplace).

    • Ukuran Batch (Opsional): Masukkan jumlah baris atau catatan yang akan disisipkan dalam tabel target dalam satu operasi. Nilai default-nya adalah 1000 baris.

  3. Setelah memberikan informasi yang diperlukan, Anda dapat melihat skema data yang dihasilkan untuk sumber data Anda dengan memilih tab Skema output di panel detail simpul.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.