Menggunakan SQL kueri untuk mengubah data - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan SQL kueri untuk mengubah data

Anda dapat menggunakan SQLtransformasi untuk menulis transformasi Anda sendiri dalam bentuk SQL kueri.

Node SQL transformasi dapat memiliki beberapa kumpulan data sebagai input, tetapi hanya menghasilkan satu set data sebagai output. Di berisi bidang teks, di mana Anda memasukkan kueri Apache SparkSQL. Anda dapat menetapkan alias untuk setiap dataset yang digunakan sebagai input, untuk membantu hanya kueri. SQL Untuk informasi selengkapnya tentang SQL sintaks, lihat dokumentasi Spark SQL.

catatan

Jika Anda menggunakan SQL transformasi Spark dengan sumber data yang terletak di aVPC, tambahkan AWS Glue VPC titik akhir ke VPC yang berisi sumber data. Untuk informasi selengkapnya tentang konfigurasi titik akhir pengembangan, lihat Menambah Titik Akhir Pengembangan, Menyiapkan Lingkungan Anda untuk Titik Akhir Pengembangan, dan Mengakses Titik Akhir Pengembangan Anda dalam Panduan Developer AWS Glue .

Untuk menggunakan node SQL transformasi dalam diagram pekerjaan Anda
  1. (Opsional) Tambahkan simpul transformasi ke diagram tugas, jika diperlukan. Pilih SQLQuery untuk tipe node.

    catatan

    Jika Anda menggunakan sesi pratinjau data dan simpul kode khusus SQL atau kustom, sesi pratinjau data akan mengeksekusi blok kode SQL atau apa adanya untuk seluruh kumpulan data.

  2. Pada tab Properti simpul, masukkan nama untuk simpul dalam diagram tugas. Jika induk node belum dipilih, atau jika Anda menginginkan beberapa input untuk SQL transformasi, pilih node dari daftar induk Node untuk digunakan sebagai sumber input untuk transformasi. Tambahkan simpul induk tambahan sesuai kebutuhan.

  3. Pilih tab Transformasi di panel detail simpul.

  4. Kumpulan data sumber untuk SQL kueri diidentifikasi oleh nama yang Anda tentukan di bidang Nama untuk setiap node. Jika Anda tidak ingin menggunakan nama-nama ini, atau jika nama tidak cocok untuk SQL kueri, Anda dapat mengaitkan nama ke setiap kumpulan data. Konsol tersebut menyediakan alias default, seperti MyDataSource.

    Misalnya, jika node induk untuk node SQL transformasi diberi namaRename Org PK field, Anda mungkin mengaitkan nama org_table dengan kumpulan data ini. Alias ini kemudian dapat digunakan dalam SQL query di tempat nama node.

  5. Di bidang entri teks di bawah judul Blok kode, tempel atau masukkan SQL kueri. Bidang teks menampilkan penyorotan SQL sintaks dan saran kata kunci.

  6. Dengan node SQL transformasi yang dipilih, pilih tab skema Output, lalu pilih Edit. Berikan kolom dan tipe data yang menggambarkan bidang keluaran SQL kueri.

    Tentukan skema menggunakan tindakan berikut di bagian Skema output pada halaman tersebut:

    • Untuk mengubah nama kolom, tempatkan kursor di kotak teks Kunci untuk kolom (juga disebut sebagai bidang atau kunci properti) dan masukkan nama baru.

    • Untuk mengubah tipe data untuk kolom, pilih tipe data baru untuk kolom tersebut dari daftar drop-down.

    • Untuk menambahkan kolom tingkat atas baru pada skema, pilih tombol Overflow ( A rectangle with an ellipsis (...) in the center ), dan kemudian pilih Tambah kunci akar. Kolom baru ditambahkan di bagian atas skema.

    • Untuk menghapus kolom dari skema, pilih ikon hapus ( An outline of a trash can ) di ujung kanan nama kunci.

  7. Setelah Anda selesai menentukan skema output, pilih Terapkan untuk menyimpan perubahan dan keluar dari editor skema. Jika Anda tidak ingin menyimpan perubahan, pilih Batalkan untuk mengedit editor skema.

  8. (Opsional) Setelah mengkonfigurasi properti simpul dan properti transformasi, Anda dapat melihat pratinjau set data yang diubah dengan memilih tab Pratinjau data di panel detail simpul. Pertama kali Anda memilih tab ini untuk setiap node dalam pekerjaan Anda, Anda diminta untuk memberikan IAM peran untuk mengakses data. Ada biaya yang terkait dengan penggunaan fitur ini, dan penagihan dimulai segera setelah Anda memberikan IAM peran.