Menggunakan kueri SQL untuk mengubah data - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan kueri SQL untuk mengubah data

Anda dapat menggunakan transformasi SQL untuk menulis transformasi Anda sendiri dalam bentuk kueri SQL.

Sebuah simpul transformasi SQL dapat memiliki beberapa set data sebagai input, tetapi hanya menghasilkan set data tunggal sebagai output. Ia berisi bidang teks, di mana Anda memasukkan kueri Apache SparkSQL. Anda dapat menetapkan alias untuk setiap set data yang digunakan sebagai masukan, untuk membantu hanya kueri SQL. Untuk informasi lebih lanjut tentang sintaksis SQL, lihat dokumentasi Spark SQL.

catatan

Jika Anda menggunakan transformasi Spark SQL dengan sumber data yang terletak di VPC, tambahkan VPC endpoint AWS Glue ke VPC yang berisi sumber data. Untuk informasi selengkapnya tentang konfigurasi titik akhir pengembangan, lihat Menambah Titik Akhir Pengembangan, Menyiapkan Lingkungan Anda untuk Titik Akhir Pengembangan, dan Mengakses Titik Akhir Pengembangan Anda dalam Panduan Developer AWS Glue.

Untuk menggunakan simpul transformasi SQL ke diagram tugas Anda
  1. (Opsional) Tambahkan simpul transformasi ke diagram tugas, jika diperlukan. Pilih SQL Spark untuk jenis simpul.

  2. Pada tab Properti simpul, masukkan nama untuk simpul dalam diagram tugas. Jika sebuah simpul induk belum dipilih, atau jika Anda ingin beberapa masukan untuk transformasi SQL, pilih sebuah simpul dari Induk simpul yang akan digunakan sebagai sumber masukan untuk transformasi. Tambahkan simpul induk tambahan sesuai kebutuhan.

  3. Pilih tab Transformasi di panel detail simpul.

  4. Set data sumber untuk kueri SQL diidentifikasi berdasarkan nama yang Anda tentukan dalam bidang Nama untuk setiap simpul. Jika Anda tidak ingin menggunakan nama-nama ini, atau jika nama-nama tidak cocok untuk kueri SQL, maka Anda dapat mengaitkan nama untuk setiap set data. Konsol tersebut menyediakan alias default, seperti MyDataSource.

    Tangkapan layar menunjukkan diagram tugas simpul 3. Simpul pertama adalah simpul sumber S3 bernama "Ini adalah nama yang sangat panjang". Simpul kedua adalah simpul transformasi Kode SQL bernama "kueri SQL". Simpul ketiga adalah simpul target data S3 bernama "Revisi data penerbangan". Simpul kueri SQL dipilih dan tab Transformasi ditampilkan di panel detail simpul. Dalam panel tab Transformasi, bidang Sumber input menunjukkan satu entri, "Ini adalah nama yang sangat panjang". Bidang alias Spark SQL terkait menunjukkan "”. myDataSource Bidang blok Kode menunjukkan “pilih * dari myDataSource”.

    Sebagai contoh, jika induk simpul untuk simpul transformasi SQL bernama Rename Org PK field, Anda dapat mengaitkan nama org_table dengan set data ini. Alias ini kemudian dapat digunakan dalam kueri SQL sebagai ganti nama simpul.

  5. Dalam bidang entri teks pada judul Blok kode, tempel atau masukkan kueri SQL. Bidang teks menampilkan penyorotan sintaksis SQL dan saran kata kunci.

  6. Dengan simpul transformasi SQL yang sudah dipilih, pilih tab Skema output, dan kemudian pilih Edit. Berikan kolom dan tipe data yang menggambarkan bidang output kueri SQL.

    Tentukan skema menggunakan tindakan berikut di bagian Skema output pada halaman tersebut:

    • Untuk mengubah nama kolom, tempatkan kursor di kotak teks Kunci untuk kolom (juga disebut sebagai bidang atau kunci properti) dan masukkan nama baru.

    • Untuk mengubah tipe data untuk kolom, pilih tipe data baru untuk kolom tersebut dari daftar drop-down.

    • Untuk menambahkan kolom tingkat atas baru pada skema, pilih tombol Overflow ( A rectangle with an ellipsis (...) in the center ), dan kemudian pilih Tambah kunci akar. Kolom baru ditambahkan di bagian atas skema.

    • Untuk menghapus kolom dari skema, pilih ikon hapus ( An outline of a trash can ) di ujung kanan nama kunci.

  7. Setelah Anda selesai menentukan skema output, pilih Terapkan untuk menyimpan perubahan dan keluar dari editor skema. Jika Anda tidak ingin menyimpan perubahan, pilih Batalkan untuk mengedit editor skema.

  8. (Opsional) Setelah mengkonfigurasi properti simpul dan properti transformasi, Anda dapat melihat pratinjau set data yang diubah dengan memilih tab Pratinjau data di panel detail simpul. Pertama kali Anda memilih tab ini untuk setiap simpul dalam tugas Anda, Anda akan diminta untuk memberikan IAM role untuk mengakses data. Ada biaya yang terkait dengan penggunaan fitur ini, dan penagihan akan dimulai langsung setelah Anda memberikan IAM role.