Menggabungkan set data - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggabungkan set data

Transformasi Join memungkinkan Anda untuk menggabungkan dua set data menjadi satu. Anda menentukan nama-nama kunci dalam skema dari setiap set data yang akan dibandingkan. Output DynamicFrame berisi baris di mana kunci memenuhi syarat penggabungan. Baris di setiap set data yang memenuhi syarat penggabungan digabungkan menjadi satu baris dalam output DynamicFrame yang berisi semua kolom yang ditemukan di salah satu set data.

Untuk menambahkan simpul transformasi Join ke diagram tugas Anda
  1. Jika hanya ada satu sumber data yang tersedia, maka Anda harus menambahkan simpul sumber data baru ke diagram tugas.

  2. Pilih salah satu simpul sumber untuk penggabungan. Buka panel Resource dan kemudian pilih Gabung untuk menambahkan transformasi baru ke diagram pekerjaan Anda.

  3. Pada tab Properti simpul, masukkan nama untuk simpul dalam diagram tugas.

  4. Pada tab Properti simpul, pada judul Simpul, tambahkan simpul induk sehingga ada dua set data yang menyediakan masukan untuk penggabungan. Induk dapat berupa simpul sumber data atau simpul transformasi.

    catatan

    Sebuah transformasi join hanya dapat memiliki dua simpul induk.

  5. Pilih tab Transformasi.

    Jika Anda melihat pesan yang menunjukkan bahwa ada nama kunci yang bertentangan, Anda dapat:

    • Pilih Selesaikan untuk secara otomatis menambahkan node ApplyMappingtransformasi ke diagram pekerjaan Anda. ApplyMapping Node menambahkan awalan ke kunci apa pun dalam kumpulan data yang memiliki nama yang sama dengan kunci di kumpulan data lainnya. Sebagai contoh, jika Anda menggunakan nilai default right, maka setiap kunci dalam set data kanan yang memiliki nama yang sama dengan kunci pada set data kiri akan diubah namanya menjadi (right)key name.

    • Secara manual, tambahkan simpul transformasi sebelumnya dalam diagram tugas untuk menghapus atau mengubah nama kunci yang bertentangan.

  6. Pilih jenis penggabungan dalam daftar Jenis penggabungan.

    • Penggabungan dalam: Mengembalikan baris dengan kolom dari kedua set data untuk setiap kecocokan berdasarkan syarat penggabungan. Baris yang tidak memenuhi syarat penggabungan tidak dikembalikan.

    • Penggabungan kiri: Semua baris dari set data kiri dan hanya baris dari set data kanan yang memenuhi syarat penggabungan.

    • Penggabungan kanan: Semua baris dari set data kanan dan hanya baris dari set data kiri yang memenuhi syarat penggabungan.

    • Penggabungan luar: Semua baris dari kedua set data.

    • Penggabungan semi kiri: Semua baris dari set data kiri yang memiliki kecocokan di set data kanan berdasarkan syarat penggabungan.

    • Penggabungan kebalikan kiri: Semua baris di set data kiri yang tidak memiliki kecocokan di set data kanan berdasarkan syarat penggabungan.

  7. Pada tab Transformasi, pada judul Syarat penggabungan, pilih Tambahkan syarat. Pilih kunci properti dari setiap set data yang akan dibandingkan. Kunci properti di sisi kiri operator perbandingan disebut sebagai set data kiri dan kunci properti di sebelah kanan disebut sebagai set data kanan.

    Untuk syarat penggabungan yang lebih kompleks, Anda dapat menambahkan kunci pencocokan tambahan dengan memilih Tambahkan syarat lebih dari sekali. Jika Anda secara tidak sengaja menambahkan sebuah syarat, Anda dapat memilih ikon hapus ( 
                An outline of a trash can
              ) untuk menghapusnya.

  8. (Opsional) Setelah mengkonfigurasi properti simpul transformasi, Anda dapat melihat skema yang telah diubah untuk data Anda dengan memilih tab Skema output di panel detail simpul. Pertama kali Anda memilih tab ini untuk setiap simpul dalam tugas Anda, Anda akan diminta untuk memberikan IAM role untuk mengakses data. Jika Anda belum menentukan IAM role pada tab Detail tugas, maka Anda akan diminta untuk memasukkan IAM role di sini.

  9. (Opsional) Setelah mengkonfigurasi properti simpul dan properti transformasi, Anda dapat melihat pratinjau set data yang diubah dengan memilih tab Pratinjau data di panel detail simpul. Pertama kali Anda memilih tab ini untuk setiap simpul dalam tugas Anda, Anda akan diminta untuk memberikan IAM role untuk mengakses data. Ada biaya yang terkait dengan penggunaan fitur ini, dan penagihan akan dimulai langsung setelah Anda memberikan IAM role.

Untuk contoh skema output penggabungan, pertimbangkan penggabungan antara dua set data dengan kunci properti berikut:

Left: {id, dept, hire_date, salary, employment_status} Right: {id, first_name, last_name, hire_date, title}

Penggabungan dikonfigurasi untuk mencocokkan berdasarkan kunci id dan hire_date menggunakan operator perbandingan =.

Karena kedua set data mengandung kunci id dan hire_date, Anda pilih Ubah untuk secara otomatis menambahkan prefiks right ke kunci dalam set data kanan.

Kunci dalam skema output akan:

{id, dept, hire_date, salary, employment_status, (right)id, first_name, last_name, (right)hire_date, title}