Menggunakan Drop Duplikat - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Drop Duplikat

Transformasi Drop Duplicates menghapus baris dari sumber data Anda dengan memberi Anda dua opsi. Anda dapat memilih untuk menghapus baris duplikat yang benar-benar sama, atau Anda dapat memilih untuk memilih bidang yang cocok dan hanya menghapus baris tersebut berdasarkan bidang yang Anda pilih.

Misalnya, dalam kumpulan data ini, Anda memiliki baris duplikat di mana semua nilai di beberapa baris persis sama dengan baris lain, dan beberapa nilai dalam baris sama atau berbeda.

Baris Nama Email Umur Status Catatan
1 Sukacita sukacita @gmail 33 NY
2 Tim tim @gmail 45 OH
3 Mawar mawar @gmail 23 NJ
4 Tim tim @gmail 42 OH
5 Mawar mawar @gmail 23 NJ
6 Tim tim @gmail 42 OH ini adalah baris duplikat dan cocok sepenuhnya pada semua nilai sebagai baris #4
7 Mawar mawar @gmail 23 NJ Ini adalah baris duplikat dan cocok sepenuhnya pada semua nilai sebagai baris #5

Jika Anda memilih untuk mencocokkan seluruh baris, baris 6 dan 7 akan dihapus dari kumpulan data. Kumpulan data sekarang:

Baris Nama Email Umur Status
1 Sukacita sukacita @gmail 33 NY
2 Tim tim @gmail 45 OH
3 Mawar mawar @gmail 23 NJ
4 Tim tim @gmail 42 OH
5 Mawar mawar @gmail 23 NJ

Jika Anda memilih untuk menentukan kunci, Anda dapat memilih untuk menghapus baris yang cocok dengan 'nama' dan 'email'. Ini memberi Anda kontrol yang lebih baik tentang apa yang dimaksud dengan 'baris duplikat' untuk kumpulan data Anda. Dengan menentukan 'nama' dan 'email', kumpulan data sekarang:

Baris Nama Email Umur Status
1 Sukacita sukacita @gmail 33 NY
2 Tim tim @gmail 45 OH
3 Mawar mawar @gmail 23 NJ

Beberapa hal yang perlu diingat:

  • Agar baris dikenali sebagai duplikat, nilainya peka huruf besar. semua nilai dalam baris harus memiliki casing yang sama - ini berlaku untuk salah satu opsi yang Anda pilih (Cocokkan seluruh baris atau Tentukan kunci).

  • Semua nilai dibaca sebagai string.

  • Transformasi Drop Duplicates menggunakan perintah Spark DropDuplicates.

  • Saat menggunakan transformasi Drop Duplicates, baris pertama disimpan dan baris lainnya dijatuhkan.

  • Transformasi Drop Duplicates tidak mengubah skema kerangka data. Jika Anda memilih untuk menentukan kunci, semua bidang disimpan dalam kerangka data yang dihasilkan.