Mengedit node transformasi data AWS Glue terkelola - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengedit node transformasi data AWS Glue terkelola

AWS Glue Studiomenyediakan dua jenis transformasi:

  • AWS Glue-native transforms - tersedia untuk semua pengguna dan dikelola oleh. AWS Glue

  • Transformasi visual khusus - memungkinkan Anda mengunggah transformasi Anda sendiri untuk digunakan AWS Glue Studio

AWS Gluenode transformasi data terkelola

AWS Glue Studio menyediakan serangkaian transformasi bawaan yang dapat Anda gunakan untuk memproses data Anda. Data Anda melewati dari satu simpul dalam diagram tugas ke simpul yang lain dalam struktur data yang disebut DynamicFrame, yang merupakan ekstensi untuk DataFrame Apache Spark SQL.

Dalam diagram pra-populasi untuk suatu pekerjaan, antara sumber data dan node target data adalah simpul transformasi Change Schema. Anda dapat mengkonfigurasi simpul transformasi ini untuk memodifikasi data Anda, atau Anda dapat menggunakan transformasi tambahan.

Transformasi bawaan berikut tersedia denganAWS Glue Studio:

  • ChangeSchema: Petakan kunci properti data di sumber data ke kunci properti data di target data. Anda dapat mengganti nama kunci, memodifikasi tipe data untuk kunci, dan memilih kunci mana yang akan dibuang dari set data.

  • SelectFields: Pilih kunci properti data yang ingin Anda simpan.

  • DropFields: Pilih kunci properti data yang ingin Anda jatuhkan.

  • RenameField: Ganti nama kunci properti data tunggal.

  • Spigot: Menulis sampel data ke sebuah bucket Amazon S3.

  • Join: Menggabungkan dua set data menjadi satu set data menggunakan frasa perbandingan pada kunci properti data tertentu. Anda dapat menggunakan join bagian dalam, luar, kiri, kanan, kiri semi, dan lawan kiri.

  • Union: Gabungkan baris dari lebih dari satu sumber data yang memiliki skema yang sama.

  • SplitFields: Pisahkan kunci properti data menjadi duaDynamicFrames. Output adalah sebuah kumpulan DynamicFrames: satu dengan kunci properti data yang dipilih, dan satu dengan kunci properti data yang tersisa.

  • SelectFromCollection: Pilih salah satu DynamicFrame dari koleksiDynamicFrames. Outputnya adalah DynamicFrame yang dipilih.

  • FillMissingValues: Temukan catatan dalam kumpulan data yang memiliki nilai yang hilang dan tambahkan bidang baru dengan nilai yang disarankan yang ditentukan oleh imputasi

  • Filter: Membagi set data menjadi dua, berdasarkan syarat filter.

  • Jatuhkan Bidang Null: Menghapus kolom dari kumpulan data jika semua nilai di kolom 'null'.

  • Jatuhkan Duplikat: Menghapus baris dari sumber data Anda dengan memilih untuk mencocokkan seluruh baris atau menentukan kunci.

  • SQL: Memasukkan kode SparkSQL ke bidang entri teks untuk menggunakan kueri SQL untuk mengubah data. Outputnya adalah satu DynamicFrame.

  • Agregat: Melakukan perhitungan (seperti rata-rata, jumlah, min, maks) pada bidang dan baris yang dipilih, dan membuat bidang baru dengan nilai yang baru dihitung.

  • Flatten: Ekstrak bidang di dalam struct ke bidang tingkat atas.

  • UUID: Tambahkan kolom dengan Universe Unique Identifier untuk setiap baris.

  • Identifier: Tambahkan kolom dengan pengidentifikasi numerik untuk setiap baris.

  • Ke stempel waktu: Ubah kolom menjadi tipe stempel waktu.

  • Format timestamp: Konversi kolom stempel waktu ke string yang diformat.

  • Transformasi Router Bersyarat: Terapkan beberapa kondisi ke data yang masuk. Setiap baris data yang masuk dievaluasi oleh kondisi filter grup dan diproses menjadi grup yang sesuai.

  • Transformasi Kolom Gabungan: Bangun kolom string baru menggunakan nilai kolom lain dengan spacer opsional.

  • Transformasi String Split: Memecah string menjadi array token menggunakan ekspresi reguler untuk menentukan bagaimana pemisahan dilakukan.

  • Array To Columns transform: Ekstrak beberapa atau semua elemen kolom tipe array ke kolom baru.

  • Tambahkan transformasi Timestamp Saat Ini: Tandai baris dengan waktu pemrosesan data. Ini berguna untuk tujuan audit atau untuk melacak latensi dalam pipa data.

  • Pivot Rows to Columns transform: Agregat kolom numerik dengan memutar nilai unik pada kolom terpilih yang menjadi kolom baru. Jika beberapa kolom dipilih, nilainya digabungkan untuk memberi nama kolom baru.

  • Unpivot Columns To Rows transform: Ubah kolom menjadi nilai kolom baru yang menghasilkan baris untuk setiap nilai unik.

  • Transformasi Pemrosesan Autobalance: Mendistribusikan kembali data dengan lebih baik di antara para pekerja. Ini berguna jika data tidak seimbang atau karena berasal dari sumber tidak memungkinkan pemrosesan paralel yang cukup di atasnya.

  • Transformasi Kolom Derived: Tentukan kolom baru berdasarkan rumus matematika atau ekspresi SQL di mana Anda dapat menggunakan kolom lain dalam data, serta konstanta dan literal.

  • Transformasi pencarian: Tambahkan kolom dari tabel katalog yang ditentukan saat kunci cocok dengan kolom pencarian yang ditentukan dalam data.

  • Explode Array atau Map Into Rows transform: Ekstrak nilai dari struktur bersarang menjadi baris individual yang lebih mudah dimanipulasi.

  • Transformasi pencocokan rekaman: Memanggil transformasi klasifikasi data pembelajaran mesin Record Matching yang ada.

  • Hapus baris null transform: Hapus dari baris dataset yang memiliki semua kolom sebagai null, atau kosong.

  • Mengurai transformasi kolom JSON: Parse kolom string yang berisi data JSON dan mengubahnya menjadi struct atau kolom array, tergantung apakah JSON adalah objek atau array, masing-masing.

  • Ekstrak transformasi jalur JSON: Ekstrak kolom baru dari kolom string JSON.

  • Ekstrak fragmen string dari ekspresi reguler: Ekstrak fragmen string menggunakan ekspresi reguler dan buat kolom baru darinya, atau beberapa kolom jika menggunakan grup regex.

  • Transformasi kustom: Masukkan kode ke bidang entri teks untuk menggunakan transformasi kustom. Outputnya adalah kumpulan DynamicFrames.