Mengevaluasi kualitas data untuk pekerjaan ETL di AWS Glue Studio - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengevaluasi kualitas data untuk pekerjaan ETL di AWS Glue Studio

Dalam tutorial ini, Anda memulai dengan Kualitas AWS Glue Data diAWS Glue Studio. Anda akan belajar cara:

  • Buat aturan menggunakan pembuat aturan Data Quality Definition Language (DQDL).

  • Tentukan tindakan kualitas data, data ke output, dan lokasi output dari hasil kualitas data.

  • Tinjau hasil kualitas data.

Untuk berlatih dengan contoh, tinjau posting blog Memulai dengan AWS Glue Data Quality untuk pipeline ETL.

Langkah 1: Tambahkan node transformasi Kualitas Data Evaluasi ke pekerjaan visual

Pada langkah ini, Anda menambahkan node Evaluate Data Quality ke editor pekerjaan visual.

Untuk menambahkan node kualitas data
  1. Di konsol AWS Glue Studio, pilih Visual dengan sumber dan target dari bagian Buat pekerjaan, lalu pilih Buat.

  2. Pilih node yang ingin Anda terapkan transformasi kualitas data. Biasanya, ini akan menjadi node transformasi atau sumber data.

  3. Buka panel sumber daya di sebelah kiri dengan memilih ikon “+”. Kemudian cari Evaluasi Kualitas Data di bilah pencarian dan pilih Evaluasi Kualitas Data dari hasil pencarian.

  4. Editor pekerjaan visual menampilkan Evaluate Data Quality transform node percabangan dari node yang Anda pilih. Di sisi kanan konsol, tab Transform dibuka secara otomatis. Jika Anda perlu mengubah node induk, pilih tab Properti Node, lalu pilih induk simpul dari menu tarik-turun.

    Ketika Anda memilih induk node baru, koneksi baru dibuat antara node induk dan node Evaluate Data Quality. Hapus semua node induk yang tidak diinginkan. Hanya satu node induk yang dapat dihubungkan ke satu node Evaluate Data Quality.

  5. Transformasi Evaluasi Kualitas Data mendukung beberapa orang tua sehingga Anda dapat memvalidasi aturan kualitas data di beberapa kumpulan data. Aturan yang mendukung beberapa kumpulan data termasuk ReferentialIntegrity,,, DatasetMatch SchemaMatch RowCountMatch, dan. AggregateMatch

    Saat Anda menambahkan beberapa input ke transformasi Evaluasi Kualitas Data, Anda harus memilih input “primer” Anda. Masukan utama Anda adalah kumpulan data yang ingin Anda validasi kualitas data. Semua node atau input lainnya diperlakukan sebagai referensi.

    Anda dapat menggunakan transformasi Evaluasi Kualitas Data untuk mengidentifikasi catatan tertentu yang gagal memeriksa kualitas data. Kami menyarankan Anda memilih kumpulan data utama karena kolom baru yang menandai catatan buruk ditambahkan ke kumpulan data utama.

  6. Anda dapat menentukan alias untuk sumber data input. Alias menyediakan cara lain untuk mereferensikan sumber input saat Anda menggunakan ReferentialIntegrity aturan. Karena hanya satu sumber data yang dapat ditetapkan sebagai sumber utama, setiap sumber data tambahan yang Anda tambahkan akan memerlukan alias.

    Dalam contoh berikut, ReferentialIntegrity aturan menentukan sumber data input dengan nama alias dan melakukan one-to-one perbandingan dengan sumber data primer.

    Rules = [ ReferentialIntegrity “Aliasname.name” = 1 ]

Langkah 2: Buat aturan menggunakan DQDL

Pada langkah ini, Anda membuat aturan menggunakan DQDL. Untuk tutorial ini, Anda membuat aturan tunggal menggunakan tipe aturan Completeness. Jenis aturan ini memeriksa persentase nilai lengkap (non-null) dalam kolom terhadap ekspresi yang diberikan. Untuk informasi selengkapnya tentang penggunaan DQDL, lihat DQDL.

  1. Pada tab Transform, tambahkan tipe Rule dengan memilih tombol Insert. Ini menambahkan jenis aturan ke editor aturan, di mana Anda dapat memasukkan parameter untuk aturan.

    catatan

    Saat Anda mengedit aturan, pastikan aturan berada dalam tanda kurung dan aturan dipisahkan dengan koma. Misalnya, ekspresi aturan lengkap akan terlihat seperti berikut:

    Rules= [ Completeness "year">0.8, Completeness "month">0.8 ]

    Contoh ini menentukan parameter untuk kelengkapan untuk kolom bernama 'tahun' dan 'bulan'. Agar aturan dapat lulus, kolom ini harus lebih besar dari 80% 'lengkap', atau harus memiliki data di lebih dari 80% contoh untuk setiap kolom masing-masing.

    Dalam contoh ini, cari dan masukkan tipe aturan Kelengkapan. Ini menambahkan jenis aturan ke editor aturan. Jenis aturan ini memiliki sintaks berikut:Completeness <COL_NAME> <EXPRESSION>.

    Sebagian besar tipe aturan mengharuskan Anda memberikan ekspresi sebagai parameter untuk membuat respons Boolean. Untuk informasi selengkapnya tentang ekspresi DQDL yang didukung, lihat ekspresi DQDL. Selanjutnya, Anda akan menambahkan nama kolom.

  2. Di pembuat aturan DQDL, pilih tab Skema. Gunakan bilah pencarian untuk menemukan nama kolom dalam skema input. Skema input menampilkan nama kolom dan tipe data.

  3. Di editor aturan, klik di sebelah kanan jenis aturan untuk menyisipkan kursor tempat kolom akan dimasukkan. Bergantian, Anda dapat memasukkan nama kolom dalam aturan.

    Misalnya, dari daftar kolom dalam daftar skema input, pilih tombol Sisipkan di sebelah kolom (dalam contoh ini, tahun). Ini menambahkan kolom ke aturan.

  4. Kemudian, di editor aturan, tambahkan ekspresi untuk mengevaluasi aturan. Karena tipe aturan Completeness memeriksa persentase nilai lengkap (non-null) dalam kolom terhadap ekspresi yang diberikan, masukkan ekspresi seperti. > 0.8 Aturan ini memeriksa kolom jika lebih besar dari 80% nilai lengkap (non-null).

Langkah 3: Konfigurasikan output kualitas data

Setelah membuat aturan kualitas data, Anda dapat memilih opsi tambahan untuk menentukan output node kualitas data.

  1. Dalam output transformasi kualitas data, pilih dari opsi berikut:

    • Data asli - Pilih untuk mengeluarkan data input asli. Saat Anda memilih opsi ini, simpul anak baru “rowLevelOutcomes” ditambahkan ke pekerjaan. Skema cocok dengan skema kumpulan data utama yang diteruskan sebagai input ke transformasi. Opsi ini berguna jika Anda hanya ingin meneruskan data dan gagal dalam pekerjaan ketika masalah kualitas terjadi.

      Kasus penggunaan lainnya adalah ketika Anda ingin mendeteksi catatan buruk yang gagal memeriksa kualitas data. Untuk mendeteksi catatan buruk, pilih opsi Tambahkan kolom baru untuk menunjukkan kesalahan kualitas data. Tindakan ini menambahkan empat kolom baru ke skema transformasi “rowLevelOutcomes”.

      • DataQualityRulesPass(string array) - Menyediakan array aturan yang lulus pemeriksaan kualitas data.

      • DataQualityRulesFail(string array) - Menyediakan array aturan yang gagal pemeriksaan kualitas data.

      • DataQualityRulesSkip(string array) - Menyediakan array aturan yang dilewati. Aturan berikut tidak dapat mengidentifikasi catatan kesalahan karena diterapkan pada tingkat kumpulan data.

        • AggregateMatch

        • ColumnCount

        • ColumnExists

        • ColumnNamesMatchPattern

        • CustomSql

        • RowCount

        • RowCountMatch

        • StandardDeviation

        • Berarti

        • ColumnCorrelation

      • DataQualityEvaluationResult— Menyediakan status “Lulus” atau “Gagal” di tingkat baris. Perhatikan bahwa hasil keseluruhan Anda bisa GAGAL, tetapi catatan tertentu mungkin lolos. Misalnya, RowCount aturan mungkin gagal, tetapi semua aturan lain mungkin berhasil. Dalam kasus seperti itu, status bidang ini adalah 'Lulus'.

  2. Hasil kualitas data — Pilih untuk menampilkan aturan yang dikonfigurasi dan status lulus atau gagalnya. Opsi ini berguna jika Anda ingin menulis hasil Anda ke Amazon S3 atau database lainnya.

  3. Pengaturan keluaran kualitas data (Opsional) - Pilih pengaturan keluaran kualitas data untuk mengungkapkan bidang lokasi hasil kualitas data. Kemudian, pilih Browse untuk mencari lokasi Amazon S3 untuk ditetapkan sebagai target output kualitas data.

Langkah 4. Konfigurasikan tindakan kualitas data

Anda dapat menggunakan tindakan untuk mempublikasikan metrik ke CloudWatch atau menghentikan pekerjaan berdasarkan kriteria tertentu. Tindakan hanya tersedia setelah Anda membuat aturan. Saat Anda memilih opsi ini, metrik yang sama juga dipublikasikan keAmazon EventBridge. Anda dapat menggunakan opsi ini untuk membuat peringatan untuk pemberitahuan.

  • Pada kegagalan ruleset — Anda dapat memilih apa yang harus dilakukan jika kumpulan aturan gagal saat pekerjaan sedang berjalan. Jika Anda ingin pekerjaan gagal jika kualitas data gagal, pilih kapan pekerjaan harus gagal dengan memilih salah satu opsi berikut. Secara default, tindakan ini tidak dipilih, dan pekerjaan menyelesaikan operasinya meskipun aturan kualitas data gagal.

    • None - Jika Anda memilih None (default), pekerjaan tidak gagal dan terus berjalan meskipun ruleset gagal.

    • Gagal pekerjaan setelah memuat data ke target - Pekerjaan gagal dan tidak ada data yang disimpan. Untuk menyimpan hasil, pilih lokasi Amazon S3 di mana hasil kualitas data akan disimpan.

    • Gagal pekerjaan tanpa memuat ke data target - Opsi ini gagal pekerjaan segera ketika kesalahan kualitas data terjadi. Itu tidak memuat target data apa pun, termasuk hasil dari transformasi kualitas data.

Langkah 5: Lihat hasil kualitas data

Setelah menjalankan pekerjaan, lihat hasil kualitas data dengan memilih tab Kualitas data.

  1. Untuk setiap pekerjaan yang dijalankan, lihat hasil kualitas data. Setiap node menampilkan status kualitas data dan detail status. Pilih node untuk melihat semua aturan dan status setiap aturan.

  2. Pilih Unduh hasil untuk mengunduh file CSV yang berisi informasi tentang pekerjaan dan hasil kualitas data.

  3. Jika Anda memiliki lebih dari satu pekerjaan yang dijalankan dengan hasil kualitas data, Anda dapat memfilter hasil berdasarkan tanggal dan rentang waktu. Pilih Filter berdasarkan tanggal dan rentang waktu untuk memperluas jendela filter.

  4. Pilih rentang relatif atau rentang absolut. Untuk rentang absolut, gunakan kalender untuk memilih tanggal, dan masukkan nilai untuk waktu mulai dan waktu akhir. Setelah selesai, pilih Terapkan.