Pembuat aturan Kualitas Data - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pembuat aturan Kualitas Data

Dengan pembuat aturan Data Quality Definition Language (DQDL), Anda dapat membuat aturan kualitas data untuk mengevaluasi data Anda. Mulailah dengan memilih jenis aturan, lalu tentukan parameter di editor aturan. Editor aturan juga menunjukkan kesalahan dan peringatan apa pun saat Anda membuat aturan.

Panduan DQDL menyediakan dokumentasi komprehensif tentang cara membuat aturan menggunakan sintaks DQDL, tipe aturan bawaan, dan contoh.

Mengevaluasi node Kualitas Data

Saat Anda bekerja dengan node transformasi Evaluate Data Quality dan pembuat aturan DQDL, Anda dapat memperluas ruang kerja.

  • Untuk memperluas tab Transform untuk mengisi seluruh layar, pilih ikon perluas di sudut kanan atas panel detail simpul.

  • Untuk memperluas editor aturan DQDL, pilih ikon << untuk memperluas editor aturan dan menciutkan tab Rule types dan Schema.

    Tangkapan layar menunjukkan diagram pekerjaan dengan node Evaluate Data Quality.

Komponen

Ada 26 jenis aturan yang dibangun ke dalamAWS Glue Studio. Setiap jenis aturan memiliki deskripsi dan contoh bagaimana mereka dapat digunakan.

Jenis aturan kualitas data

AWS Glue Studiomenyediakan tipe aturan bawaan untuk kemudahan dalam membuat aturan. Untuk informasi selengkapnya tentang jenis aturan, lihat referensi tipe aturan DQDL.

Skema

Tab Skema menampilkan nama kolom dan tipe data dari node induk. Skema dari beberapa node ditampilkan. Anda dapat melihat skema input, mencari berdasarkan nama kolom, dan menyisipkan kolom ke editor aturan.

Tangkapan layar menunjukkan editor aturan dengan aturan lengkap yang menggunakan tipe aturan Kelengkapan.

Editor aturan

Editor aturan adalah editor teks tempat Anda dapat menulis dan mengedit aturan. Jika Anda memilih jenis aturan dari pembuat aturan DQDL, jenis aturan ditambahkan ke editor aturan. Anda kemudian dapat menentukan parameter, menambahkan aturan, dan mengedit aturan sesuai kebutuhan dengan memodifikasi teks. AWS Glue Studiomemvalidasi aturan di editor aturan dan menampilkan kesalahan dan peringatan jika ada.

Kesalahan dan peringatan

Jika aturan tidak mengikuti sintaks aturan DQDL, editor aturan menunjukkan beberapa indikator visual bahwa ada kesalahan:

  • Editor aturan menampilkan ikon kesalahan dan warna merah pada baris dengan kesalahan.

  • Editor aturan menampilkan jumlah kesalahan di sebelah ikon kesalahan merah.

  • Ketika Anda memilih baris dengan kesalahan, deskripsi kesalahan dan lokasi (baris dan kolom) ditampilkan di bagian bawah editor aturan.

Tangkapan layar menunjukkan editor aturan DQDL dengan indikator kesalahan pada baris 1 dan di bagian bawah editor aturan dengan jumlah kesalahan. Di bawah ini adalah deskripsi kesalahan.

Tindakan kualitas data

Secara default, tindakan ini tidak dipilih dan pekerjaan akan menyelesaikan jalannya bahkan jika aturan kualitas data gagal.

Pilih di antara tindakan berikut. Anda dapat menggunakan tindakan untuk mempublikasikan hasil CloudWatch atau menghentikan pekerjaan berdasarkan kriteria tertentu. Tindakan hanya tersedia setelah Anda membuat aturan.

  • Publikasikan hasil ke CloudWatch — Saat Anda menjalankan pekerjaan, tambahkan hasilnya ke CloudWatch.

  • Gagal pekerjaan ketika kualitas data gagal - Jika aturan kualitas data gagal, pekerjaan juga akan gagal sebagai hasilnya.

Output transformasi kualitas data

  • Data asli - Pilih untuk mengeluarkan data input asli. Opsi ini sangat ideal jika Anda ingin menghentikan pekerjaan ketika masalah kualitas terdeteksi.

  • Metrik kualitas data — Pilih untuk menampilkan aturan yang dikonfigurasi dan status lulus atau gagalnya. Opsi ini berguna jika Anda ingin mengambil tindakan khusus.

Pengaturan output kualitas data

Tetapkan lokasi hasil kualitas data dengan menentukan lokasi Amazon S3 sebagai target keluaran kualitas data.