Memulai dengan AWS Glue Data Quality untuk Data Catalog - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memulai dengan AWS Glue Data Quality untuk Data Catalog

Bagian memulai ini memberikan petunjuk untuk membantu Anda memulai AWS Glue Data Quality di AWS Glue konsol. Anda akan belajar cara menyelesaikan tugas-tugas penting seperti menghasilkan rekomendasi aturan kualitas data dan mengevaluasi kumpulan aturan terhadap data Anda.

Prasyarat

Sebelum Anda menggunakanAWS Glue Data Quality, Anda harus terbiasa menggunakan Data Catalog dan crawler diAWS Glue. DenganAWS Glue Data Quality, Anda dapat mengevaluasi kualitas untuk tabel dalam Data Catalog database. Anda juga memerlukan hal berikut:

  • Tabel di Data Catalog untuk mengevaluasi aturan kualitas data Anda terhadap.

  • Peran IAM untuk AWS Glue yang Anda berikan saat Anda membuat rekomendasi aturan atau menjalankan tugas kualitas data. Peran ini harus memiliki izin untuk mengakses sumber daya yang diperlukan berbagai AWS Glue Data Quality proses untuk dijalankan atas nama Anda. Sumber daya ini termasukAWS Glue, Amazon S3, dan. CloudWatch Untuk melihat contoh kebijakan yang menyertakan izin minimumAWS Glue Data Quality, lihatKebijakan contoh IAM.

    Untuk mempelajari lebih lanjut tentang peran IAMAWS Glue, lihat Membuat kebijakan IAM untuk AWS Glue layanan dan Membuat peran IAM untuk layanan. AWS Glue Anda juga dapat melihat daftar semua AWS Glue izin yang khusus untuk kualitas data di Otorisasi untuk AWS Glue Data Quality tindakan.

  • Database dengan setidaknya satu tabel yang berisi berbagai data. Tabel yang digunakan dalam tutorial ini diberi namayyz-tickets, dengan tabeltickets. Data ini adalah kumpulan informasi yang tersedia untuk umum dari Kota Toronto untuk kutipan parkir. Jika Anda membuat tabel Anda sendiri, pastikan bahwa itu diisi dengan berbagai data yang valid untuk mendapatkan set terbaik dari aturan yang direkomendasikan.

tep-by-step Contoh S

Untuk step-by-step contoh dengan kumpulan data sampel, lihat posting blog AWS Glue Data Quality.

Menghasilkan rekomendasi aturan

Rekomendasi aturan memudahkan untuk memulai dengan kualitas data tanpa menulis kode. Dengan AWS Glue Data Quality, Anda dapat menganalisis data Anda, mengidentifikasi aturan, dan membuat kumpulan aturan yang dapat Anda evaluasi dalam tugas kualitas data. Rekomendasi berjalan secara otomatis dihapus setelah 90 hari.

Untuk menghasilkan rekomendasi aturan kualitas data
  1. Buka konsol Glue AWS di https://console.aws.amazon.com/glue/.

  2. Pilih Tabel di panel navigasi. Kemudian pilih tabel yang ingin Anda hasilkan rekomendasi aturan kualitas data.

  3. Pada halaman detail tabel, pilih tab Kualitas data untuk mengakses aturan dan pengaturan Kualitas Data AWS Glue untuk tabel Anda.

  4. Pada tab Kualitas data, pilih Tambahkan aturan dan pantau kualitas data.

  5. Pada halaman pembuat Ruleset, peringatan di bagian atas halaman akan meminta Anda untuk memulai tugas rekomendasi jika tidak ada rekomendasi aturan yang berjalan.

  6. Pilih Rekomendasikan aturan untuk membuka modal dan memasukkan parameter Anda untuk tugas rekomendasi.

  7. Pilih peran IAM dengan akses ke AWS Glue. Peran ini harus memiliki izin untuk mengakses sumber daya yang diperlukan oleh berbagai proses AWS Glue Data Quality untuk dijalankan atas nama Anda.

  8. Setelah bidang selesai sesuai dengan preferensi Anda, pilih Rekomendasikan aturan untuk memulai tugas rekomendasi dijalankan. Jika rekomendasi berjalan atau selesai, Anda dapat mengelola proses Anda di peringatan ini. Anda mungkin perlu menyegarkan peringatan untuk melihat perubahan status. Tugas rekomendasi yang sudah selesai dan sedang berjalan muncul di halaman Riwayat Jalankan yang mencantumkan semua rekomendasi yang berjalan selama 90 hari terakhir.

Apa arti aturan yang direkomendasikan

AWSGlue Data Quality menghasilkan aturan berdasarkan data dari setiap kolom tabel input. Ini menggunakan aturan untuk mengidentifikasi batas-batas potensial di mana data dapat disaring untuk mempertahankan persyaratan kualitas. Daftar aturan yang dihasilkan berikut mencakup contoh yang berguna untuk memahami apa arti aturan dan apa yang mungkin mereka lakukan ketika diterapkan pada data Anda.

Untuk daftar lengkap tipe aturan Data Quality Definition Language (DQDL) yang dihasilkan, lihat referensi tipe aturan DQDL.

  • IsComplete "SET_FINE_AMOUNT"IsComplete—Aturan memverifikasi bahwa kolom diisi untuk setiap baris yang diberikan. Gunakan aturan ini untuk menandai kolom sebagai non-opsional dalam data.

  • Uniqueness "TICKET_NUMBER" > 0.95Uniqueness Aturan memverifikasi bahwa data dalam kolom memenuhi beberapa ambang keunikan. Dalam contoh ini, data yang mengisi setiap baris tertentu ditentukan paling banyak 95% identik dalam konten untuk semua baris lainnya, yang menunjukkan aturan ini. "TICKET_NUMBER"

  • ColumnValues "PROVINCE" in ["ON", "QC", "AB", "NY",...]ColumnValues Aturan mendefinisikan nilai yang valid untuk kolom, berdasarkan isi kolom yang ada. Dalam contoh ini, data untuk setiap baris adalah plat kode nomor 2 huruf untuk negara bagian atau provinsi.

  • ColumnLength "INFRACTION_DESCRIPTION" between 15 and 31ColumnLength Aturan memberlakukan pembatasan panjang pada data kolom. Aturan ini dihasilkan dari data sampel berdasarkan panjang minimum dan maksimum yang direkam untuk kolom string.

Rekomendasi aturan pemantauan

Saat rekomendasi aturan kualitas data berjalan, halaman Tambahkan aturan dan monitor kualitas data menampilkan informasi dan tindakan tambahan yang dapat Anda lakukan di bilah atas.

Saat rekomendasi aturan sedang berlangsung, Anda dapat memilih Stop run sebelum tugas rekomendasi selesai. Saat tugas sedang berlangsung, Anda akan melihat status, dalam proses, dan tanggal dan waktu saat proses dimulai.

Ketika rekomendasi aturan selesai, bilah rekomendasi aturan menampilkan jumlah aturan yang direkomendasikan, status rekomendasi terakhir yang dijalankan, dan tanggal serta stempel waktu saat selesai.

Anda dapat menambahkan aturan yang disarankan dengan memilih Sisipkan Rekomendasi Aturan. Untuk melihat aturan yang direkomendasikan sebelumnya, pilih tanggal tertentu. Untuk menjalankan rekomendasi baru, pilih Tindakan lainnya, lalu pilih Aturan yang disarankan.

Tetapkan pengaturan default dengan memilih Kelola pengaturan pengguna. Anda dapat mengatur jalur default Amazon S3 untuk menyimpan kumpulan aturan atau mengatur peran default untuk menjalankan Katalog Data.

Mengedit set aturan yang direkomendasikan

Karena Kualitas Data AWS Glue menghasilkan aturan berdasarkan data yang ada yang tersedia, Anda mungkin melihat beberapa aturan yang tidak terduga atau tidak diinginkan dalam saran otomatis. Untuk mendapatkan hasil maksimal dari aturan yang direkomendasikan, Anda perlu mengevaluasi dan memodifikasinya. Untuk langkah tutorial ini, Anda mengambil aturan yang dihasilkan pada langkah sebelumnya dan menyesuaikannya untuk menegakkan kualitas yang lebih ketat pada beberapa data. Anda juga melonggarkan aturan lain untuk memastikan bahwa data unik yang benar dapat ditambahkan nanti.

Edit kumpulan aturan yang disarankan
  1. Di konsol AWS Glue, pilih Katalog Data, lalu pilih tabel Database di panel navigasi. Pilih tabel tickets.

  2. Pada halaman detail tabel, pilih tab Kualitas data untuk mengakses aturan dan pengaturan Kualitas Data AWS Glue untuk tabel.

  3. Di bagian Rulesets, pilih ruleset yang dihasilkan di. Menghasilkan rekomendasi aturan

  4. Pilih Tindakan, lalu pilih Edit di jendela konsol. Editor ruleset dimuat di konsol. Ini termasuk panel pengeditan untuk aturan Anda dan referensi cepat untuk DQDL.

  5. 2Hapus baris skrip. Ini melonggarkan persyaratan bahwa ukuran database dibatasi dalam sejumlah baris tertentu. Setelah pengeditan, file Anda harus berisi yang berikut pada baris 1-3:

    Rules = [ IsComplete "TAG_NUMBER_MASKED", ColumnLength "TAG_NUMBER_MASKED" between 6 and 9,
  6. 25Hapus baris skrip. Ini melonggarkan persyaratan bahwa 96% dari provinsi yang tercatat adalah. ON Setelah pengeditan, file Anda harus berisi yang berikut dari baris 24 ke akhir kumpulan aturan:

    ColumnValues "PROVINCE" in ["ON", "QC", "AB", "NY", "AZ", "NS", "BC", "MI", "PQ", "MB", "PA", "FL", "SK", "NJ", "OH", "NB", "IL", "MA", "CA", "VA", "TX", "NF", "MD", "PE", "CT", "NC", "GA", "IN", "OR", "MN", "TN", "WI", "KY", "MO", "WA", "NH", "SC", "CO", "OK", "VT", "RI", "ME", "AL", "YT", "IA", "DE", "AR", "LA", "XX", "WV", "MT", "KS", "NT", "DC", "NV", "NE", "UT", "MS", "NM", "ID", "SD", "ND", "AK", "NU", "GO", "WY", "HI"], ColumnLength "PROVINCE" = 2 ]
  7. Ubah baris 14 menjadi berikut:

    IsComplete "TIME_OF_INFRACTION",

    Ini memperkuat persyaratan pada kolom dengan membatasi database hanya untuk tiket yang berisi waktu pelanggaran yang tercatat. Anda harus selalu menganggap tiket tanpa waktu pelanggaran yang tercatat sebagai data yang tidak valid dalam kumpulan data ini. Ini berbeda dari situasi di mana partisi atau transformasi mungkin lebih tepat untuk penggunaan data lebih lanjut atau inspeksi untuk menentukan aturan kualitas.

  8. Pilih Perbarui Aturan di bagian bawah halaman konsol.

Membuat ruleset baru

Kumpulan aturan adalah sekelompok aturan kualitas data yang Anda evaluasi terhadap data Anda. Di AWS Glue konsol, Anda dapat membuat aturan khusus menggunakan Data Quality Definition Language (DQDL).

Untuk membuat kumpulan aturan kualitas data
  1. Di konsol AWS Glue, pilih Katalog Data, pilih Database, lalu pilih Tabel di panel navigasi. Pilih tabeltickets.

  2. Buka tab Kualitas data.

  3. Di bagian Rulesets, pilih Create ruleset. Editor DQDL diluncurkan di konsol. Ini memiliki area teks untuk pengeditan langsung, dan referensi cepat untuk aturan DQDL dan skema tabel.

  4. Mulai menambahkan aturan ke area teks editor DQDL. Anda dapat menulis aturan langsung dari tutorial ini, atau menggunakan fitur pembuat aturan DQDL dari editor aturan kualitas data.

    catatan
    Cara menggunakan pembuat aturan DQDL
    1. Pilih jenis aturan dari daftar, dan pilih tanda plus untuk menyisipkan sintaks contoh ke panel editor.

    2. Tukarkan nama kolom placeholder dengan nama kolom Anda sendiri. Nama kolom dari tabel tersedia di tab Skema.

    3. Perbarui parameter ekspresi sesuai keinginan Anda. Untuk daftar lengkap ekspresi yang didukung DQDL, lihat. Ekspresi

    Sebagai contoh, aturan berikut adalah kendala untuk validasi data ticket_number kolom dalam tabel. tickets Untuk menambahkan aturan berikut, gunakan pembuat aturan DQDL atau langsung edit kumpulan aturan Anda:

    IsComplete "ticket_number", IsUnique "ticket_number", ColumnValues "ticket_number" > 9000000000
  5. Berikan nama untuk kumpulan aturan baru Anda di bidang nama Ruleset.

  6. Pilih Simpan ruleset.

Mengevaluasi kualitas data di beberapa kumpulan data

Anda dapat mengatur aturan kualitas data di beberapa kumpulan data menggunakan ReferentialIntegrity dan DatasetMatch kumpulan aturan. ReferentialIntegritymemeriksa untuk melihat apakah data dalam kumpulan data utama ada di kumpulan data lain.

Untuk menambahkan kumpulan data referensi, pilih tab Skema dan kemudian pilih Perbarui tabel referensi. Anda akan diminta untuk memilih database dan tabel. Anda dapat menambahkan tabel dan kemudian mengatur aturan kualitas data. Jenis aturan seperti AggregateMatch, RowCountMatch, ReferentialIntegrity, SchemaMatch, dan DatasetMatch mendukung kemampuan untuk melakukan pemeriksaan kualitas data di beberapa kumpulan data.

Menjalankan kumpulan aturan untuk mengevaluasi kualitas data

Saat Anda menjalankan tugas kualitas data, AWS Glue Data Quality mengevaluasi kumpulan aturan terhadap data Anda dan menghitung skor kualitas data. Skor ini mewakili persentase aturan kualitas data yang diteruskan untuk input.

Untuk menjalankan tugas kualitas data
  1. Di konsol AWS Glue, pilih Katalog Data, pilih Database, lalu pilih Tabel di panel navigasi. Pilih tabeltickets.

  2. Pilih tab Kualitas data.

  3. Dalam daftar Rulesets, pilih kumpulan aturan yang ingin Anda evaluasi terhadap tabel. Untuk langkah ini, sebaiknya gunakan kumpulan aturan yang sudah Anda tulis atau modifikasi daripada membuat aturan. Pilih Jalankan.

  4. Dalam modal, pilih peran IAM Anda. Peran ini harus memiliki izin untuk mengakses sumber daya yang diperlukan oleh berbagai proses AWS Glue Data Quality untuk dijalankan atas nama Anda. Anda dapat menyimpan peran IAM sebagai default atau memodifikasinya dengan membuka halaman Pengaturan Default.

  5. Di bawah Tindakan kualitas data, pilih apakah Anda ingin Menerbitkan metrik ke Amazon CloudWatch. Ketika opsi ini dipilih, AWS Glue Data Quality menerbitkan metrik yang menunjukkan jumlah aturan yang disahkan dan jumlah aturan yang gagal. Untuk mengambil tindakan pada metrik yang disimpan dengan cara ini, Anda dapat menggunakan CloudWatch alarm. Metrik kunci juga dipublikasikan Amazon EventBridge agar Anda dapat mengatur peringatan. Untuk informasi selengkapnya, lihat Menyiapkan peringatan, penerapan, dan penjadwalan.

  6. Di Run Frequency, pilih run on demand atau jadwalkan aturan. Saat Anda menjadwalkan kumpulan aturan, Anda akan diminta untuk nama tugas. Jadwal akan dibuat diAmazon EventBridge. Anda dapat mengedit jadwal Anda diAmazon EventBridge.

  7. Untuk menyimpan hasil kualitas data di Amazon S3, pilih lokasi hasil kualitas data. Peran IAM yang sebelumnya Anda pilih untuk tugas ini harus memiliki akses tulis ke lokasi ini.

  8. Di bawah Konfigurasi Tambahan, masukkan jumlah pekerja yang diminta yang ingin AWS Glue alokasikan untuk tugas kualitas data Anda.

  9. Anda dapat secara opsional mengatur filter di sumber data. Ini membantu Anda mengurangi data yang Anda baca. Anda juga dapat menggunakan filter untuk menjalankan validasi inkremental dengan memilih informasi partisi dan meneruskannya sebagai parameter melalui panggilan API. Untuk meningkatkan kinerja, Anda dapat memberikan predikat partisi.

  10. Pilih Jalankan. Anda akan melihat tugas baru Anda dalam daftar tugas kualitas data berjalan. Ketika kolom status Jalankan untuk tugas ditampilkan sebagai Selesai, Anda dapat melihat hasil skor kualitas. Anda mungkin perlu menyegarkan jendela konsol agar status diperbarui dengan benar.

  11. Untuk melihat kolom untuk detail hasil kualitas data, pilih ikon “+” untuk memperluas kumpulan aturan. Hasilnya menunjukkan kepada Anda aturan yang lulus dan gagal dalam evaluasi, dan apa yang memicu kegagalan aturan.

Melihat skor kualitas data dan hasil

Untuk melihat proses terbaru pada semua set aturan yang dibuat
  1. Di konsol AWS Glue, pilih Tabel di panel navigasi. Kemudian pilih tabel yang ingin Anda jalankan tugas kualitas data.

  2. Pilih tab Kualitas data.

  3. Snapshot kualitas data menunjukkan tren umum berjalan dari waktu ke waktu. 10 run terakhir di semua set aturan ditampilkan secara default. Untuk memfilter berdasarkan aturan, pilih yang diinginkan dari daftar dropdown. Jika ada kurang dari 10 run, semua proses selesai yang tersedia akan ditampilkan.

  4. Dalam tabel kualitas Data, setiap kumpulan aturan dengan proses terbarunya (jika ada) ditampilkan, bersama dengan skor. Memperluas ruleset menampilkan aturan yang ada di ruleset itu, bersama dengan hasil aturan untuk menjalankan itu.

Untuk melihat proses terbaru pada kumpulan aturan tertentu
  1. Di konsol AWS Glue, pilih Tabel di panel navigasi. Kemudian pilih tabel yang ingin Anda jalankan tugas kualitas data.

  2. Pilih tab Kualitas data.

  3. Dalam tabel kualitas data, pilih pada set aturan tertentu.

  4. Pada halaman Rincian Ruleset, pilih tab Run history.

    Semua evaluasi berjalan untuk kumpulan aturan khusus ini tercantum dalam tabel di dalam tab ini. Anda dapat melihat sejarah skor dan status lari.

  5. Untuk melihat informasi selengkapnya tentang proses tertentu, pilih Run ID untuk membuka halaman Evaluasi run details. Di halaman ini, Anda dapat melihat secara spesifik tentang proses dan detail lebih lanjut tentang status hasil aturan individu.