Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Deteksi anomali dalam Kualitas Data AWS Glue
Insinyur mengelola ratusan pipa data secara bersamaan. Setiap pipeline dapat mengekstrak data dari berbagai sumber dan memuatnya ke dalam data lake atau repositori data lainnya. Untuk memastikan data berkualitas tinggi dikirimkan untuk pengambilan keputusan, mereka menetapkan aturan kualitas data. Aturan-aturan ini menilai data berdasarkan kriteria tetap yang mencerminkan keadaan bisnis saat ini. Namun, ketika lingkungan bisnis berubah, properti data bergeser, membuat kriteria tetap ini ketinggalan zaman dan menyebabkan kualitas data yang buruk.
Misalnya, seorang insinyur data di perusahaan ritel menetapkan aturan yang memvalidasi penjualan harian harus melebihi one-million-dollar ambang batas. Setelah beberapa bulan, penjualan harian melampaui dua juta dolar, membuat ambang batas usang. Insinyur data tidak dapat memperbarui aturan untuk mencerminkan ambang batas terbaru karena kurangnya pemberitahuan dan upaya yang diperlukan untuk menganalisis dan memperbarui aturan secara manual. Kemudian di bulan itu, pengguna bisnis melihat penurunan 25% dalam penjualan mereka. Setelah berjam-jam penyelidikan, para insinyur data menemukan bahwa ETL pipa yang bertanggung jawab untuk mengekstraksi data dari beberapa toko telah gagal tanpa menghasilkan kesalahan. Aturan dengan ambang batas yang sudah ketinggalan zaman terus beroperasi dengan sukses tanpa mendeteksi masalah ini.
Atau, peringatan proaktif yang dapat mendeteksi anomali ini dapat memungkinkan pengguna mendeteksi masalah ini. Selain itu, melacak musim dalam bisnis dapat menyoroti masalah kualitas data yang signifikan. Misalnya, penjualan ritel mungkin tertinggi pada akhir pekan dan selama musim liburan sementara relatif rendah pada hari kerja. Divergensi dari pola ini dapat mengindikasikan masalah kualitas data atau pergeseran dalam keadaan bisnis. Aturan kualitas data tidak dapat mendeteksi pola musiman karena ini memerlukan algoritme canggih yang dapat belajar dari pola masa lalu yang menangkap musiman untuk mendeteksi penyimpangan.
Akhirnya, pengguna merasa sulit untuk membuat dan memelihara aturan karena sifat teknis dari proses pembuatan aturan dan waktu yang diperlukan untuk menulisnya. Akibatnya, mereka lebih suka menjelajahi wawasan data terlebih dahulu sebelum menentukan aturan. Pelanggan membutuhkan kemampuan untuk menemukan anomali dengan mudah, memungkinkan mereka untuk secara proaktif mendeteksi masalah kualitas data dan membuat keputusan bisnis yang percaya diri.
Cara kerjanya
catatan
Deteksi anomali hanya didukung di Glue AWS . ETL Ini tidak didukung dalam kualitas data berbasis Katalog Data.
AWS Glue Data Quality menggabungkan kekuatan kualitas data berbasis aturan dan kemampuan deteksi anomali untuk menghasilkan data berkualitas tinggi. Untuk memulai, Anda harus terlebih dahulu mengkonfigurasi aturan dan penganalisis, dan kemudian mengaktifkan deteksi anomali.
Aturan
Aturan — Aturan menyatakan harapan untuk data Anda dalam bahasa terbuka yang disebut Data Quality Definition Language (DQDL). Contoh aturan ditunjukkan di bawah ini. Aturan ini akan berhasil ketika tidak ada kosong atau NULL nilai di kolom `penumpang _count`:
Rules = [ IsComplete "passenger_count" ]
Analisa
Dalam situasi di mana Anda mengetahui kolom kritis tetapi mungkin tidak cukup tahu tentang data untuk menulis aturan tertentu, Anda dapat memantau kolom tersebut menggunakan Analyzer. Analyzer adalah cara untuk mengumpulkan statistik data tanpa mendefinisikan aturan eksplisit. Contoh konfigurasi Analyzers ditunjukkan di bawah ini:
Analyzers = [ AllStatistics "fare_amount", DistinctValuesCount "pulocationid", RowCount ]
Dalam contoh ini, tiga Analyzer dikonfigurasi:
-
Analyzer pertama, `AllStatistics “fare_amount"`, akan menangkap semua statistik yang tersedia untuk bidang `fare_amount`.
-
Analyzer kedua, `DistinctValuesCount “pulocationid"`, akan menangkap jumlah nilai yang berbeda di kolom `pulocationid`.
-
Analyzer ketiga, `RowCount`, akan menangkap jumlah total catatan dalam dataset.
Analyzer berfungsi sebagai cara sederhana untuk mengumpulkan statistik data yang relevan tanpa menentukan aturan yang kompleks. Dengan memantau statistik ini, Anda dapat memperoleh wawasan tentang kualitas data dan mengidentifikasi potensi masalah atau anomali yang mungkin memerlukan penyelidikan lebih lanjut atau pembuatan aturan khusus.
Statistik data
Baik Analyzer dan Rules in AWS Glue Data Quality mengumpulkan statistik data, juga dikenal sebagai profil data. Statistik ini memberikan wawasan tentang karakteristik dan kualitas data Anda. Statistik yang dikumpulkan disimpan dari waktu ke waktu dalam layanan AWS Glue, memungkinkan Anda melacak dan menganalisis perubahan dalam profil data Anda.
Anda dapat dengan mudah mengambil statistik ini dan menuliskannya ke Amazon S3 untuk analisis lebih lanjut atau penyimpanan jangka panjang dengan menggunakan yang sesuai. APIs Fungsionalitas ini memungkinkan Anda untuk mengintegrasikan profil data ke dalam alur kerja pemrosesan data Anda dan memanfaatkan statistik yang dikumpulkan untuk berbagai tujuan, seperti pemantauan kualitas data, deteksi anomali.
Dengan menyimpan profil data di Amazon S3, Anda dapat memanfaatkan skalabilitas, daya tahan, dan efektivitas biaya layanan penyimpanan objek Amazon. Selain itu, Anda dapat memanfaatkan AWS layanan lain atau alat pihak ketiga untuk menganalisis dan memvisualisasikan profil data, memungkinkan Anda untuk mendapatkan wawasan yang lebih dalam tentang kualitas data Anda dan membuat keputusan berdasarkan informasi tentang manajemen dan tata kelola data.
Berikut adalah contoh statistik data yang disimpan dari waktu ke waktu.
catatan
AWS Glue Data Quality akan mengumpulkan statistik hanya sekali, bahkan jika Anda memiliki Rule dan Analyzer untuk kolom yang sama, membuat proses pembuatan statistik menjadi efisien.
Deteksi Anomali
AWS Glue Data Quality membutuhkan minimal tiga titik data untuk mendeteksi anomali. Ini menggunakan algoritma pembelajaran mesin untuk belajar dari tren masa lalu dan kemudian memprediksi nilai-nilai masa depan. Ketika nilai aktual tidak termasuk dalam kisaran yang diprediksi, AWS Glue Data Quality menciptakan Observasi Anomali. Ini memberikan representasi visual dari nilai aktual dan tren. Empat nilai ditampilkan pada grafik di bawah ini.
-
Statistik aktual dan trennya dari waktu ke waktu.
-
Tren turunan dengan belajar dari tren yang sebenarnya. Ini berguna untuk memahami arah tren.
-
Kemungkinan batas atas untuk statistik.
-
Kemungkinan batas bawah untuk statistik.
-
Aturan kualitas data yang direkomendasikan yang dapat mendeteksi masalah ini di masa depan.
Ada beberapa hal penting yang perlu diperhatikan mengenai Anomali:
-
Ketika anomali dihasilkan, skor kualitas data tidak terpengaruh.
-
Ketika anomali terdeteksi, itu dianggap normal untuk lari berikutnya. Algoritma pembelajaran mesin akan mempertimbangkan nilai anomali ini sebagai input kecuali secara eksplisit dikecualikan.
Pelatihan ulang
Melatih ulang model deteksi anomali sangat penting untuk mendeteksi anomali yang tepat. Ketika anomali terdeteksi, AWS Glue Data Quality memasukkan anomali dalam model sebagai nilai normal. Untuk memastikan deteksi anomali bekerja secara akurat, penting untuk memberikan umpan balik dengan mengakui atau menolak anomali. AWS Glue Data Quality menyediakan mekanisme baik di AWS Glue Studio maupun APIs untuk memberikan umpan balik kepada model. Untuk mengetahui lebih lanjut, lihat dokumentasi tentang pengaturan Deteksi Anomali di jaringan pipa AWS ETL Glue.
Detail algoritma Deteksi Anomali
-
Algoritma Deteksi Anomali memeriksa statistik data dari waktu ke waktu. Algoritma mempertimbangkan semua titik data yang tersedia dan mengabaikan statistik apa pun yang secara eksplisit dikecualikan.
-
Statistik data ini disimpan dalam layanan AWS Glue, dan Anda dapat memberikan AWS KMS kunci untuk mengenkripsi mereka. Lihat Panduan Keamanan tentang cara menyediakan AWS KMS kunci untuk mengenkripsi statistik Kualitas Data AWS Glue.
-
Komponen waktu sangat penting untuk algoritma Deteksi Anomali. Berdasarkan nilai masa lalu, AWS Glue Data Quality menentukan batas atas dan bawah. Selama penentuan ini, ia mempertimbangkan komponen waktu. Batas akan berbeda untuk nilai yang sama selama interval satu menit, interval per jam, atau interval harian.
Menangkap musiman
AWS Algoritma deteksi anomali Glue Data Quality dapat menangkap pola musiman. Misalnya, dapat dipahami bahwa pola hari kerja berbeda dari pola akhir pekan. Hal ini dapat dilihat pada contoh di bawah ini, di mana AWS Glue Data Quality mendeteksi tren musiman dalam nilai data. Anda tidak perlu melakukan sesuatu yang spesifik untuk mengaktifkan kemampuan ini. Seiring waktu, AWS Glue Data Quality mempelajari tren musiman dan mendeteksi anomali ketika pola-pola ini rusak.
Biaya
Anda akan dikenakan biaya berdasarkan waktu yang diperlukan untuk mendeteksi anomali. Setiap statistik dibebankan 1 DPU untuk waktu yang diperlukan untuk mendeteksi anomali. Lihat AWS Glue Pricing
Pertimbangan utama
Tidak ada biaya untuk menyimpan statistik. Namun, ada batas 100.000 statistik per akun. Statistik ini akan disimpan maksimal dua tahun.