Deteksi anomali dalam Kualitas Data AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Deteksi anomali dalam Kualitas Data AWS Glue

catatan

AWS GlueKualitas Data tersedia dalam pratinjau di wilayah berikut:

  • AS Timur (Ohio, Virginia N.)

  • AS Barat (Oregon)

  • Asia Pasifik (Tokyo)

  • Eropa (Irlandia)

AWS GlueDeteksi anomali Kualitas Data menerapkan algoritma pembelajaran mesin (ML) pada statistik data dari waktu ke waktu untuk mendeteksi pola abnormal dan masalah kualitas data tersembunyi yang sulit dideteksi melalui aturan. Saat ini, deteksi anomali hanya tersedia untuk AWS Glue 4.0. Fitur ini saat ini hanya tersedia di AWS Glue Studio Visual ETL dan AWS Glue ETL. Kemampuan ini tidak berfungsi pada AWS Glue Studio Notebook, Katalog AWS Glue Data, Sesi AWS Glue Interaktif, dan Pratinjau AWS Glue Data.

Cara kerjanya

Saat mengevaluasi aturan Kualitas Data, AWS Glue menangkap statistik data yang diperlukan untuk menentukan apakah data sesuai dengan aturan. Misalnya, Kualitas Data akan menghitung jumlah nilai yang berbeda dalam kumpulan data, dan kemudian membandingkan nilai itu dengan harapan.

Mesin aturan Kualitas Data membandingkan nilai statistik dengan ambang batas yang ditentukan, dan mengevaluasi persyaratan kualitas Anda. Karena statistik ini dikumpulkan dari waktu ke waktu, Anda dapat mengaktifkan deteksi anomali pada pipa ETL Anda untuk membiarkan AWS Glue belajar dari statistik masa lalu dan melaporkan pola tersembunyi sebagai Pengamatan. Pengamatan adalah wawasan yang belum dikonfirmasi yang diidentifikasi oleh algoritma AWS Glue ML. Mereka datang dengan aturan Kualitas Data yang direkomendasikan yang dapat Anda terapkan pada kumpulan aturan Anda untuk memantau pola yang ditemukan. Kami merekomendasikan menjalankan pekerjaan dengan jadwal reguler (misalnya, setiap jam dan harian). Lari yang tidak teratur dapat menghasilkan wawasan yang buruk.

Tangkapan layar menunjukkan proses deteksi anomali kualitas data.

Menggunakan analyzer untuk memeriksa data Anda

Terkadang, Anda mungkin tidak punya waktu untuk membuat aturan kualitas data. Di sinilah penganalisis berguna. Analyzer adalah bagian dari aturan Anda dan sangat mudah untuk dikonfigurasi. Misalnya, Anda dapat menulis ini di set aturan Anda:

Analzyers = [ RowCount, Completeness “AllColumns” ]

Ini akan mengumpulkan statistik berikut:

  • Hitungan Baris untuk seluruh kumpulan data

  • Kelengkapan setiap kolom dalam dataset Anda

Kami merekomendasikan menggunakan Analyzers karena Anda tidak perlu khawatir tentang ambang batas. Anda dapat menjalankan pipeline data Anda dan setelah tiga kali berjalan, Kualitas AWS Glue Data akan mulai menghasilkan pengamatan dan rekomendasi aturan ketika melihat adanya anomali. Anda dapat meninjau pengamatan, statistik terkait dan dapat dengan mudah memasukkan rekomendasi aturan dalam kumpulan aturan Anda. Untuk memulai lihat Mengkonfigurasi deteksi Anomali dan menghasilkan wawasan . Perhatikan bahwa Analyzer tidak akan memengaruhi skor kualitas data Anda. Mereka menghasilkan statistik yang dapat dianalisis dari waktu ke waktu untuk menghasilkan pengamatan.

Menggunakan DetectAnomaly Aturan

Terkadang, Anda ingin pekerjaan Anda gagal ketika mendeteksi anomali. Untuk menerapkan batasan, Anda harus mengonfigurasi aturan. Analyzer tidak akan menghentikan pekerjaan. Sebaliknya, mereka akan mengumpulkan statistik dan menganalisis data. Mengkonfigurasi DetectAnomaly aturan di bagian aturan dari kumpulan aturan akan mengonfirmasi bahwa pemindaian DQ melaporkan pekerjaan telah gagal melewati semua aturan dalam pemindaian.

Manfaat dan penggunaan kasus Deteksi Anomali

Insinyur dapat mengelola ratusan pipa data pada waktu tertentu. Setiap pipa dapat mengekstrak data dari sumber yang berbeda dan memuatnya ke danau data. Karena setiap pipeline mungkin mengekstrak data dari sumber yang berbeda dan memuatnya ke data lake, sulit untuk mendapatkan umpan balik langsung pada data — apakah bentuknya telah berubah secara signifikan, atau telah menyimpang dari tren yang ada.

Di masa lalu, sumber data hulu telah berubah tanpa peringatan kepada tim rekayasa data, memperkenalkan hard-to-track “bug data” ke dalam proses ini. Dengan menambahkan node Kualitas Data ke pekerjaan, ini membuat hidup lebih mudah, karena pekerjaan gagal ketika masalah terlihat. Namun, ini tidak menghapus semua mode kegagalan yang dikhawatirkan tim data, yang membuat pintu tetap terbuka untuk bug data lain masuk.

Salah satu mode kegagalan adalah sekitar volume data. Ketika penyimpanan data perusahaan tumbuh dari waktu ke waktu, jumlah catatan yang dihasilkan oleh pipa data dapat tumbuh secara eksponensial. Setiap minggu, tim data mungkin perlu memperbarui pekerjaan ETL secara manual untuk meningkatkan setiap aturan Kualitas Data yang menetapkan batas jumlah baris yang dicerna.

Mode kegagalan lainnya adalah bahwa beberapa batas aturan kualitas data sangat luas untuk mengakomodasi fakta bahwa volume transaksi bervariasi berdasarkan hari dalam seminggu. Pada akhir pekan, hampir tidak ada transaksi, dan pada hari Senin ada sekitar tiga kali lebih banyak transaksi daripada pada hari kerja lainnya. Tim data memiliki dua opsi - menerapkan logika untuk mengubah aturan dengan cepat tergantung pada hari, atau menetapkan harapan yang sangat luas.

Akhirnya, tim data juga peduli dengan bug data yang kurang terdefinisi dengan baik. Model telah dilatih pada data dengan karakteristik tertentu, dan jika ini mulai miring dengan cara yang tidak terduga, tim ingin tahu. Misalnya, pada bulan Februari sebuah perusahaan dapat memperluas ke Montana, sehingga transaksi mulai berisi kode “MT” muncul lebih sering. Ini dapat mematahkan inferensi ML, dan sebagai hasilnya model secara salah memperkirakan bahwa setiap transaksi Montana adalah penipuan.

Di sinilah Deteksi anomali kualitas data dapat membantu memecahkan masalah ini. Beberapa manfaat deteksi anomali Kualitas Data meliputi:

  • Pemindaian data berdasarkan jadwal, berbasis peristiwa, atau manual.

  • Deteksi anomali yang dapat menjadi indikasi peristiwa yang tidak diinginkan, musiman, atau kelainan statistik.

  • Tawarkan Rekomendasi Aturan untuk mengambil tindakan pada pengamatan yang ditemukan oleh deteksi anomali Kualitas Data.

Ini berguna jika Anda:

  • ingin mendeteksi anomali pada data Anda secara otomatis tanpa perlu menulis aturan kualitas data.

  • ingin menangkap potensi masalah dalam data Anda yang tidak dapat ditemukan oleh aturan kualitas data saja.

  • ingin mengotomatiskan beberapa tugas yang berkembang dari waktu ke waktu, seperti membatasi jumlah baris yang dicerna untuk pemantauan kualitas data.