Mengkonfigurasi deteksi Anomali dan menghasilkan wawasan - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengkonfigurasi deteksi Anomali dan menghasilkan wawasan

AWS GlueKualitas Data (DQ) mengevaluasi data Anda berdasarkan aturan kualitas data yang Anda tulis dan memberikan wawasan dan pengamatan tentang data Anda dari waktu ke waktu sehingga Anda dapat mengambil tindakan segera. Karena DQ memindai data Anda, DQ menghitung metrik statistik seperti jumlah baris, maksimum atau minimum, dan kemudian membandingkannya dengan ekspresi ambang batas.

Beberapa manfaat deteksi anomali Kualitas Data meliputi:

  • pemindaian data otomatis terus menerus

  • deteksi anomali yang dapat menjadi indikasi peristiwa yang tidak diinginkan atau kelainan statistik

  • menawarkan Rekomendasi Aturan untuk mengambil tindakan pada pengamatan yang ditemukan oleh deteksi anomali Kualitas Data

Ini berguna jika Anda:

  • ingin mendeteksi anomali pada data Anda secara otomatis, tanpa perlu menulis kualitas data

  • ingin membuat profil data Anda dan melihat representasi visual seperti apa data itu

  • ingin melacak bagaimana data Anda berubah dari waktu ke waktu

Pengamatan apa yang dapat saya lihat tentang data saya?

DQ mengidentifikasi outlier dalam statistik data yang dikumpulkan, perubahan format data, penyimpangan data, dan perubahan skema. Berdasarkan pengamatan, DQ merekomendasikan aturan kualitas data yang dapat dengan mudah dioperasionalkan oleh pengguna. Statistik meliputi Kelengkapan, Keunikan, Mean, Jumlah,, Entropi, StandardDeviation, dan. DistinctValuesCount UniqueValueRatio

Mengaktifkan deteksi anomali di AWS Glue Studio

Untuk mengaktifkan deteksi anomali, Anda dapat membuka AWS Glue Studio pekerjaan dan mengaktifkan “Aktifkan Deteksi Anomali”. Mengaktifkan ini memungkinkan deteksi anomali pada data Anda dengan menganalisis data Anda dari waktu ke waktu dan memberikan statistik data tentang data dan pengamatan yang dapat Anda lakukan.

Untuk mengaktifkan deteksi anomali di: AWS Glue Studio
  1. Pilih node Kualitas Data di pekerjaan Anda, lalu pilih tab Deteksi anomali. Aktifkan 'Aktifkan Deteksi Anomali'.

    Tangkapan layar menunjukkan sakelar untuk “Aktifkan deteksi anomali” aktif.
  2. Tentukan data untuk memantau anomali dengan memilih Add analyzer. Ada dua bidang yang dapat Anda isi: Statistik dan Data.

    Statistik adalah informasi tentang bentuk data Anda dan properti lainnya. Anda dapat memilih satu atau lebih statistik sekaligus, atau memilih Semua statistik. Statistik meliputi: Kelengkapan, Keunikan, Mean, Jumlah,, Entropi, StandardDeviation, dan. DistinctValuesCount UniqueValueRatio

    Data adalah kolom dalam kumpulan data Anda. Anda dapat memilih semua kolom atau kolom individual.

    Tangkapan layar menunjukkan bidang untuk Statistik dan Data. Anda dapat memilih statistik mana yang ingin Anda terapkan ke kumpulan data Anda dan kolom mana.
  3. Pilih Tambahkan cakupan deteksi anomali untuk menyimpan perubahan Anda. Saat Anda membuat penganalisis, Anda dapat melihatnya di bagian cakupan deteksi anomali.

    Anda juga dapat menggunakan menu Tindakan untuk mengedit penganalisis Anda, atau memilih tab editor Ruleset dan mengedit penganalisis langsung di notepad editor ruleset. Anda akan melihat penganalisis yang Anda simpan tepat di bawah aturan apa pun yang telah Anda buat.

    Rules = [ ] Analyzers = [ Completeness “id” ]

    Dengan aturan yang diperbarui bersama dengan penganalisis, Kualitas Data terus memantau data yang masuk, menandakan anomali melalui peringatan atau penghentian pekerjaan berdasarkan pengaturan Anda.

catatan

Pengamatan dihasilkan ketika minimal tiga nilai per statistik data diamati dalam kumpulan data Anda. Jika tidak ada pengamatan yang terlihat, kualitas data tidak memiliki cukup data untuk menghasilkan pengamatan. Setelah beberapa pekerjaan berjalan, kualitas data dapat memberikan wawasan tentang data Anda dan akan menampilkannya di bagian Pengamatan.

Analyzer menghasilkan pengamatan dengan mendeteksi anomali dalam data Anda dan memberi Anda rekomendasi untuk membangun aturan secara progresif. Anda dapat melihat pengamatan dengan memilih tab Kualitas Data. Pengamatan khusus untuk setiap pekerjaan yang dijalankan. Anda dapat melihat node Kualitas Data tertentu dan pekerjaan yang dijalankan di bagian atas bagian Observasi. Pilih node baru atau job run untuk melihat pengamatan khusus untuk node dan pekerjaan itu.

Tangkapan layar menunjukkan tab Kualitas data untuk pekerjaan dan pengamatan yang disajikan untuk menjalankan pekerjaan.

Pengamatan — setiap wawasan didasarkan pada pekerjaan tertentu yang dikonfigurasi oleh kumpulan aturan dan penganalisis yang Anda tentukan.

Metrik terkait — Saat pengamatan dibuat, kolom metrik Terkait menunjukkan aturan dan nilai aktual dan yang diharapkan, serta batas bawah dan atas.

Rekomendasi aturan — AWS Glue kemudian juga merekomendasikan aturan untuk mengatasi hal ini. Setiap aturan yang direkomendasikan dapat disalin dengan mengklik ikon salin. Anda dapat menyalin semua aturan yang disarankan dengan mengklik ikon salin di samping setiap aturan, lalu mengklik Terapkan aturan yang disalin.

Data yang dipantau - Kolom data yang dipantau menyediakan kolom atau baris yang dipantau dan memicu pengamatan.

Setelah pengamatan dibuat dan aturan yang direkomendasikan disediakan, Anda dapat menerapkan aturan itu ke node kualitas data Anda. Untuk melakukannya:

  1. Klik ikon salin di samping setiap rekomendasi aturan. Ini akan menambahkan rekomendasi aturan ke notepad yang dapat Anda ambil nanti.

  2. Klik Terapkan rekomendasi aturan. Ini membuka notepad tempat Anda dapat melihat aturan yang sebelumnya Anda salin.

  3. Pilih aturan Salin.

  4. Pilih Terapkan ke editor ruleset. Ini membuka editor ruleset tempat Anda dapat menempelkan aturan yang disalin.

  5. Tempelkan aturan yang disalin ke editor ruleset.