AWS Glue Kualitas Data - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS Glue Kualitas Data

AWS Glue Kualitas Data memungkinkan Anda untuk mengukur dan memantau kualitas data Anda sehingga Anda dapat membuat keputusan bisnis yang baik. Dibangun di atas DeeQu kerangka kerja sumber terbuka, Kualitas AWS Glue Data memberikan pengalaman tanpa server yang dikelola. AWS Glue Kualitas Data bekerja dengan Data Quality Definition Language (DQDL), yang merupakan bahasa khusus domain yang Anda gunakan untuk menentukan aturan kualitas data. Untuk mempelajari lebih lanjut tentang DQDL dan jenis aturan yang didukung, lihat. Referensi Bahasa Definisi Kualitas Data (DQDL)

Untuk detail dan harga produk tambahan, lihat halaman layanan untuk Kualitas AWS Glue Data.

Manfaat dan fitur utama

Manfaat dan fitur utama Kualitas AWS Glue Data meliputi:

  • Tanpa server - tidak ada instalasi, penambalan, atau pemeliharaan.

  • Memulai dengan cepat — Kualitas AWS Glue Data menganalisis data Anda dengan cepat dan membuat aturan kualitas data untuk Anda. Anda dapat memulai dengan dua klik: “Buat Aturan Kualitas Data → Rekomendasikan aturan”.

  • Deteksi masalah kualitas data — Gunakan pembelajaran mesin (ML) untuk mendeteksi anomali dan masalah kualitas hard-to-detect data.

  • Improvisasi aturan Anda — dengan 25+ aturan out-of-the-box DQ untuk memulai, Anda dapat membuat aturan yang sesuai dengan kebutuhan spesifik Anda.

  • Evaluasi kualitas dan buat keputusan bisnis yang percaya diri — Setelah Anda mengevaluasi aturan, Anda mendapatkan skor Kualitas Data yang memberikan gambaran umum tentang kesehatan data Anda. Gunakan skor Kualitas Data untuk membuat keputusan bisnis yang percaya diri.

  • Nol pada data buruk — Kualitas AWS Glue Data membantu Anda mengidentifikasi catatan yang tepat yang menyebabkan skor kualitas Anda turun. Mudah mengidentifikasi mereka, karantina dan memperbaikinya.

  • Bayar saat Anda pergi - Tidak ada lisensi tahunan yang Anda perlukan untuk menggunakan Kualitas AWS Glue Data.

  • Tidak ada penguncian - Kualitas AWS Glue Data dibangun di atas sumber terbuka DeeQu, memungkinkan Anda untuk menjaga aturan yang Anda buat dalam bahasa terbuka.

  • Pemeriksaan kualitas data — Kualitas AWS Glue Data Anda dapat menerapkan pemeriksaan kualitas data Data Catalog dan saluran AWS Glue ETL yang memungkinkan Anda mengelola kualitas data saat istirahat dan dalam perjalanan.

  • Deteksi kualitas data berbasis ML — Gunakan pembelajaran mesin (ML) untuk mendeteksi anomali dan hard-to-detect masalah kualitas data.

Cara kerjanya

Ada dua titik masuk untuk Kualitas AWS Glue Data: pekerjaan AWS Glue ETL AWS Glue Data Catalog dan pekerjaan. Bagian ini memberikan gambaran umum tentang kasus penggunaan dan AWS Glue fitur yang didukung oleh setiap titik masuk.

Kualitas data untuk AWS Glue Data Catalog

AWS Glue Kualitas Data mengevaluasi objek yang disimpan dalam AWS Glue Data Catalog Ini menawarkan non-coders cara mudah untuk mengatur aturan kualitas data. Persona ini termasuk pengelola data dan analis bisnis.

Anda dapat memilih opsi ini untuk kasus penggunaan berikut:

  • Anda ingin melakukan tugas kualitas data pada kumpulan data yang telah dikatalogkan di. AWS Glue Data Catalog

  • Anda bekerja pada tata kelola data dan perlu mengidentifikasi atau mengevaluasi masalah kualitas data di danau data Anda secara berkelanjutan.

Anda dapat mengelola kualitas data untuk Katalog Data menggunakan antarmuka berikut:

  • Konsol AWS Glue manajemen

  • AWS Glue API

Untuk memulai dengan Kualitas AWS Glue Data untuk AWS Glue Data Catalog melihatMemulai dengan AWS Glue Data Quality untuk Data Catalog.

Kualitas data untuk pekerjaan AWS Glue ETL

AWS Glue Kualitas Data untuk pekerjaan AWS Glue ETL memungkinkan Anda melakukan tugas kualitas data proaktif. Tugas proaktif membantu Anda mengidentifikasi dan menyaring data buruk sebelum Anda memuat kumpulan data ke danau data Anda.

Anda dapat memilih kualitas data untuk pekerjaan ETL untuk kasus penggunaan berikut:

  • Anda ingin memasukkan tugas kualitas data ke dalam pekerjaan ETL Anda

  • Anda ingin menulis kode yang mendefinisikan tugas kualitas data dalam skrip ETL

  • Anda ingin mengelola kualitas data yang mengalir di pipeline data visual Anda

Anda dapat mengelola kualitas data untuk pekerjaan ETL menggunakan antarmuka berikut:

  • AWS Glue Studio, AWS Glue Studio notebook, dan sesi AWS Glue interaktif

  • AWS Glue pustaka untuk skrip ETL

  • AWS Glue API

Untuk memulai kualitas data untuk pekerjaan ETL, lihat Tutorial: Memulai Kualitas Data di Panduan AWS Glue Studio Pengguna.

Membandingkan kualitas data untuk Katalog Data dengan kualitas data untuk pekerjaan ETL

Tabel ini memberikan ikhtisar fitur yang didukung oleh setiap titik masuk untuk Kualitas AWS Glue Data.

Fitur Kualitas data untuk Katalog Data Kualitas data untuk pekerjaan ETL
Sumber data Amazon S3, Amazon Redshift, sumber JDBC yang kompatibel dengan Katalog Data, dan format danau data transaksional seperti Apache Iceberg, Apache Hudi, dan Delta Lake. Perhatikan bahwa jika tabel AWS Lake Formation dikelola, tabel Iceberg, Delta, dan HUDI tidak didukung. Amazon Athena tampilan yang dikatalogkan tidak AWS Glue Data Catalog didukung. Semua sumber data yang didukung oleh AWS Glue, termasuk konektor khusus dan konektor pihak ketiga.
Rekomendasi aturan Kualitas Data Didukung Tidak Support
Penulis dan jalankan aturan DQDL Didukung Didukung
Penskalaan otomatis Tidak didukung Didukung
AWS Glue Dukungan Flex Tidak didukung Didukung
Penjadwalan Didukung saat mengevaluasi aturan Kualitas Data dan melalui Step Functions. Didukung saat menggunakan Step Functions dan alur kerja.
Mengidentifikasi catatan yang gagal memeriksa kualitas data Tidak didukung Didukung
Integrasi dengan Amazon Eventbridge Didukung Didukung
Integrasi dengan AWS Cloudwatch Didukung Didukung
Menulis hasil kualitas data ke Amazon S3 Didukung Didukung
Kualitas data tambahan Didukung melalui predikat pushdown Didukung melalui AWS Glue bookmark
AWS CloudFormation dukungan Didukung Didukung
Deteksi anomali berbasis ML Tidak didukung Pratinjau
Aturan dinamis Tidak didukung Didukung

Pertimbangan

Pertimbangkan hal-hal berikut sebelum Anda menggunakan Kualitas AWS Glue Data:

  • Aturan kualitas data tidak dapat mengevaluasi sumber data bertingkat atau tipe daftar. Lihat Ratakan struct bersarang.

Terminologi

Daftar berikut mendefinisikan istilah yang terkait dengan Kualitas AWS Glue Data.

Bahasa Definisi Kualitas Data (DQDL)

Bahasa khusus domain yang dapat Anda gunakan untuk menulis aturan Kualitas AWS Glue Data.

Untuk mempelajari lebih lanjut tentang DQDL, lihat panduannya. Referensi Bahasa Definisi Kualitas Data (DQDL)

kualitas data

Menjelaskan seberapa baik dataset melayani tujuan spesifiknya. AWS Glue Kualitas Data mengevaluasi aturan terhadap kumpulan data untuk mengukur kualitas data. Setiap aturan memeriksa karakteristik tertentu seperti kesegaran atau integritas data. Untuk mengukur kualitas data, Anda dapat menggunakan skor kualitas data.

skor kualitas data

Persentase aturan kualitas data yang lulus (menghasilkan true) saat Anda mengevaluasi kumpulan aturan dengan Kualitas AWS Glue Data.

aturan

Ekspresi DQDL yang memeriksa data Anda untuk karakteristik tertentu dan mengembalikan nilai Boolean. Untuk informasi selengkapnya, lihat Struktur aturan.

analyzer

Ekspresi DQDL yang mengumpulkan statistik data. Analyzer mengumpulkan statistik data yang dapat digunakan oleh algoritma ML untuk mendeteksi anomali dan masalah kualitas hard-to-detect data dari waktu ke waktu.

aturan-aturan

AWS Glue Sumber daya yang terdiri dari seperangkat aturan kualitas data. Sebuah aturan harus dikaitkan dengan tabel di. AWS Glue Data Catalog Saat Anda menyimpan kumpulan aturan, AWS Glue tetapkan Nama Sumber Daya Amazon (ARN) ke kumpulan aturan.

skor kualitas data

Persentase aturan kualitas data yang lulus (menghasilkan true) saat Anda mengevaluasi kumpulan aturan dengan Kualitas AWS Glue Data.

observasi

Wawasan yang belum dikonfirmasi dihasilkan AWS Glue dengan menganalisis statistik data yang dikumpulkan dari aturan dan penganalisis dari waktu ke waktu.

Batas

AWS Glue Batas layanan Kualitas Data:

  • Anda dapat memiliki 2000 aturan dalam kumpulan aturan. Jika aturan Anda lebih besar, kami sarankan untuk membagi menjadi beberapa aturan.

  • Ukuran ruleset adalah 65KB. Jika aturan Anda lebih besar, kami sarankan untuk membagi menjadi beberapa aturan.

Catatan rilis untuk Kualitas AWS Glue Data

Topik ini menjelaskan fitur yang diperkenalkan dalam Kualitas AWS Glue Data.

Ketersediaan umum: fitur baru

Fitur-fitur baru berikut tersedia dengan ketersediaan umum Kualitas AWS Glue Data:

  • Kemampuan untuk mengidentifikasi catatan mana yang gagal pemeriksaan kualitas data sekarang didukung AWS Glue Studio

  • Jenis aturan kualitas data baru seperti memvalidasi integritas referensial data antara dua set data, membandingkan data antara dua kumpulan data, dan pemeriksaan tipe data

  • Pengalaman pengguna yang lebih baik di AWS Glue Data Catalog

  • Support untuk Apache Iceberg, Apache Hudi dan Delta Lake

  • Dukungan untuk Amazon Redshift

  • Pemberitahuan yang disederhanakan dengan Amazon EventBridge

  • AWS CloudFormation dukungan untuk membuat rulesets

  • Peningkatan kinerja: opsi caching di ETL dan AWS Glue Studio untuk kinerja yang lebih cepat saat mengevaluasi kualitas data

27 November 2023 (Pratinjau)

Mar 12, 2024

Juni 26, 2024

  • Perbaikan DQDL

    • DQDL sekarang mendukung klausa where sehingga Anda dapat memfilter data sebelum menerapkan aturan DQ