Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Jenis aturan ini telah diperluas untuk mendukung dua kasus penggunaan:
Jalankan pernyataan SQL kustom terhadap dataset dan periksa nilai kembali terhadap ekspresi yang diberikan.
Jalankan pernyataan SQL kustom di mana Anda menentukan nama kolom dalam pernyataan SELECT Anda yang Anda bandingkan dengan beberapa kondisi untuk mendapatkan hasil tingkat baris.
Sintaksis
CustomSql
<SQL_STATEMENT>
<EXPRESSION>
SQL_STATEMENT — Pernyataan SQL yang mengembalikan nilai numerik tunggal, dikelilingi oleh tanda kutip ganda.
EXPRESSION — Ekspresi yang dijalankan terhadap respons tipe aturan untuk menghasilkan nilai Boolean. Untuk informasi selengkapnya, lihat Ekspresi.
Contoh: Kustom SQL untuk mengambil hasil aturan keseluruhan
Aturan contoh ini menggunakan pernyataan SQL untuk mengambil jumlah catatan untuk kumpulan data. Aturan kemudian memeriksa bahwa jumlah rekor adalah antara 10 dan 20.
CustomSql "select count(*) from primary" between 10 and 20
Contoh: SQL khusus untuk mengambil hasil tingkat baris
Aturan contoh ini menggunakan pernyataan SQL di mana Anda menentukan nama kolom dalam pernyataan SELECT Anda yang Anda bandingkan dengan beberapa kondisi untuk mendapatkan hasil tingkat baris. Ekspresi kondisi ambang batas mendefinisikan ambang batas berapa banyak catatan yang harus gagal agar seluruh aturan gagal. Perhatikan bahwa aturan mungkin tidak mengandung kondisi dan kata kunci bersama-sama.
CustomSql "select Name from primary where Age > 18"
atau
CustomSql "select Name from primary where Age > 18" with threshold > 3
penting
primary
Alias singkatan dari nama kumpulan data yang ingin Anda evaluasi. Saat Anda bekerja dengan pekerjaan ETL visual di konsol, primary
selalu mewakili DynamicFrame
diteruskan ke EvaluateDataQuality.apply()
transformasi. Bila Anda menggunakan AWS Glue Data Catalog untuk menjalankan tugas kualitas data terhadap tabel, primary
mewakili tabel.
Jika Anda berada di AWS Glue Katalog Data, Anda juga dapat menggunakan nama tabel yang sebenarnya:
CustomSql "select count(*) from database.table" between 10 and 20
Anda juga dapat bergabung dengan beberapa tabel untuk membandingkan elemen data yang berbeda:
CustomSql "select count(*) from database.table inner join database.table2 on id1 = id2" between 10 and 20
Masuk AWS Glue ETL, CustomSQL dapat mengidentifikasi catatan yang gagal pemeriksaan kualitas data. Agar ini berfungsi, Anda harus mengembalikan catatan yang merupakan bagian dari tabel utama yang Anda evaluasi kualitas data. Catatan yang dikembalikan sebagai bagian dari kueri dianggap berhasil dan catatan yang tidak dikembalikan dianggap gagal.
Aturan berikut akan memastikan bahwa catatan dengan usia < 100 diidentifikasi sebagai berhasil dan catatan yang di atas ditandai sebagai gagal.
CustomSql "select id from primary where age < 100"
Aturan CustomSQL ini akan berlalu ketika 50% dari catatan memiliki usia> 10 dan juga akan mengidentifikasi catatan yang gagal. Catatan yang dikembalikan oleh CustomSQL ini akan dianggap lulus sementara yang tidak dikembalikan akan dianggap gagal.
CustomSQL "select ID, CustomerID from primary where age > 10" with threshold > 0.5
Catatan: Aturan CustomSQL akan gagal jika Anda mengembalikan catatan yang tidak tersedia di kumpulan data.