Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengevaluasi kumpulan aturan kualitas data terhadap a DynamicFrame
dan mengembalikan yang baru DynamicFrame
dengan hasil evaluasi.
Contoh
Kode contoh berikut menunjukkan bagaimana mengevaluasi kualitas data untuk DynamicFrame
dan kemudian melihat hasil kualitas data.
from awsglue.transforms import *
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsgluedq.transforms import EvaluateDataQuality
#Create Glue context
sc = SparkContext.getOrCreate()
glueContext = GlueContext(sc)
# Define DynamicFrame
legislatorsAreas = glueContext.create_dynamic_frame.from_catalog(
database="legislators", table_name="areas_json")
# Create data quality ruleset
ruleset = """Rules = [ColumnExists "id", IsComplete "id"]"""
# Evaluate data quality
dqResults = EvaluateDataQuality.apply(
frame=legislatorsAreas,
ruleset=ruleset,
publishing_options={
"dataQualityEvaluationContext": "legislatorsAreas",
"enableDataQualityCloudWatchMetrics": True,
"enableDataQualityResultsPublishing": True,
"resultsS3Prefix": "amzn-s3-demo-bucket1",
},
)
# Inspect data quality results
dqResults.printSchema()
dqResults.toDF().show()
root
|-- Rule: string
|-- Outcome: string
|-- FailureReason: string
|-- EvaluatedMetrics: map
| |-- keyType: string
| |-- valueType: double
+-----------------------+-------+-------------+---------------------------------------+
|Rule |Outcome|FailureReason|EvaluatedMetrics |
+-----------------------+-------+-------------+---------------------------------------+
|ColumnExists "id" |Passed |null |{} |
|IsComplete "id" |Passed |null |{Column.first_name.Completeness -> 1.0}|
+-----------------------+-------+-------------+---------------------------------------+
Metode
__call__ (bingkai, kumpulan aturan, publishing_options = {})
-
frame
—DynamicFrame
Yang Anda inginkan mengevaluasi kualitas data. -
ruleset
— Aturan Bahasa Definisi Kualitas Data (DQDL) dalam format string. Untuk mempelajari lebih lanjut tentang DQDL, lihat panduannya. Referensi Bahasa Definisi Kualitas Data (DQDL) -
publishing_options
— Kamus yang menentukan opsi berikut untuk mempublikasikan hasil evaluasi dan metrik:-
dataQualityEvaluationContext
— String yang menentukan namespace di mana AWS Glue harus mempublikasikan Amazon CloudWatch metrik dan hasil kualitas data. Metrik agregat muncul di CloudWatch, sementara hasil lengkap muncul di antarmuka AWS Glue Studio.-
Wajib: Tidak
-
Nilai default:
default_context
-
-
enableDataQualityCloudWatchMetrics
— Menentukan apakah hasil evaluasi kualitas data harus dipublikasikan ke CloudWatch. Anda menentukan namespace untuk metrik menggunakan opsi.dataQualityEvaluationContext
-
Wajib: Tidak
-
Nilai default: Salah
-
-
enableDataQualityResultsPublishing
— Menentukan apakah hasil kualitas data harus terlihat pada tab Kualitas Data di antarmuka AWS Glue Studio.-
Wajib: Tidak
-
Nilai default: Benar
-
-
resultsS3Prefix
— Menentukan lokasi Amazon S3 di mana AWS Glue dapat menulis hasil evaluasi kualitas data.-
Wajib: Tidak
-
Nilai default: “” (string kosong)
-
-
apply(cls, *args, **kwargs)
Warisan dari GlueTransform
apply.
name(cls)
Warisan dari GlueTransform
name.
describeArgs(cls)
Warisan dari GlueTransform
describeArgs.
describeReturn(cls)
Warisan dari GlueTransform
describeReturn.
describeTransform(cls)
Warisan dari GlueTransform
describeTransform.
describeErrors(cls)
Warisan dari GlueTransform
describeErrors.
describe(cls)
Warisan dari GlueTransform
describe.