EvaluateDataQuality クラス - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

EvaluateDataQuality クラス

DynamicFrame に対してデータ品質ルールセットを評価し、評価結果を含む新しい DynamicFrame を返します。

次のコード例は、DynamicFrame のデータ品質を評価し、データ品質結果を表示する方法を示しています。

from awsglue.transforms import * from pyspark.context import SparkContext from awsglue.context import GlueContext from awsgluedq.transforms import EvaluateDataQuality #Create Glue context sc = SparkContext.getOrCreate() glueContext = GlueContext(sc) # Define DynamicFrame legislatorsAreas = glueContext.create_dynamic_frame.from_catalog( database="legislators", table_name="areas_json") # Create data quality ruleset ruleset = """Rules = [ColumnExists "id", IsComplete "id"]""" # Evaluate data quality dqResults = EvaluateDataQuality.apply( frame=legislatorsAreas, ruleset=ruleset, publishing_options={ "dataQualityEvaluationContext": "legislatorsAreas", "enableDataQualityCloudWatchMetrics": True, "enableDataQualityResultsPublishing": True, "resultsS3Prefix": "DOC-EXAMPLE-BUCKET1", }, ) # Inspect data quality results dqResults.printSchema() dqResults.toDF().show()
root |-- Rule: string |-- Outcome: string |-- FailureReason: string |-- EvaluatedMetrics: map | |-- keyType: string | |-- valueType: double +-----------------------+-------+-------------+---------------------------------------+ |Rule |Outcome|FailureReason|EvaluatedMetrics | +-----------------------+-------+-------------+---------------------------------------+ |ColumnExists "id" |Passed |null |{} | |IsComplete "id" |Passed |null |{Column.first_name.Completeness -> 1.0}| +-----------------------+-------+-------------+---------------------------------------+

方法

__call__(frame, ruleset, publishing_options = {})

  • frame – データ品質を評価したい DynamicFrame

  • ruleset – 文字列形式のデータ品質定義言語 (DQDL) ルールセット。DQDL の詳細については、データ品質定義言語 (DQDL) リファレンス のガイドを参照してください。

  • publishing_options – 評価結果とメトリクスを発行する次のオプションを指定するディクショナリ。

    • dataQualityEvaluationContext – AWS Glue が Amazon CloudWatch メトリクスとデータ品質結果を発行する名前空間を指定する文字列。集計されたメトリクスは CloudWatch に表示され、完全な結果は AWS Glue Studio インターフェイスに表示されます。

      • 必須: いいえ

      • デフォルト値: default_context

    • enableDataQualityCloudWatchMetrics– データ品質評価の結果を CloudWatch に発行するかどうかを指定します。dataQualityEvaluationContext オプションを使用してメトリクスの名前空間を指定します。

      • 必須: いいえ

      • デフォルト値: False

    • enableDataQualityResultsPublishing – データ品質結果を AWS Glue Studio インターフェイスの [Data Quality] (データ品質) タブに表示するかどうかを指定します。

      • 必須: いいえ

      • デフォルト値: True

    • resultsS3Prefix – AWS Glue がデータ品質評価結果を書き込める Amazon S3 ロケーションを指定します。

      • 必須: いいえ

      • デフォルト値: "" (空の文字列)

apply(cls, *args, **kwargs)

継承元は GlueTransform apply

name(cls)

継承元は GlueTransform name

describeArgs(cls)

継承元は GlueTransform describeArgs

describeReturn(cls)

継承元は GlueTransform describeReturn

describeTransform(cls)

継承元は GlueTransform describeTransform

describeErrors(cls)

継承元は GlueTransform describeErrors

describe(cls)

継承元は GlueTransform 説明