数据质量 API - AWS Glue
 —  数据类型  —DataSourceDataQualityRulesetListDetailsDataQualityTargetTableDataQualityRulesetEvaluationRunDescriptionDataQualityRulesetEvaluationRunFilterDataQualityEvaluationRunAdditionalRunOptionsDataQualityRuleRecommendationRunDescriptionDataQualityRuleRecommendationRunFilterDataQualityResultDataQualityAnalyzerResultDataQualityObservationMetricBasedObservationDataQualityMetricValuesDataQualityRuleResultDataQualityResultDescriptionDataQualityResultFilterCriteriaDataQualityRulesetFilterCriteria —  操作  —StartDataQualityRulesetEvaluationRun (start_data_quality_ruleset_evaluation_run)CancelDataQualityRulesetEvaluationRun (cancel_data_quality_ruleset_evaluation_run)GetDataQualityRulesetEvaluationRun (get_data_quality_ruleset_evaluation_run)ListDataQualityRulesetEvaluationRuns (list_data_quality_ruleset_evaluation_runs)StartDataQualityRuleRecommendationRun (start_data_quality_rule_recommendation_run)CancelDataQualityRuleRecommendationRun (cancel_data_quality_rule_recommendation_run)GetDataQualityRuleRecommendationRun (get_data_quality_rule_recommendation_run)ListDataQualityRuleRecommendationRuns (list_data_quality_rule_recommendation_runs)GetDataQualityResult (get_data_quality_result)BatchGetDataQualityResult (batch_get_data_quality_result)ListDataQualityResults (list_data_quality_results)CreateDataQualityRuleset (create_data_quality_ruleset)DeleteDataQualityRuleset (delete_data_quality_ruleset)GetDataQualityRuleset (get_data_quality_ruleset)ListDataQualityRulesets (list_data_quality_rulesets)UpdateDataQualityRuleset (update_data_quality_ruleset)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据质量 API

数据质量 API 描述了数据质量数据类型,并包括用于创建、删除或更新数据质量规则集、运行和评估的 API。

数据类型

数据源结构

要获得数据质量结果的数据源(AWS Glue 表)。

字段
  • GlueTable必填:一个 GlueTable 对象。

    AWS Glue 表。

DataQualityRulesetListDetails 结构

描述 GetDataQualityRuleset 返回的数据质量规则集。

字段
  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    数据质量规则集的描述。

  • CreatedOn – 时间戳。

    创建数据质量规则集的日期和时间。

  • LastModifiedOn – 时间戳。

    上次修改数据质量规则集的日期和时间。

  • TargetTable – 一个 DataQualityTargetTable 对象。

    表示 AWS Glue 表的对象。

  • RecommendationRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    当根据建议运行创建规则集时,会生成此运行 ID 以将两者联系在一起。

  • RuleCount – 数字(整数)。

    规则集中的规则数量。

DataQualityTargetTable 结构

表示 AWS Glue 表的对象。

字段
  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    AWS Glue 表的名称。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    AWS Glue 表所在数据库的名称。

  • CatalogId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    AWS Glue 表所在的目录 ID。

DataQualityRulesetEvaluationRunDescription 结构

描述数据质量规则集评估运行的结果。

字段
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此运行的运行状态。

  • StartedOn – 时间戳。

    启动运行的日期和时间。

  • DataSource – 一个 DataSource 对象。

    与运行相关的数据源(AWS Glue 表)。

DataQualityRulesetEvaluationRunFilter 结构

筛选条件。

字段
  • DataSource必填:一个 DataSource 对象。

    根据与运行相关的数据源(AWS Glue 表)进行筛选。

  • StartedBefore – 时间戳。

    按在此时间之前开始的运行筛选结果。

  • StartedAfter – 时间戳。

    按在此时间之后开始的运行筛选结果。

DataQualityEvaluationRunAdditionalRunOptions 结构

您可以为评估运行指定的其他运行选项。

字段
  • CloudWatchMetricsEnabled – 布尔值。

    是否启用 CloudWatch 指标。

  • ResultsS3Prefix – UTF-8 字符串。

    用于存储结果的 Amazon S3 的前缀。

  • CompositeRuleEvaluationMethod – UTF-8 字符串(有效值:COLUMN | ROW)。

    将规则集中复合规则的评估方法设置为 ROW/COLUMN

DataQualityRuleRecommendationRunDescription 结构

描述数据质量规则建议运行的结果。

字段
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此运行的运行状态。

  • StartedOn – 时间戳。

    此运行开始的日期和时间。

  • DataSource – 一个 DataSource 对象。

    与建议运行相关的数据源(AWS Glue 表)。

DataQualityRuleRecommendationRunFilter 结构

用于列出数据质量建议运行的筛选器。

字段
  • DataSource必填:一个 DataSource 对象。

    根据指定的数据源(AWS Glue 表)进行筛选。

  • StartedBefore – 时间戳。

    根据时间进行筛选,以查看在提供的时间之前开始的结果。

  • StartedAfter – 时间戳。

    根据时间进行筛选,以查看在提供的时间之后开始的结果。

DataQualityResult 结构

描述数据质量结果。

字段
  • ResultId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量结果的唯一结果 ID。

  • Score – 数字(双数),不超过 1.0。

    汇总的数据质量分数。表示规则与传递到规则总数的比率。

  • DataSource – 一个 DataSource 对象。

    与数据质量结果相关的表(如果有)。

  • RulesetName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的规则集的名称。

  • EvaluationContext – UTF-8 字符串。

    在 AWS Glue Studio 中的作业环境中,画布中的每个节点通常都被分配某种名称,数据质量节点也会有名称。如果有多个节点,则 evaluationContext 可以区分这些节点。

  • StartedOn – 时间戳。

    此数据质量运行开始的日期和时间。

  • CompletedOn – 时间戳。

    此数据质量运行完成的日期和时间。

  • JobName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业名称(如果有)。

  • JobRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业运行 ID(如果有)。

  • RulesetEvaluationRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    此数据质量结果的规则集评估的唯一运行 ID。

  • RuleResults – 一组 DataQualityRuleResult 对象,不超过 2000 个结构。

    代表每条规则结果的 DataQualityRuleResult 对象列表。

  • AnalyzerResults – 一组 DataQualityAnalyzerResult 对象,不超过 2000 个结构。

    代表每个分析器结果的 DataQualityAnalyzerResult 对象列表。

  • ObservationsDataQualityObservation 对象的数组,不超过 50 个结构。

    代表评估规则和分析器后生成的观测值的 DataQualityObservation 对象列表。

DataQualityAnalyzerResult 结构

描述数据质量分析器评估的结果。

字段
  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量分析器的名称。

  • Description – UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    数据质量分析器的描述。

  • EvaluationMessage – UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    评估消息。

  • EvaluatedMetrics – 键值对的映射数组。

    每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值都是数字(双精度数)。

    与分析器评估相关的指标地图。

DataQualityObservation 结构

描述评估规则和分析器后生成的观测。

字段
  • Description – UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    数据质量观测的描述。

  • MetricBasedObservation – 一个 MetricBasedObservation 对象。

    表示基于所评估数据质量指标的观测的 MetricBasedObservation 类型对象。

MetricBasedObservation 结构

描述基于所评估数据质量指标生成的基于指标的观测。

字段
  • MetricName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于生成观测的数据质量指标的名称。

  • MetricValues – 一个 DataQualityMetricValues 对象。

    表示数据质量指标值分析的 DataQualityMetricValues 类型对象。

  • NewRules – UTF-8 字符串数组。

    根据数据质量指标值,作为观测结果的一部分生成的新数据质量规则列表。

DataQualityMetricValues 结构

根据对历史数据的分析,描述数据质量指标值。

字段
  • ActualValue – 数字(double)。

    数据质量指标的实际值。

  • ExpectedValue – 数字(double)。

    根据对历史数据的分析,数据质量指标的预期值。

  • LowerLimit – 数字(double)。

    根据对历史数据的分析,数据质量指标的下限值。

  • UpperLimit – 数字(double)。

    根据对历史数据的分析,数据质量指标的上限值。

DataQualityRuleResult 结构

描述数据质量规则评估运行的结果。

字段
  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则的名称。

  • Description – UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    数据质量规则的描述。

  • EvaluationMessage – UTF-8 字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    评估消息。

  • Result – UTF-8 字符串(有效值:PASS | FAIL | ERROR)。

    规则的通过或失败状态。

  • EvaluatedMetrics – 键值对的映射数组。

    每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值都是数字(双精度数)。

    与规则评估相关的指标地图。

DataQualityResultDescription 结构

描述数据质量结果。

字段
  • ResultId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    此数据质量结果的唯一结果 ID。

  • DataSource – 一个 DataSource 对象。

    与数据质量结果相关的表。

  • JobName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业名称。

  • JobRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业运行 ID。

  • StartedOn – 时间戳。

    此数据质量结果的运行开始的时间。

DataQualityResultFilterCriteria 结构

用于返回数据质量结果的标准。

字段
  • DataSource – 一个 DataSource 对象。

    按指定的数据源筛选结果。例如,检索 AWS Glue 表的所有结果。

  • JobName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    按指定的任务名称筛选结果。

  • JobRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    按指定的任务运行 ID 筛选结果。

  • StartedAfter – 时间戳。

    按在此时间之后开始的运行筛选结果。

  • StartedBefore – 时间戳。

    按在此时间之前开始的运行筛选结果。

DataQualityRulesetFilterCriteria 结构

用于筛选数据质量规则集的条件。

字段
  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    规则集筛选条件的名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    规则集筛选条件的描述。

  • CreatedBefore – 时间戳。

    筛选在此日期之前创建的规则集。

  • CreatedAfter – 时间戳。

    筛选在此日期之后创建的规则集。

  • LastModifiedBefore – 时间戳。

    筛选此日期之前最后一次修改的规则集。

  • LastModifiedAfter – 时间戳。

    筛选此日期之后最后一次修改的规则集。

  • TargetTable – 一个 DataQualityTargetTable 对象。

    目标表的名称和数据库名称。

操作

StartDataQualityRulesetEvaluationRun 操作(Python:start_data_quality_ruleset_evaluation_run)

有了规则集定义(推荐定义或您自己的定义)后,就可以调用此操作来根据数据源(AWS Glue 表)评估规则集。评估会计算出您可以使用 GetDataQualityResult API 检索的结果。

请求
  • DataSource必填:一个 DataSource 对象。

    与此运行相关的数据源(AWS Glue 表)。

  • Role必填:UTF-8 字符串。

    为加密运行结果而提供的 IAM 角色。

  • NumberOfWorkers – 数字(整数)。

    运行所用的 G.1X 工作线程数量。默认值为 5。

  • Timeout - 数字(整数),至少为 1。

    运行超时(分钟)。这是任务运行在终止并进入 TIMEOUT 状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。

  • ClientToken – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于幂等性,建议设置为随机 ID(例如,UUID),以避免创建或启动同一资源的多个实例。

  • AdditionalRunOptions – 一个 DataQualityEvaluationRunAdditionalRunOptions 对象。

    您可以为评估运行指定的其他运行选项。

  • RulesetNames必填:UTF-8 字符串数组,不少于 1 个或不超过 10 个字符串。

    规则集名称的列表。

  • AdditionalDataSources – 键值对的映射数组。

    每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值都是一个 DataSource 对象。

    您可以为评估运行指定的其他数据来源的引用字符串地图。

响应
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

错误
  • InvalidInputException

  • EntityNotFoundException

  • OperationTimeoutException

  • InternalServiceException

  • ConflictException

CancelDataQualityRulesetEvaluationRun 操作(Python:cancel_data_quality_ruleset_evaluation_run)

取消正在根据数据源评估规则集的运行。

请求
  • RunId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityRulesetEvaluationRun 操作(Python:get_data_quality_ruleset_evaluation_run)

检索正在根据数据源评估规则集的特定运行。

请求
  • RunId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

响应
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

  • DataSource – 一个 DataSource 对象。

    与此评估运行相关的数据源(AWS Glue 表)。

  • Role – UTF-8 字符串。

    为加密运行结果而提供的 IAM 角色。

  • NumberOfWorkers – 数字(整数)。

    运行所用的 G.1X 工作线程数量。默认值为 5。

  • Timeout - 数字(整数),至少为 1。

    运行超时(分钟)。这是任务运行在终止并进入 TIMEOUT 状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。

  • AdditionalRunOptions – 一个 DataQualityEvaluationRunAdditionalRunOptions 对象。

    您可以为评估运行指定的其他运行选项。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此运行的运行状态。

  • ErrorString – UTF-8 字符串。

    与运行关联的错误字符串。

  • StartedOn – 时间戳。

    此运行开始的日期和时间。

  • LastModifiedOn – 时间戳。

    时间戳。此数据质量规则建议运行最后一个修改时间点。

  • CompletedOn – 时间戳。

    此运行的完成日期和时间。

  • ExecutionTime – 数字(整数)。

    运行使用资源的时间长度(以秒为单位)。

  • RulesetNames – UTF-8 字符串数组,不少于 1 个字符串,不超过 10 个字符串。

    运行的规则集名称列表。目前,此参数仅采用一个规则集名称。

  • ResultIds — UTF-8 字符串数组,不少于 1 个字符串,不超过 10 个字符串。

    运行数据质量结果的结果 ID 列表。

  • AdditionalDataSources – 键值对的映射数组。

    每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值都是一个 DataSource 对象。

    您可以为评估运行指定的其他数据来源的引用字符串地图。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityRulesetEvaluationRuns 操作(Python: list_data_quality_ruleset_evaluation_runs)

列出所有符合筛选条件的运行,其中根据数据源对规则集进行评估。

请求
  • Filter – 一个 DataQualityRulesetEvaluationRunFilter 对象。

    筛选条件。

  • NextToken – UTF-8 字符串。

    用于偏移结果的分页令牌。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

响应
  • RunsDataQualityRulesetEvaluationRunDescription 对象的数组。

    代表数据质量规则集规则的 DataQualityRulesetEvaluationRunDescription 对象列表。

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartDataQualityRuleRecommendationRun 操作(Python:start_data_quality_rule_recommendation_run)

当您不知道要写什么规则时,不妨开始用于生成规则的建议运行。AWS GlueData Quality 分析数据,并就潜在的规则集提出建议。然后,您可以对规则集进行分类,并根据自己的喜好修改生成的规则集。

建议运行在 90 天后被自动删除。

请求
  • DataSource必填:一个 DataSource 对象。

    与此运行相关的数据源(AWS Glue 表)。

  • Role必填:UTF-8 字符串。

    为加密运行结果而提供的 IAM 角色。

  • NumberOfWorkers – 数字(整数)。

    运行所用的 G.1X 工作线程数量。默认值为 5。

  • Timeout - 数字(整数),至少为 1。

    运行超时(分钟)。这是任务运行在终止并进入 TIMEOUT 状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。

  • CreatedRulesetName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    规则集的名称。

  • ClientToken – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于幂等性,建议设置为随机 ID(例如,UUID),以避免创建或启动同一资源的多个实例。

响应
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConflictException

CancelDataQualityRuleRecommendationRun 操作(Python:cancel_data_quality_rule_recommendation_run)

取消用于生成规则的指定建议运行。

请求
  • RunId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityRuleRecommendationRun 操作(Python:get_data_quality_rule_recommendation_run)

获取用于生成规则的指定建议运行。

请求
  • RunId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

响应
  • RunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与此运行关联的唯一运行标识符。

  • DataSource – 一个 DataSource 对象。

    与此运行相关的数据源(AWS Glue 表)。

  • Role – UTF-8 字符串。

    为加密运行结果而提供的 IAM 角色。

  • NumberOfWorkers – 数字(整数)。

    运行所用的 G.1X 工作线程数量。默认值为 5。

  • Timeout - 数字(整数),至少为 1。

    运行超时(分钟)。这是任务运行在终止并进入 TIMEOUT 状态前可以使用资源的最长时间。默认值为 2880 分钟(48 小时)。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    此运行的运行状态。

  • ErrorString – UTF-8 字符串。

    与运行关联的错误字符串。

  • StartedOn – 时间戳。

    此运行开始的日期和时间。

  • LastModifiedOn – 时间戳。

    时间戳。此数据质量规则建议运行最后一个修改时间点。

  • CompletedOn – 时间戳。

    此运行的完成日期和时间。

  • ExecutionTime – 数字(整数)。

    运行使用资源的时间长度(以秒为单位)。

  • RecommendedRuleset – UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。

    启动规则建议运行完成后,它会创建建议的规则集(一组规则)。该成员的规则采用数据质量定义语言(DQDL)格式。

  • CreatedRulesetName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    运行创建的规则集的名称。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityRuleRecommendationRuns 操作(Python:list_data_quality_rule_recommendation_runs)

列出符合筛选条件的建议运行。

请求
  • Filter – 一个 DataQualityRuleRecommendationRunFilter 对象。

    筛选条件。

  • NextToken – UTF-8 字符串。

    用于偏移结果的分页令牌。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

响应
  • RunsDataQualityRuleRecommendationRunDescription 对象的数组。

    DataQualityRuleRecommendationRunDescription 对象的列表。

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityResult 操作(Python:get_data_quality_result)

检索数据质量规则评估的结果。

请求
  • ResultId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量结果的唯一结果 ID。

响应
  • ResultId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量结果的唯一结果 ID。

  • Score – 数字(双数),不超过 1.0。

    汇总的数据质量分数。表示规则与传递到规则总数的比率。

  • DataSource – 一个 DataSource 对象。

    与数据质量结果相关的表(如果有)。

  • RulesetName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的规则集的名称。

  • EvaluationContext – UTF-8 字符串。

    在 AWS Glue Studio 中的作业环境中,画布中的每个节点通常都被分配某种名称,数据质量节点也会有名称。如果有多个节点,则 evaluationContext 可以区分这些节点。

  • StartedOn – 时间戳。

    开始运行此数据质量结果的日期和时间。

  • CompletedOn – 时间戳。

    完成运行此数据质量结果的日期和时间。

  • JobName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业名称(如果有)。

  • JobRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与数据质量结果相关的作业运行 ID(如果有)。

  • RulesetEvaluationRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与规则集评估相关的唯一运行 ID。

  • RuleResults – 一组 DataQualityRuleResult 对象,不超过 2000 个结构。

    代表每条规则结果的 DataQualityRuleResult 对象列表。

  • AnalyzerResults – 一组 DataQualityAnalyzerResult 对象,不超过 2000 个结构。

    代表每个分析器结果的 DataQualityAnalyzerResult 对象列表。

  • ObservationsDataQualityObservation 对象的数组,不超过 50 个结构。

    代表评估规则和分析器后生成的观测值的 DataQualityObservation 对象列表。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • EntityNotFoundException

BatchGetDataQualityResult 操作(Python:batch_get_data_quality_result)

检索指定结果 ID 的数据质量结果列表。

请求
  • ResultIds必填:UTF-8 字符串数组,不少于 1 个字符串,不超过 100 个字符串。

    数据质量结果的唯一结果 ID 列表。

响应
  • Results必填:DataQualityResult 对象的数组。

    代表数据质量规则集的 DataQualityResult 对象列表。

  • ResultsNotFound – UTF-8 字符串数组,不少于 1 个字符串,不超过 100 个字符串。

    未找到结果的结果 ID 列表。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityResults 操作(Python:list_data_quality_results)

返回您账户的所有数据质量执行结果。

请求
  • Filter – 一个 DataQualityResultFilterCriteria 对象。

    筛选条件。

  • NextToken – UTF-8 字符串。

    用于偏移结果的分页令牌。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

响应
  • Results必填:DataQualityResultDescription 对象的数组。

    DataQualityResultDescription 对象的列表。

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

错误
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

CreateDataQualityRuleset 操作(Python:create_data_quality_ruleset)

创建数据质量规则集,将 DQDL 规则应用于指定 AWS Glue 表。

您可以使用数据质量定义语言 (DQDL) 创建规则集。有关更多信息,请参见 AWS Glue 开发人员指南。

请求
  • Name必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的唯一名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    数据质量规则集的描述。

  • Ruleset必填: UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。

    数据质量定义语言(DQDL)规则集。有关更多信息,请参见 AWS Glue 开发人员指南。

  • Tags – 键值对的映射数组,不超过 50 对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    应用于数据质量规则集的标签列表。

  • TargetTable – 一个 DataQualityTargetTable 对象。

    与数据质量规则集关联的目标表。

  • RecommendationRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    建议运行的唯一运行 ID。

  • ClientToken – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于幂等性,建议设置为随机 ID(例如,UUID),以避免创建或启动同一资源的多个实例。

响应
  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的唯一名称。

错误
  • InvalidInputException

  • AlreadyExistsException

  • OperationTimeoutException

  • InternalServiceException

  • ResourceNumberLimitExceededException

DeleteDataQualityRuleset 操作(Python:delete_data_quality_ruleset)

删除数据质量规则集。

请求
  • Name必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityRuleset 操作(Python:get_data_quality_ruleset)

按标识符或名称返回现有规则集。

请求
  • Name必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    规则集的名称。

响应
  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    规则集的名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    规则集的描述。

  • Ruleset – UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。

    数据质量定义语言(DQDL)规则集。有关更多信息,请参见 AWS Glue 开发人员指南。

  • TargetTable – 一个 DataQualityTargetTable 对象。

    目标表的名称和数据库名称。

  • CreatedOn – 时间戳。

    时间戳。此数据质量规则集的创建时间和日期。

  • LastModifiedOn – 时间戳。

    时间戳。此数据质量规则最后一个修改时间点。

  • RecommendationRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    当根据建议运行创建规则集时,会生成此运行 ID 以将两者联系在一起。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityRulesets 操作(Python:list_data_quality_rulesets)

返回指定 AWS Glue 表列表的分页规则集列表。

请求
  • NextToken – UTF-8 字符串。

    用于偏移结果的分页令牌。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要返回的最大结果数量。

  • Filter – 一个 DataQualityRulesetFilterCriteria 对象。

    筛选条件。

  • Tags – 键值对的映射数组,不超过 50 对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    键值对标签的列表。

响应
  • RulesetsDataQualityRulesetListDetails 对象的数组。

    指定 AWS Glue 表列表的分页规则集列表。

  • NextToken – UTF-8 字符串。

    分页令牌(如果有更多结果可用)。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

UpdateDataQualityRuleset 操作(Python:update_data_quality_ruleset)

更新指定的数据质量规则集。

请求
  • Name必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    规则集的描述。

  • Ruleset – UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。

    数据质量定义语言(DQDL)规则集。有关更多信息,请参见 AWS Glue 开发人员指南。

响应
  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据质量规则集的名称。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    规则集的描述。

  • Ruleset – UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节。

    数据质量定义语言(DQDL)规则集。有关更多信息,请参见 AWS Glue 开发人员指南。

错误
  • EntityNotFoundException

  • AlreadyExistsException

  • IdempotentParameterMismatchException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ResourceNumberLimitExceededException