数据质量规则生成器 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据质量规则生成器

使用数据质量定义语言(DQDL)规则生成器,您可以创建数据质量规则来评估数据。首先选择规则类型,然后在规则编辑器中指定参数。在您创建规则时,规则编辑器还会向您显示任何错误和警告。

DQDL 指南提供了有关如何使用 DQDL 语法、内置规则类型和示例构造规则的综合性文档。

Evaluate Data Quality(评估数据质量)节点

使用评估数据质量转换节点和 DQDL 规则生成器时,可以扩展工作空间。

  • 要展开转换选项卡以填满整个屏幕,请选择节点详细信息面板右上角的展开图标。

  • 要展开 DQDL 规则编辑器,请选择 << 图标展开规则编辑器并折叠规则类型架构选项卡。

    屏幕截图显示了带有评估数据质量节点的作业图。

组件

AWS Glue Studio 内置了 26 种规则类型。每种规则类型都有一个描述以及若干个用法示例。

数据质量规则类型

AWS Glue Studio 提供了一些内置规则类型,以便于创建规则。有关规则类型的更多信息,请参阅 DQDL 规则类型参考

架构

Schema(架构)选项卡显示来自父节点的列名和数据类型。显示来自多个节点的架构。您可以查看输入架构、按列名搜索并将列插入规则编辑器。

屏幕截图显示了规则编辑器,其中包含使用完整性规则类型的完整规则。

规则编辑器

规则编辑器是一个文本编辑器,您可以在其中编写和编辑规则。如果您从 DQDL 规则生成器中选择规则类型,则该规则类型将添加到规则编辑器中。然后,您可以根据需要通过修改文本来指定参数、添加规则和编辑规则。AWS Glue Studio 验证规则编辑器中的规则并显示错误和警告(如果存在)。

Errors and warnings(错误和警告)

如果规则不遵循 DQDL 规则语法,则规则编辑器将显示几个可视指示符指示存在错误:

  • 规则编辑器在出现错误的行上显示错误图标和红色。

  • 规则编辑器在红色错误图标旁边显示错误数。

  • 当您选择有错误的行时,错误描述和位置(行和列)将显示在规则编辑器的底部。

屏幕截图显示了 DQDL 规则编辑器,第 1 行和规则编辑器底部有错误指示器,其中包含错误数量。下面是错误的描述。

数据质量操作

默认情况下,此操作处于未选中状态,即使数据质量规则失败,作业也将完成运行。

在以下操作之间进行选择。您可以使用操作将结果发布到 CloudWatch 或根据特定条件停止作业。只有在创建规则后,操作才可用。

  • 将结果发布到 CloudWatch — 当您运行作业时,将结果添加到 CloudWatch。

  • 数据质量失败时作业失败 — 如果数据质量规则失败,作业也将因此失败。

数据质量转换输出

  • 原始数据 — 选择输出原始输入数据。如果您想在检测到质量问题时停止作业,则此选项非常理想。

  • 数据质量指标 — 选择输出配置的规则及其通过或失败状态。如果您想执行自定义操作,此选项很有用。

数据质量输出设置

通过将 Amazon S3 位置指定为数据质量输出目标来设置数据质量结果位置。