AWS Glue Data Quality - AWS Glue

AWS Glue Data Quality

AWS Glue Data Quality 帮助您衡量和监控数据质量,从而做出明智的业务决策。AWS Glue Data Quality 建立在开源 DeeQu 框架之上,提供托管的无服务器体验。AWS GlueData Quality 使用数据质量定义语言(DQDL),这是一种特定领域的语言,用于定义数据质量规则。要了解有关 DQDL 和支持的规则类型的更多信息,请参阅 数据质量定义语言(DQDL)引用

有关产品详细信息和定价,请参阅 AWS Glue Data Quality 服务页面。

优点和主要功能

  • 无服务器 — 无需安装、修补或维护。

  • 快速入门 — AWS Glue Data Quality 可快速分析您的数据并为您创建数据质量规则。只需点击两下即可开始:“创建数据质量规则 → 推荐规则”。

  • 即兴制定规则 — 从超过 25 个开箱即用的 DQ 规则开始,您可以创建适合自己特定需求的规则。

  • 评估质量并做出自信的业务决策 — 评估规则后,您将获得一个数据质量分数,该分数可以概述数据的运行状况。使用数据质量分数做出自信的业务决策。

  • 聚焦不良数据 — AWS Glue Data Quality 可帮助您识别导致质量分数下降的确切记录。轻松识别它们,对其进行隔离和修复。

  • 按实际使用量付费 — 无需年度许可证即可使用 AWS Glue Data Quality

  • 无锁定 — AWS Glue Data Quality 建立在开源 DeeQu 之上,允许您保留以开放语言编写的规则。

  • 数据质量检查 — AWS Glue Data Quality:您可以对 Data Catalog 和 AWS Glue ETL 管道进行数据质量检查,从而管理静态和传输中的数据质量。

工作原理

AWS Glue Data Quality 有两个入口点:AWS Glue Data Catalog 和 AWS Glue ETL 作业。本节概述了每个入口点支持的用例和 AWS Glue 功能。

AWS Glue Data Catalog 的数据质量

AWS Glue Data Quality 评估存储在 AWS Glue Data Catalog 中的对象。它为非编码人员提供了一种设置数据质量规则的简便方法。这些角色包括数据管理员和业务分析师。

您可以为以下用例选择此选项:

  • 您想对已在 AWS Glue Data Catalog 中编目的数据集执行数据质量任务。

  • 您从事数据治理工作,需要持续识别或评估数据湖中的数据质量问题。

您可以使用以下界面管理 Data Catalog 的数据质量:

  • AWS Glue 管理控制台

  • AWS Glue API

要开始为 AWS Glue Data Catalog 使用 AWS Glue Data Quality,请参阅 AWS Glue Data Quality for the Data Catalog 入门

AWS Glue ETL 作业的数据质量

适用于 AWS Glue ETL 的 AWS Glue Data Quality 允许您主动执行数据质量任务。主动任务可帮助您在将数据集加载到数据湖之前识别并筛选出不良数据。

您可以针对以下用例为 ETL 作业选择数据质量:

  • 您想将数据质量任务整合到您的 ETL 作业中

  • 您想编写在 ETL 脚本中定义数据质量任务的代码

  • 您想管理可视化数据管道中流出的数据的质量

您可以使用以下界面管理适用于 ETL 作业的数据质量:

  • AWS Glue Studio、AWS Glue Studio 笔记本和 AWS Glue 交互式会话

  • 用于 ETL 脚本的 AWS Glue 库

  • AWS Glue API

要开始了解适用于 ETL 作业的数据质量,请参阅《AWS Glue Studio 用户指南》中的 Tutorial: Getting started with Data Quality

将 Data Catalog 的数据质量与适用于 ETL 作业的数据质量进行比较

下表概述了 AWS Glue Data Quality 支持的每个入口点的功能。

特征 Data Catalog 的数据质量 ETL 作业的数据质量
数据源 Amazon S3、Amazon Redshift、与 Data Catalog 兼容的 JDBC 源以及交易数据湖格式,例如 Apache Iceberg、Apache Hudi 和 Delta Lake。 AWS Glue 支持的所有数据来源,包括自定义连接器和第三方连接器。
数据质量规则建议 支持 不支持
编写并运行 DQDL 规则 支持 支持
Auto Scaling 不支持 支持
AWS Glue Flex 支持 不支持 支持
计划 在评估 Data Quality 规则时和通过 Step Functions 时支持。 使用 Step Functions 和工作流程时支持。
识别未通过数据质量检查的记录 不支持 支持
与 Amazon EventBridge 集成 支持 支持
将 AWS CloudWatch 集成 支持 支持
将数据质量结果写入 Amazon S3 支持 支持
增量数据质量 通过下推谓词支持 通过 AWS Glue 书签支持
AWS CloudFormation 支持 支持 支持

注意事项

在使用 AWS Glue Data Quality 之前,请考虑以下各项。

  • 数据质量规则无法评估嵌套或列表类型的数据源。

术语

下表定义了与 AWS Glue Data Quality 相关的术语。

数据质量定义语言(DQDL)

一种特定领域的语言,可用于编写 AWS Glue Data Quality 规则。

要了解有关 DQDL 的更多信息,请参阅数据质量定义语言(DQDL)引用指南。

数据质量

描述数据集在多大程度上发挥其特定用途。AWS GlueData Quality 根据数据集评估规则以衡量数据质量。每条规则都检查特定特征,例如数据新鲜度或完整性。要量化数据质量,可以使用数据质量分数

数据质量分数

当您使用 AWS Glue 数据质量评估规则集时,通过(结果为真)的数据质量规则的百分比。

规则

DQDL 表达式,用于检查您的数据是否存在特定特征并返回布尔值。有关更多信息,请参阅规则结构

规则集

一种包含一组数据质量规则的 AWS Glue 资源。规则集必须与 AWS Glue Data Catalog 中的一个表格关联。保存规则集时,AWS Glue 会为规则集分配一个 Amazon 资源名称(ARN)。

AWS Glue Data Quality 发布说明

本主题介绍了 AWS Glue Data Quality 中引入的功能。

正式上市:新功能

随着 AWS Glue Data Quality 的正式上市,将提供以下新功能:

  • 现在 AWS Glue Studio 支持识别哪些记录未通过数据质量检查的功能

  • 新的数据质量规则类型,例如验证两个数据集之间数据的引用完整性、比较两个数据集之间的数据以及数据类型检查

  • 改善了 AWS Glue Data Catalog 中的用户体验

  • 支持 Apache Iceberg、Apache Hudi 和 Delta Lake

  • 支持 Amazon Redshift

  • 使用 Amazon EventBridge 简化通知

  • AWS CloudFormation 支持创建规则集

  • 性能改进:ETL 和 AWS Glue Studio 中的缓存选项以及评估数据质量时更快的性能